تحلیل دیتا بیاموزید


bigdata

دوره جامع پرورش کارشناس علم داده

علم داده (Data Science) رشته‌ای است که در سال‌های اخیر طرفداران زیادی پیدا کرده به طوری که جز 10 شغل پر درآمد محسوب می‌شود. علم داده با بهره‌گیری از ریاضیات، آمار و علوم کامپیوتر به استخراج و تحلیل داده‌های موجود اعم از ساختار یافته (داده‌های موجود در دیتا بیس‌ها) و ساختارنیافته (ایمیل‌ها، تصاویر، شبکه‌های اجتماعی و…) می‌پردازد.

با توجه به نیاز بازار کار ایران به آموزش علم داده، همچنین نیاز علاقه مندان این حوزه موسسه پژوهش و آموزش همکاران سیستم دوره جامع پرورش کارشناس علم داده را به مجموعه دوره‌های تخصصی خود اضافه نمود. این دوره توسط اساتید مجرب مجموعه همکاران سیستم برگزار می‌گردد.

مزایای شرکت در دوره جامع پرورش کارشناس علم داده:

  • برای معرفی به بازار کار در الویت موسسه قرار خواهید گرفت.
  • در مقایسه با کاربرانی که دوره‌ها را به صورت مجزا و تک تک ثبت نام می‌کنند، حداقل 25% هزینه کمتری پرداخت خواهید کرد.

آنچه در دوره جامع پرورش کارشناس علم داده فرا خواهید گرفت:

دوره آموزش علم داده یا data scince

جزئیات

دوره‌های مرتبط

شرایط پرداخت

• شرایط پرداخت:
o نقدی : در صورت پرداخت نقدی مبلغ 3.00۰.۰۰۰ ریال به عنوان تخفیف از کل شهریه کسر خواهد شد.
o اقساط: 30% نقد، 70% طی 2 فقره چک با فاصله يك ماه

برنامه برگزاری دوره‌های آموزشی

آیین‌نامه آموزشی

کاربر گرامی، ضمن تشکر از انتخاب موسسه پژوهش و آموزش همکاران سیستم، خواهشمند است قبل از ثبت نام، موارد زیر را مطالعه نمایید.

۸ گام برای گذار از توسعه‌دهنده به تحلیلگر کسب‌وکار

یکی از سوالاتی که اخیرا زیاد با آن مواجه ‌‌می‌شویم این است که افراد ‌‌می‌گویند: «من مدتی است که توسعه‌دهنده نرم‌افزار هستم و حالا می‌خواهم در مورد یک نقش جدید یاد بگیرم. من درباره شغل تحلیلگر کسب‌وکار هیجان زده هستم، اما هیچ ایده‌ای برای انتقال به حرفه جدید ندارم.»

امروزه فناوری فرصت‌های فوق‌العاده‌ای را برای بهبود ‌‌کسب‌وکار ارائه ‌‌می‌دهد. تحلیلگر ‌‌کسب‌وکار شغلی است که در آن فرد ‌‌می‌تواند در تعیین استراتژی، ارائه پیشنهادات، کسب درآمد و حاشیه سود آن سازمان مشارکت داشته باشد. این اتفاق فرصتی عالی برای تعامل با بسیاری از سهامداران، توسعه راهکارهای‌های نوآورانه و بهبود راهکارهای موجود است. تحلیلگران کسب‌وکار پلی بین ذینفعان کسب‌وکار و معماران فن‌آوری هستند.

IIBA در راهنمای مجموعه دانش ‌‌تجزیه‌وتحلیل ‌‌کسب‌وکار (BABOK Guide)، تحلیل کسب و کار را به عنوان روشی برای ایجاد امکان تغییر در یک شرکت با تعریف نیازها و توصیه راه حل‌هایی که ارزشی را به سهامداران ارائه ‌‌می‌دهد، تعریف ‌‌می‌کند. تحلیلگران کسب‌وکار، به شرکت کمک ‌‌می‌کنند که نیازها و منطق خود را برای تغییر، طراحی و توصیف راهکارهایی که خلق ارزش ‌‌می‌کنند، بیان کنند.

در هر حال، یک نقش جدید نیاز به مهارت‌های جدید دارد. به عنوان یک توسعه‌دهنده، فرد این مزیت را دارد که از قبل با جنبه فناوری کار آشنا است. با این حال، برخی پس از گذشت زمان و فعالیت در حوزه تکنولوژی، تمایل بیشتری به حضور در حوزه کسب‌وکار پیدا ‌‌می‌کنند. بنابراین، زمان آن است که در مورد کسب‌وکار یاد بگیرید و یک تحلیلگر کسب‌وکار شوید. در ادامه هشت گام پیشنهادی برای تبدیل شدن از یک توسعه‌دهنده به یک تحلیلگر کسب‌وکار را بررسی ‌‌می‌کنیم.

۱. اصول ‌‌کسب‌وکار را بیاموزید.

اولین قدم این است که درک کنیم ‌‌کسب‌وکارها چگونه اداره می‌شوند و چه کاری انجام می‌دهند. یک نقطه شروع خوب، گذر از چارچوب طبقه‌بندی فرآیند عمو‌‌می است که توسط APQC ارائه شده است. همچنین خواندن کتاب‌های بنیادی درباره استراتژی کسب‌وکار، بازاریابی، امور مالی، منابع انسانی، و عملیات ایده خوبی خواهد بود؛ زیرا دیدگاه سطح بالایی از کسب‌وکار، عملیات آن، و اهداف کارکردی مختلف را برای شما فراهم خواهد کرد.

۲. مهارت‌های رفتاری را توسعه دهید.تحلیل دیتا بیاموزید

دومین جنبه اصلی که در آن نقش تحلیلگر ‌‌کسب‌وکار به طور قابل توجهی با نقش توسعه‌دهنده متفاوت است، میزان تعامل مورد انتظار از تحلیلگران کسب‌وکار است. به طور معمول، توسعه‌دهندگان تحت نظر یک مدیر پروژه کار ‌‌می‌کنند. به عنوان یک تحلیلگر کسب‌وکار، فرد باید یاد بگیرد که چگونه با اسپانسر، متخصص موضوع، کاربران نهایی، و ذینفعان دیگر کسب‌وکار، از جمله تامین‌کنندگان تعامل برقرار کند. این موضوع نیازمند تقویت مهارت‌های شخص در حوزه رفتاری است. مهارت‌های کلیدی برای یک تحلیلگر کسب‌وکار عبارتند از: برقراری ارتباط، تعامل با ذینفعان، مهارت‌های گوش دادن فعال، تسهیلگری، مهارت‌های ارائه و مهارت‌های حل مسئله و …
چگونه یک فرد ‌‌می‌تواند مهارت‌های رفتاری خود را تقویت کند؟

یک راه این است که در هر فرصتی که به دست می‌آید، این مهارت‌ها را تمرین کنید.

برای برقراری ارتباط و صحبت کردن فعال باشید. شما ‌‌می‌توانید گفت‌وگوی خود را با استفاده از تلفن همراه ضبط کنید و سپس آن را ‌‌تجزیه‌وتحلیل و بررسی کنید که آیا به طور واضح و به زبان و روش صحیح ارتباط برقرار می‌کنید یا خیر.

ممکن است سازمان شما در حال حاضر آموزش‌هایی در حوزه رفتاری و در زمینه مهارت‌های برقراری ارتباط، مذاکره، ابراز وجود و مهارت‌های تسهیلگری ارائه دهد. از آموزش‌های رفتاری موجود در سازمان خود بهره ببرید و در این مهارت‌ها پیشرفت کنید.

دوره‌های آنلاین رایگان زیادی نیز وجود دارند که می‌توانند به تقویت مهارت‌های رفتاری کمک کنند.

۳. فرآیند تحلیل ‌‌کسب‌وکار را بیاموزید.

مانند هر فعالیت دیگری، ‌‌تجزیه‌وتحلیل کسب‌وکار نیز از یک فرآیند پیروی می‌کند. برخی از کتاب‌های راهنما ‌‌می‌گویند که فرآیند ‌‌تجزیه‌وتحلیل ‌‌کسب‌وکار را نمی‌توان استاندارد کرد. اما ما در بیشتر در پروژه‌های تجربی خود، مشاهده کرده‌ایم که در ‌‌تجزیه‌وتحلیل کسب‌وکار یک رویکرد نسبتا خوب تعریف شده‌است.

بهترین بخش این است که می‌توانید بر روی استانداردهای اصلی تحلیل ‌‌کسب‌وکار جهانی از IIBA کار کنید. این سند به شما ایده خوبی از نحوه عملکرد واقعی ‌‌تجزیه‌وتحلیل کسب‌وکار می‌دهد.

تحلیلگر کسب‌وکار و ابزارهای آنالیز

۴. ابزارهای مدل‌سازی الزامات و مدیریتی را یاد بگیرید.

مانند بیشتر مشاغل، تحلیلگران کسب‌وکار نیز از ابزارهای بسیاری به عنوان بخشی از کار خود استفاده می‌کنند. برخی از ابزارهای محبوب عبارتند از مدل‌سازی فرآیند کسب‌وکار، state modeling و use case modeling.

شما می‌توانید از نسخه آزمایشی Microsoft Visio که ابزار محبوبی در بسیاری از سازمان‌ها است، استفاده کنید. شما همچنین می‌توانید دیگر ابزارهای رایگان، مانند نمودار لوسید یا مدل‌ساز فرآیند کسب‌وکار BizAgi یا StarUML را یاد بگیرید. همچنین می‌توانید آموزش ببینید که بعضی از فرآیندها را در محل کار خود مدلسازی کنید.

۵. حوزه فعالیت سازمان خود تحلیل دیتا بیاموزید را بیاموزید.

یکی از بهترین مکان‌ها برای شروع سفر ‌‌تجزیه‌وتحلیل کسب‌وکار، سازمان فعلی شماست. شما بخشی از سازمان هستید و افراد، فرآیندها و ابزارها را ‌‌می‌شناسید، اما در عین حال، ذینفعان ‌‌کسب‌وکار شما از شما انتظار دارند که تفاوت‌های ظریف حوزه فعالیت سازمان خود را درک کنید.

تقریبا در تمام حوزه‌ها، منابع خوبی در اینترنت و شاید در سازمان شما وجود داشته باشد. پیشنهاد خوب دیگری که ما توصیه می‌کنیم این است که به دنبال یک کتاب راهنما در حوزه فعالیت خود بگردید. به عنوان مثال، اگر در حوزه خرده‌فروشی هستید، به دنبال کتابی در مورد این دامنه بگردید؛ یعنی مثلا کتابچه راهنمای مدیریت خرده فروشی. با مرور این کتابچه، ایده نسبتا خوبی در مورد نحوه عملکرد دامنه خرده‌فروشی به دست خواهید آورد. هنگا‌‌می‌که دامنه سازمان خود را درک کنید، پذیرفتن شما توسط ذی‌نفعانبه عنوان یک تحلیلگر کسب‌وکار دو برابر بیشتر می‌شود.

۶. در فعالیت‌های مربوط به جمع‌آوری الزامات به عنوان تحلیلگر کسب‌وکار شرکت کنید.

حالا که برخی اصول ‌‌تجزیه‌وتحلیل کسب‌وکار را یاد گرفته‌اید، بهترین موقعیت برای یادگیری و تمرین درگیر شدن در جمع‌آوری نیازمندی‌های پروژه است. برای ‌‌تجزیه‌وتحلیل کسب‌وکار فعلی پروژه خود، یک تحلیلگر کسب‌وکار در سایه باشید. این کار برای شما این امکان را فراهم می‌کند که مفاهیمی که آموخته‌اید را تمرین کنید.
تمرین باعث تکامل است. هر مهارتی را می‌توانید یاد بگیرید؛ به شرط اینکه تمایل داشته باشید برای این یادگیری تلاش کنید.

۷. در گروه‌ها یا کنفرانس‌های حرفه‌ای در مورد ‌‌تجزیه‌وتحلیل کسب‌وکار شرکت کنید.

گروه‌های حرفه‌ای و کنفرانس‌های مجازی و فیزیکی زیادی در حوزه ‌‌تجزیه‌وتحلیل کسب‌وکار وجود دارد. در این رویدادها شرکت کنید تا درک کنید که ‌‌تجزیه‌وتحلیل ‌‌کسب‌وکارها چگونه در حال تغییر است و روند آن چیست و چگونه ‌‌می‌توانید مفاهیم جدید ‌‌تجزیه‌وتحلیل ‌‌کسب‌وکار را به سازمان خود بیاورید.

همچنین، گروه‌های علاقه‌مند و حرفه‌ای زیادی در لینکدین و انجمن‌های مشابه در اینترنت وجود دارند که شما می‌توانید در آن‌ها بحث کنید، مشارکت کنید، از تجربه‌های خود صحبت کنید و مهارت‌هایی را که برای تبدیل شدن به یک تحلیلگر کسب‌وکار حرفه‌ای نیاز دارید، یاد بگیرید.

۸. به عنوان یک تحلیلگر کسب‌وکار گواهینامه دریافت کنید.

برای اثبات شایستگی خود به عنوان یک تحلیلگر ‌‌کسب‌وکار، بهترین کار این است که با شرکت در دوره‌های معتبر در حوزه ‌‌تجزیه‌وتحلیل ‌‌کسب‌وکار گواهینامه بگیرید. بسیاری از سازمان‌ها گواهی ‌‌تجزیه‌وتحلیل کسب‌وکار ارائه می‌دهند و برجسته‌ترین آن‌ها IIBA است.

در اواخر سال ۲۰۱۶، IIBA گواهی ورود به تجزیه و تحلیل کسب‌وکار (ECBA) را راه اندازی کرد؛ این طرح امکان صدور گواهینامه جدیدی که نیازهای روز را تشخیص ‌‌دهد و خواسته‌های بسیاری را برآورده ‌‌کند فراهم کرده است.ECBبه نیاز‌های آن دسته از افراد حرفه‌ای که به حوزه تحلیل کسب‌وکار وارد می‌شوند یا حرفه خود را شروع می‌کنند، پاسخ می‌دهد..

ECBA به هیچ تجربه کاری قبلی در زمینه تحلیل کسب‌وکار نیاز ندارد و تحلیل دیتا بیاموزید یک آزمون مبتنی بر دانش است. ECBA بیشتر بر روی حوزه‌های مختلف دانش در زمینه تحلیل کسب‌وکار که قرار است برای تحلیل‌گران کسب‌وکار جدید استفاده شود، مانند ‌‌تجزیه‌وتحلیل نیازمندی‌ها، مدیریت و استخراج چرخه عمر نیازمندی‌ها و همکاری مشترک تمرکز می‌کند.

توسعه‌دهندگان زیادی در سطح دنیا فعالیت دارند و بعضی از آن‌ها به دنبال کسب تجارب جدید و فعالیت در یک حوزه تازه هستند و تحلیلگر کسب‌وکار یکی از انتخاب‌های پر تکرار در سال‌های اخیر است. گره زدن فعالیت‌های عملیاتی با کسب‌وکار و ایجاد یک پل ارتباطی موثر بین آن‌ها، کاربردی و پر از چالش است. در این مقاله سعی کردیم به ۸ گام موثر بپردازیم که با کمک آن توسعه‌دهندگان می‌توانند به یک تحلیلگر کسب‌وکار تبدیل شوند. امیدواریم مطالعه این مقاله برای شما جالب توجه باشد و خوشحال ‌‌می‌شویم تا نظرات خود را با ما در میان بگذارید.

داده‌های عظیم -بیگ دیتا – چیست ؟

داده‌های عظیم معمولاً به مجموعه‌ای از داده‌ها گفته می‌شود که اندازه آن‌ها فراتر از حدی است که با نرم‌افزارهای معمول بتوان آن‌ها را در یک‌زمان معقول اخذ، دقیق سازی، مدیریت و پردازش کرد. مفهوم «اندازه» در داده‌های بزرگ به‌طور مستمر در حال تغییر است و به‌مرور بزرگ‌تر می‌شود. داده‌های عظیم مجموعه‌ای از فن‌ها و تاکتیک‌هایی است که نیازمند شکل جدیدی از یکپارچگی هستند تا بتوانند ارزش‌های بزرگی را که در مجموعه‌های بزرگ، وسیع، پیچیده و متنوع داده پنهان‌شده‌اند، آشکار سازند.

طبق تعریف مؤسسه تحقیقاتی گارتنر: به دارایی‌های اطلاعاتی با حجم بالا، شتاب بالا و تنوع بالا که نیازمند اشکال جدید پردازشی است و تصمیم‌گیری پیشرفته، کشف بینش و بهینه‌سازی فرآیند را امکان‌پذیر می‌سازد داده‌های عظیم گفته می‌شود.

سه بعد از چالش‌ها و فرصت‌های پیش رو در حوزه رشد داده:

۱- افزایش در میزان داده، ۲

– افزایش سرعت تولید داده‌های ورودی و

۳- خروجی و افزایش محدوده تنوع و منابع داده‌ها. به‌طورکلی منشأ داده‌های عظیم عبارت‌اند از:

شبکه و رسانه‌های اجتماعی، اینترنت اشیاء، توسعه دسترسی نسل‌های جدید تلفن همراه و ثابت، توسعه خدمات نوین الکترونیکی و توسعه کاربردهای فناوری اطلاعات و ارتباطات در بخش‌های مختلف.

bigdata

bigdata

سرعت تولید اطلاعات در سامانه‌های رایانه‌ای به‌سرعت در حال افزایش است، در سال ۲۰۱۰ سرعت تولید اطلاعات به حدی رسید که در هر دو روز، بیش از کل داده‌هایی که تا سال ۲۰۰۳ تولیدشده بود داده تولید می‌شد.

این در حالی است که بر اساس یکی از تحقیقات IDC اطلاعات تولیدشده در سال ۲۰۲۰ پنجاه برابر داده‌های تولیدشده در سال ۲۰۱۱ خواهد بود. در یک تحقیق دیگر میزان تولید داده در سال ۲۰۱۰ به ازای هر دو روز حدود ۵ اکزابایت (۱۰ ۱۸ بایت) تخمین زده‌شده است، درحالی‌که پیش‌بینی‌ها نشان می‌دهد این مقدار در سال ۲۰۲۰ به ۴۰ زتابایت (۱۰ ۲۱ بایت) خواهد رسید. این مسئله اهمیت توجه به روش‌های آنالیز، نگهداری و انتقال داده‌های عظیم را نشان می‌دهد.

حجم اطلاعاتی که تا سال ۲۰۰۳ توسط انسان ایجاد شد تنها ۵ اگزابایت است اما امروزه این حجم از اطلاعات تنها در عرض دو روز ایجاد می‌شود. در تحقیقی نشان داد که هرروز ۲.۵ اگزابایت داده تولید می‌شود و حدود ۹۰ درصد داده‌های موجود تنها در دو سال اخیر تولیدشده است. هر رایانه شخصی حدود ۵۰۰ گیگابایت اطلاعات در خود نگهداری می‌کند و در دنیا حدود ۲۰ میلیون رایانه شخصی وجود دارد. درگذشته فرآیند توصیف ژن انسان حدود ده سال طول می‌کشید درحالی‌که امروز در کمتر از یک هفته انجام می‌شود.

شرکتی مثل گوگل بیلیون‌ها سرور در سطح جهان دارد. حدود شش بیلیون مشترک تلفن همراه در جهان همه‌روزه ۱۰ میلیون پیام متنی ارسال و دریافت می‌کنند و تا سال ۲۰۲۰ حدود ۵۰ بیلیون وسیله متصل به اینترنت و شبکه وجود خواهد داشت. حجم داده‌های تجاری تقریباً در سراسر جهان، هر ۱.۲ سال دو برابر می‌شود. حجم کل داده‌های تولیدشده در جهان که در سال ۲۰۱۱ حدود ۱.۸ زتابایت بوده با نرخ تقریباً هر پنج سال ۹ برابر افزایش می‌یابد. بر این اساس پیش‌بینی‌ها نشان می‌دهد شکل ۱ حجم داده‌ها با نرخ تقریبی نه برابر در هر پنج سال افزایش می‌یابد. ]۴[

افزایش تقریبی نه برابری حجم داده‌ها به ازا هر پنج سال

از سال ۲۰۱۲ به بعد در هرروز ۱۰۰۰ پتابایت داده تولید می‌شود که به دنبال خود مستلزم ذخیره‌سازی، تحلیل، جستجوها، تمیزکاری داده‌ها، اشتراک‌ها و غیره در داده‌هاست که باید در حوزه مختلف انجام شود. این موضوع باعث شده است که پژوهشگران و دانشمندان به دنبال ایجاد ساختارها، متدولوژی‌ها، روش‌ها و رویکردهای جدیدی برای مدیریت، کنترل و پردازش این حجم از داده‌ها باشند که این تلاش‌ها در ذیل سایه داده‌های عظیم مطرح‌شده است. داده‌های عظیم یک اصطلاح برای مجموعه‌های داده خیلی بزرگ است که ازنظر ساختار، پیچیدگی و منابع تولید بسیار متنوع هستند و ذخیره و آنالیز آن‌ها کار پیچیده‌ای است.

در سال ۲۰۱۳، داده‌های عظیم به‌عنوان یک پروژه مهم و جهانی مطرح شد. پروژه‌ای که به جمع‌آوری، بصری سازی و آنالیز مقدار زیادی داده می‌پردازد. در راستای این پروژه اطلاعات آماری زیادی ارائه گردید. فیس‌بوک ماهانه حدود ۹۵۵ میلیون کاربر فعال به ۷۰ زبان زنده دنیا دارد و حدود ۱۴۰ بیلیون عکس در آن بارگذاری می‌شود و ۱۲۵ میلیون ارتباط دوستی برقرار می‌گردد. هرروزه ۳۰ بیلیون نوشته و ۲.۷ بیلیون لایک و توضیحات ارسال می‌گردد. در یوتیوب هر دقیقه ۴۸ ساعت ویدیو بارگذاری و هرروزه ۴ بیلیون فیلم اجرا می‌گردد. گوگل نیز از خدمات زیادی پشتیبانی می‌کند ازجمله ۷.۲ بیلیون صفحه در هرروز و ۲۰ پتابایت (۱۰ ۱۵ بایت) فرآیند روزانه و ترجمه به ۶۶ زبان؛ یک بیلیون توییت در هر ۷۲ ساعت، بیشتر از ۱۴۰ میلیون فعالیت کاربران توییتر است. تعداد ۵۷۱ وب‌گاه جدید در هر دقیقه از روز ایجاد می‌شود. پیش‌بینی می‌شود در طی دهه آینده حجم اطلاعات ۵۰ بار افزایش یابد، البته همزمان تعداد فنّاوری‌های خاص اطلاعاتی که برای نگهداری این داده‌ها ایجاد می‌شود نیز ۱.۵ برابر می‌گردد.

در حوزه وب، حجم زیاد اطلاعات با رشد نمایی ۱۱ میلیارد صفحه در ۲۰۰۵ (ایران ده میلیون) و ۱۵۰ میلیارد صفحه در ۲۰۱۴ (ایران شش‌صد میلیون) تولید می‌شود و در محیط پویا صفحات جدید هم با نرخ ۸ درصد در هفته تولید می‌شوند، البته ۲۰ درصد صفحات موجود بعد از یک سال قابل‌دسترس نیستند.

۱-۱- ویژگی‌های داده‌های عظیم

داده‌های عظیم به مجموعه داده‌هایی اشاره دارد که با استفاده از روش‌های سنتی فناوری اطلاعات و ابزارهای سخت‌افزاری و نرم‌افزاری موجود در آن نمی‌توانند در زمان معقولی درک، گردآوری، مدیریت و پردازش شوند. داده‌های عظیم روش‌ها و فناوری‌های نوینی را جهت جمع‌آوری، ذخیره و آنالیز داده‌های غیر ساخت‌یافته به‌صورت مقیاس‌پذیر معرفی می‌کند. خواص پایه سه‌گانه داده‌های عظیم: حجم، سرعت و تنوع و خواص هفتگانه حجم، سرعت، ارزش، تنوع، صحت، اعتبار و نوسان است.

به‌صورت کلی داده‌های عظیم با پنج ویژگی زیر شناخته می‌شود:

کمیت داده‌هایی که جمع‌آوری می‌شود اهمیت زیادی دارند. اندازه داده‌ها مشخص می‌کند که آیا این داده‌ها می‌توانند به‌صورت بالقوه داده عظیم تلقی شوند یا نه؟

یکی دیگر از مشخصات داده‌های عظیم، تنوع داده‌ها است؛ بنابراین اینکه داده‌ها مربوط به چه صنعتی است و چه مفهومی را پشتیبانی می‌کند و در نتیجه چقدر نیاز به تجزیه‌وتحلیل داده‌ها وجود دارد، در تعیین آن‌ها به‌عنوان داده عظیم نقش دارد.

میزان داده تولیدشده در یک بازه زمانی یا به عبارت بهتر، سرعت ایجاد داده‌های جدید.

تغییر داده‌های ورودی، یکی از اصلی‌ترین مشکلات مرتبط با داده‌های عظیم است. این مفهوم به ناپایداری محیط‌هایی که داده در آن تولید می‌شود برمی‌گردد. هر چه ناپایداری در محیط بیشتر باشد، مدیریت و تحلیل داده‌ها سخت‌تر خواهد شد.

مدیریت داده‌ها فرآیند بسیار پیچیده‌ای است، به‌ویژه وقتی‌که حجم زیادی از داده‌های پیچیده از منابع.

داده‌های عظیم -بیگ دیتا – چیست ؟

داده‌های عظیم معمولاً به مجموعه‌ای از داده‌ها گفته می‌شود که اندازه آن‌ها فراتر از حدی است که با نرم‌افزارهای معمول بتوان آن‌ها را در یک‌زمان معقول اخذ، دقیق سازی، مدیریت و پردازش کرد. مفهوم «اندازه» در داده‌های بزرگ به‌طور مستمر در حال تغییر است و به‌مرور بزرگ‌تر می‌شود. داده‌های عظیم مجموعه‌ای از فن‌ها و تاکتیک‌هایی است که نیازمند شکل جدیدی از یکپارچگی هستند تا بتوانند ارزش‌های بزرگی را که در مجموعه‌های بزرگ، وسیع، پیچیده و متنوع داده پنهان‌شده‌اند، آشکار سازند.

طبق تعریف مؤسسه تحقیقاتی گارتنر: به دارایی‌های اطلاعاتی با حجم بالا، شتاب بالا و تنوع بالا که نیازمند اشکال جدید پردازشی است و تصمیم‌گیری پیشرفته، کشف بینش و بهینه‌سازی فرآیند را امکان‌پذیر می‌سازد داده‌های عظیم گفته می‌شود.

سه بعد از چالش‌ها و فرصت‌های پیش رو در حوزه رشد داده:

۱- افزایش در میزان داده، ۲

– افزایش سرعت تولید داده‌های ورودی و

۳- خروجی و افزایش محدوده تنوع و منابع داده‌ها. به‌طورکلی منشأ داده‌های عظیم عبارت‌اند از:

شبکه و رسانه‌های اجتماعی، اینترنت اشیاء، توسعه دسترسی نسل‌های جدید تلفن همراه و ثابت، توسعه خدمات نوین الکترونیکی و توسعه کاربردهای فناوری اطلاعات و ارتباطات در بخش‌های مختلف.

bigdata

bigdata

سرعت تولید اطلاعات در سامانه‌های رایانه‌ای به‌سرعت در حال افزایش است، در سال ۲۰۱۰ سرعت تولید اطلاعات به حدی رسید که در هر دو روز، بیش از کل داده‌هایی که تا سال ۲۰۰۳ تولیدشده بود داده تولید می‌شد.

این در حالی است که بر اساس یکی از تحقیقات IDC اطلاعات تولیدشده در سال ۲۰۲۰ پنجاه برابر داده‌های تولیدشده در سال ۲۰۱۱ خواهد بود. در یک تحقیق دیگر میزان تولید داده در سال ۲۰۱۰ به ازای هر دو روز حدود ۵ اکزابایت (۱۰ ۱۸ بایت) تخمین زده‌شده است، درحالی‌که پیش‌بینی‌ها نشان می‌دهد این مقدار در سال ۲۰۲۰ به ۴۰ زتابایت (۱۰ ۲۱ بایت) خواهد رسید. این مسئله اهمیت توجه به روش‌های آنالیز، نگهداری و انتقال داده‌های عظیم را نشان می‌دهد.

حجم اطلاعاتی که تا سال ۲۰۰۳ توسط انسان ایجاد شد تنها ۵ اگزابایت است اما امروزه این حجم از اطلاعات تنها در عرض دو روز ایجاد می‌شود. در تحقیقی نشان داد که هرروز ۲.۵ اگزابایت داده تولید می‌شود و حدود ۹۰ درصد داده‌های موجود تنها در دو سال اخیر تولیدشده است. هر رایانه شخصی حدود ۵۰۰ گیگابایت اطلاعات در خود نگهداری می‌کند و در دنیا حدود ۲۰ میلیون رایانه شخصی وجود دارد. درگذشته فرآیند توصیف ژن انسان حدود ده سال طول می‌کشید درحالی‌که امروز در کمتر از یک هفته انجام می‌شود.

شرکتی مثل گوگل بیلیون‌ها سرور در سطح جهان دارد. حدود شش بیلیون مشترک تلفن همراه در جهان همه‌روزه ۱۰ میلیون پیام متنی ارسال و دریافت می‌کنند و تا سال ۲۰۲۰ حدود ۵۰ بیلیون وسیله متصل به اینترنت و شبکه وجود خواهد داشت. حجم داده‌های تجاری تقریباً در سراسر جهان، هر ۱.۲ سال دو برابر می‌شود. حجم کل داده‌های تولیدشده در جهان که در سال ۲۰۱۱ حدود ۱.۸ زتابایت بوده با نرخ تقریباً هر پنج سال ۹ برابر افزایش می‌یابد. بر این اساس پیش‌بینی‌ها نشان می‌دهد شکل ۱ حجم داده‌ها با نرخ تقریبی نه برابر در هر پنج سال افزایش می‌یابد. ]۴[

افزایش تقریبی نه برابری حجم داده‌ها به ازا هر پنج سال

از سال ۲۰۱۲ به بعد در هرروز ۱۰۰۰ پتابایت داده تولید می‌شود که به دنبال خود مستلزم ذخیره‌سازی، تحلیل، جستجوها، تمیزکاری داده‌ها، اشتراک‌ها و غیره در داده‌هاست که باید در حوزه مختلف انجام شود. این موضوع باعث شده است که پژوهشگران و دانشمندان به دنبال ایجاد ساختارها، متدولوژی‌ها، روش‌ها و رویکردهای جدیدی برای مدیریت، کنترل و پردازش این حجم از داده‌ها باشند که این تلاش‌ها در ذیل سایه داده‌های عظیم مطرح‌شده است. داده‌های عظیم یک اصطلاح برای مجموعه‌های داده خیلی بزرگ است که ازنظر ساختار، پیچیدگی و منابع تولید بسیار متنوع هستند و ذخیره و آنالیز آن‌ها کار پیچیده‌ای است.

در سال ۲۰۱۳، داده‌های عظیم به‌عنوان یک پروژه مهم و جهانی مطرح شد. پروژه‌ای که به جمع‌آوری، بصری سازی و آنالیز مقدار زیادی داده می‌پردازد. در راستای این پروژه اطلاعات آماری زیادی ارائه گردید. فیس‌بوک ماهانه حدود ۹۵۵ میلیون کاربر فعال به ۷۰ زبان زنده دنیا دارد و حدود ۱۴۰ بیلیون عکس در آن بارگذاری می‌شود و ۱۲۵ میلیون ارتباط دوستی برقرار می‌گردد. هرروزه ۳۰ بیلیون نوشته و ۲.۷ بیلیون لایک و توضیحات ارسال می‌گردد. در یوتیوب هر دقیقه ۴۸ ساعت ویدیو بارگذاری و هرروزه ۴ بیلیون فیلم اجرا می‌گردد. گوگل نیز از خدمات زیادی پشتیبانی می‌کند ازجمله ۷.۲ بیلیون صفحه در هرروز و ۲۰ پتابایت (۱۰ ۱۵ بایت) فرآیند روزانه و ترجمه به ۶۶ زبان؛ یک بیلیون توییت در هر ۷۲ ساعت، بیشتر از ۱۴۰ میلیون فعالیت کاربران توییتر است. تعداد ۵۷۱ وب‌گاه جدید در هر دقیقه از روز ایجاد می‌شود. پیش‌بینی می‌شود در طی دهه آینده حجم اطلاعات ۵۰ بار افزایش یابد، البته همزمان تعداد فنّاوری‌های خاص اطلاعاتی که برای نگهداری این داده‌ها ایجاد می‌شود نیز ۱.۵ برابر می‌گردد.

در حوزه وب، حجم زیاد اطلاعات با رشد نمایی ۱۱ میلیارد صفحه در ۲۰۰۵ (ایران ده میلیون) و ۱۵۰ میلیارد صفحه در ۲۰۱۴ (ایران شش‌صد میلیون) تولید می‌شود و در محیط پویا صفحات جدید هم با نرخ ۸ درصد در هفته تولید می‌شوند، البته ۲۰ درصد صفحات موجود بعد از یک سال قابل‌دسترس نیستند.

۱-۱- ویژگی‌های داده‌های عظیم

داده‌های عظیم به مجموعه داده‌هایی اشاره دارد که با استفاده از روش‌های سنتی فناوری اطلاعات و ابزارهای سخت‌افزاری و نرم‌افزاری موجود در آن نمی‌توانند در زمان معقولی درک، گردآوری، مدیریت و پردازش شوند. داده‌های عظیم روش‌ها و فناوری‌های نوینی را جهت جمع‌آوری، ذخیره و آنالیز داده‌های غیر ساخت‌یافته به‌صورت مقیاس‌پذیر معرفی می‌کند. خواص پایه سه‌گانه داده‌های عظیم: حجم، سرعت و تنوع و خواص هفتگانه حجم، سرعت، ارزش، تنوع، صحت، اعتبار و نوسان است.

به‌صورت کلی داده‌های عظیم با پنج ویژگی زیر شناخته می‌شود:

کمیت داده‌هایی که جمع‌آوری می‌شود اهمیت زیادی دارند. اندازه داده‌ها مشخص می‌کند که آیا این داده‌ها می‌توانند به‌صورت بالقوه داده عظیم تلقی شوند یا نه؟

یکی دیگر از مشخصات داده‌های عظیم، تنوع داده‌ها است؛ بنابراین اینکه داده‌ها مربوط به چه صنعتی است و چه مفهومی را پشتیبانی می‌کند و در نتیجه چقدر نیاز به تجزیه‌وتحلیل داده‌ها وجود دارد، در تعیین آن‌ها به‌عنوان داده عظیم نقش دارد.

میزان داده تولیدشده در یک بازه زمانی یا به عبارت بهتر، سرعت ایجاد داده‌های جدید.

تغییر داده‌های ورودی، یکی از اصلی‌ترین مشکلات مرتبط با داده‌های عظیم است. این مفهوم به ناپایداری محیط‌هایی که داده در آن تولید می‌شود برمی‌گردد. هر چه ناپایداری در محیط بیشتر باشد، مدیریت و تحلیل داده‌ها سخت‌تر خواهد شد.

مدیریت داده‌ها فرآیند بسیار پیچیده‌ای است، به‌ویژه وقتی‌که حجم زیادی از داده‌های پیچیده از منابع.

آموزش : داده های گمشده در SPSS

در یک بررسی و مطالعه بسیار اتفاق می‌افتد که مقادیر برخی از کمیت‌ها اندازه‌گیری نشده‌اند و یا قابل اندازه‌گیری و مشاهده نبوده‌اند. به عنوان مثال در یک پرسش‌نامه که از سوال‌شونده درخواست می‌شود اطلاعات شخصی خود را بیان کند، گاهی اوقات پاسخی به برخی از سوالات داده نمی‌شود. در این‌گونه موارد با نتایجی تحت عنوان داده های گمشده روبه‌رو هستیم. در این نوشتار آموزشی می‌خواهیم با استفاده از نرم‌افزار SPSS روش‌هایی را برای جایگزین کردن برخی مقادیر خاص به جای Missing Value در SPSS بیان کنیم.

داده های گمشده خوب

به این نکته توجه کنید ما مقادیر متفاوت و مختلفی را می‌توانیم به ازای داده های گمشده در یک تحقیق، قرار دهیم که به ماهیت و نوع تحقیق بستگی تمام دارد، ما با برخی از این مقادیر در ادامه آشنا خواهیم شد. با این‌حال همواره توصیه نمی‌شود که به ازای داده های گمشده‌ی یک مطالعه، مقادیر مرتبط جایگزاری شود بلکه گاهی اوقات وجود این داده های گمشده و حجم آن‌ها می‌تواند خود حامل موارد و اطلاعات مفیدی باشد.

مجموعه آموزشی آمار

مجموعه آموزشی آمار کار با نرم‌افزار از مقدماتی تا پیشرفته (ارسال رایگان به تهران و شهرستان)

مثال آموزشی جایگزاری داده های گمشده در SPSS

در یک تحقیق بر روی درآمد ۲۴ نفر از کارکنان یک موسسه دانشگاهی مشاهده شده است که ۷ نفر به سوال میزان درآمد ماهیانه خود پاسخ نداده‌اند. نحوه ورود اطلاعات و داده های گمشده در SPSS آمده است. داده های گمشده در SPSS تحت عنوان Missing Values و با نقطه نشان داده می‌شوند.

داده های گمشده در SPSS

در پی آن هستیم که بتوانیم به منظور ادامه تحلیل‌ها، جایگزین مناسب عددی برای موارد عدم پاسخ و یا همان داده‌های گمشده‌ی میزان درآمد بیابیم. برای این منظور از مسیر زیر استفاده می‌کنیم.

Transform → Replace Missing Values

در ابتدا کمیت (هایی) را که دارای مقادیر گمشده هستند و برخی از اطلاعات آن‌ها در دسترس نمی‌باشد، انتخاب می‌کنیم. در کادر New Variables عبارت Revenue_1= SMEAN(Revenue) نشان داده می‌شود که به معنای آن است که کمیت جدیدی با عنوان Revenue_1 ایجاد می‌شود که در آن به جای مقادیر گمشده درآمد، میانگین داده‌های موجود در کمیت درآمد را جایگزین می‌کند.

missing-value-spss-2-astat.ir

به این ترتیب در فایل داده‌ها و پنجره Data View کمیت جدیدی به صورت زیر ساخته می‌شود.

missing-value-spss-3-astat.ir

همان‌گونه که مشاهده می‌شود به ازای هر داده گمشده درآمد، مقدار ۳٫۷۲ که همان میانگین داده‌های موجود می‌باشد، قرار داده شده است.

استفاده از چندین روش جایگزاری داده های گمشده در SPSS

در کادر Name and Method و در کادر متنی Name می‌توانیم نام دیگری به جای Revenue_1 در کمیت جدید ساخته شده، قرار دهیم. به عنوان مثال ما نام MeanN را برگزیده‌ایم. چنانچه بر روی گزینه‌ی Method کلیک کنیم، می‌توانیم مقادیر خاص دیگری جهت جایگزینی با داده‌های گمشده بیابیم.

با انتخاب گزینه‌ی Series Mean میانگین کل داده‌های موجود کمیت درآمد، جایگزین مقادیر گمشده خواهد شد. ما این انتخاب را در بالا انجام دادیم که مقدار ۳٫۷۲ جایگزین مقادیر گمشده قرار گرفت.

با انتخاب گزینه‌ی Mean of nearby points میانگین داده‌های چند خانه از بالا و پایین که در همسایگی داده گمشده قرار دارند، جایگزین مقدار گمشده خواهد شد. تعداد خانه‌های همسایگی را نیز می‌توان با نوشتن یک عدد در کادر Number تعیین کرد. ما عدد ۲ را انتخاب کرده‌ایم.

missing-value-spss-4-astat.ir

missing-value-spss-5-astat.ir

می‌دانید چرا پس از استفاده از این روش و در ردیف ۲۳ درآمد فرد همچنان به عنوان یک داده گمشده محسوب می‌شود؟ با انتخاب گزینه‌ی Median of nearby points میانه داده‌های چند خانه از بالا و پایین همسایگی داده گمشده، جایگزین آن خواهد شد. تعداد خانه‌های همسایگی را می‌توان با نوشتن عدد در کادر Number تعیین کرد.

انتخاب گزینه‌ی Linear interpolation سبب می‌شود که میانگین دو خانه‌ای که قبل و بعد از داده گمشده قرار دارند، جایگزین خود داده گمشده شوند. ما نام ستون جدید براساس این روش را LinearI قرار داده‌ایم.

missing-value-spss-6-astat.ir

missing-value-spss-7-astat.ir

با انتخاب گزینه‌ی Linear trend at point مقداری که از روند خطی داده‌های موجود به دست می‌آید، به ازای Missing Value قرار می‌گیرد. نام ستون جدید براساس این روش را LinearT قرار داده‌ایم.

missing-value-spss-8-astat.ir

missing-value-spss-9-astat.ir

توجه شما را به این نکته جلب می‌کنیم که استفاده از روش‌ها و Method های بالا بستگی به ماهیت داده‌ها و نحوه جمع‌آوری آن‌ها دارد و نمی‌توان هیچ‌کدام را نسبت به دیگری بهتر و مناسب‌تر دانست.

ارایه خدمات جایگزینی (Missing Value) داده های گمشده در SPSS

ما در موسسه علمی پژوهشی داده پویا علامه ارایه خدمات جایگزاری داده های گمشده در SPSS را انجام می‌دهیم. جهت دریافت نکات بیشتر و نحوه کار می‌توانید مختصری از کار خود را برای ما ارسال نمایید.

ما به سرعت تقاضای شما را بررسی و نتایج آنالیز جایگزاری داده های گمشده در SPSS را به صورت اختصاصی و کامل ارسال خواهیم کرد.

در این زمینه همچنین می‌توانید کارگاه آموزشی جایگزینی داده‌های گمشده در تحقیقات را که گراف پد برگزار کرده است، مشاهده کنید.

کارگاه آموزشی جایگزاری داده های گمشده تحلیل داده های گمشده
تماس با ما کتاب آماری



اشتراک گذاری

دیدگاه شما

اولین دیدگاه را شما ارسال نمایید.