دوره جامع پرورش کارشناس علم داده
علم داده (Data Science) رشتهای است که در سالهای اخیر طرفداران زیادی پیدا کرده به طوری که جز 10 شغل پر درآمد محسوب میشود. علم داده با بهرهگیری از ریاضیات، آمار و علوم کامپیوتر به استخراج و تحلیل دادههای موجود اعم از ساختار یافته (دادههای موجود در دیتا بیسها) و ساختارنیافته (ایمیلها، تصاویر، شبکههای اجتماعی و…) میپردازد.
با توجه به نیاز بازار کار ایران به آموزش علم داده، همچنین نیاز علاقه مندان این حوزه موسسه پژوهش و آموزش همکاران سیستم دوره جامع پرورش کارشناس علم داده را به مجموعه دورههای تخصصی خود اضافه نمود. این دوره توسط اساتید مجرب مجموعه همکاران سیستم برگزار میگردد.
مزایای شرکت در دوره جامع پرورش کارشناس علم داده:
- برای معرفی به بازار کار در الویت موسسه قرار خواهید گرفت.
- در مقایسه با کاربرانی که دورهها را به صورت مجزا و تک تک ثبت نام میکنند، حداقل 25% هزینه کمتری پرداخت خواهید کرد.
آنچه در دوره جامع پرورش کارشناس علم داده فرا خواهید گرفت:
جزئیات
دورههای مرتبط
شرایط پرداخت
• شرایط پرداخت:
o نقدی : در صورت پرداخت نقدی مبلغ 3.00۰.۰۰۰ ریال به عنوان تخفیف از کل شهریه کسر خواهد شد.
o اقساط: 30% نقد، 70% طی 2 فقره چک با فاصله يك ماه
برنامه برگزاری دورههای آموزشی
آییننامه آموزشی
کاربر گرامی، ضمن تشکر از انتخاب موسسه پژوهش و آموزش همکاران سیستم، خواهشمند است قبل از ثبت نام، موارد زیر را مطالعه نمایید.
۸ گام برای گذار از توسعهدهنده به تحلیلگر کسبوکار
یکی از سوالاتی که اخیرا زیاد با آن مواجه میشویم این است که افراد میگویند: «من مدتی است که توسعهدهنده نرمافزار هستم و حالا میخواهم در مورد یک نقش جدید یاد بگیرم. من درباره شغل تحلیلگر کسبوکار هیجان زده هستم، اما هیچ ایدهای برای انتقال به حرفه جدید ندارم.»
امروزه فناوری فرصتهای فوقالعادهای را برای بهبود کسبوکار ارائه میدهد. تحلیلگر کسبوکار شغلی است که در آن فرد میتواند در تعیین استراتژی، ارائه پیشنهادات، کسب درآمد و حاشیه سود آن سازمان مشارکت داشته باشد. این اتفاق فرصتی عالی برای تعامل با بسیاری از سهامداران، توسعه راهکارهایهای نوآورانه و بهبود راهکارهای موجود است. تحلیلگران کسبوکار پلی بین ذینفعان کسبوکار و معماران فنآوری هستند.
IIBA در راهنمای مجموعه دانش تجزیهوتحلیل کسبوکار (BABOK Guide)، تحلیل کسب و کار را به عنوان روشی برای ایجاد امکان تغییر در یک شرکت با تعریف نیازها و توصیه راه حلهایی که ارزشی را به سهامداران ارائه میدهد، تعریف میکند. تحلیلگران کسبوکار، به شرکت کمک میکنند که نیازها و منطق خود را برای تغییر، طراحی و توصیف راهکارهایی که خلق ارزش میکنند، بیان کنند.
در هر حال، یک نقش جدید نیاز به مهارتهای جدید دارد. به عنوان یک توسعهدهنده، فرد این مزیت را دارد که از قبل با جنبه فناوری کار آشنا است. با این حال، برخی پس از گذشت زمان و فعالیت در حوزه تکنولوژی، تمایل بیشتری به حضور در حوزه کسبوکار پیدا میکنند. بنابراین، زمان آن است که در مورد کسبوکار یاد بگیرید و یک تحلیلگر کسبوکار شوید. در ادامه هشت گام پیشنهادی برای تبدیل شدن از یک توسعهدهنده به یک تحلیلگر کسبوکار را بررسی میکنیم.
۱. اصول کسبوکار را بیاموزید.
اولین قدم این است که درک کنیم کسبوکارها چگونه اداره میشوند و چه کاری انجام میدهند. یک نقطه شروع خوب، گذر از چارچوب طبقهبندی فرآیند عمومی است که توسط APQC ارائه شده است. همچنین خواندن کتابهای بنیادی درباره استراتژی کسبوکار، بازاریابی، امور مالی، منابع انسانی، و عملیات ایده خوبی خواهد بود؛ زیرا دیدگاه سطح بالایی از کسبوکار، عملیات آن، و اهداف کارکردی مختلف را برای شما فراهم خواهد کرد.
۲. مهارتهای رفتاری را توسعه دهید.تحلیل دیتا بیاموزید
دومین جنبه اصلی که در آن نقش تحلیلگر کسبوکار به طور قابل توجهی با نقش توسعهدهنده متفاوت است، میزان تعامل مورد انتظار از تحلیلگران کسبوکار است. به طور معمول، توسعهدهندگان تحت نظر یک مدیر پروژه کار میکنند. به عنوان یک تحلیلگر کسبوکار، فرد باید یاد بگیرد که چگونه با اسپانسر، متخصص موضوع، کاربران نهایی، و ذینفعان دیگر کسبوکار، از جمله تامینکنندگان تعامل برقرار کند. این موضوع نیازمند تقویت مهارتهای شخص در حوزه رفتاری است. مهارتهای کلیدی برای یک تحلیلگر کسبوکار عبارتند از: برقراری ارتباط، تعامل با ذینفعان، مهارتهای گوش دادن فعال، تسهیلگری، مهارتهای ارائه و مهارتهای حل مسئله و …
چگونه یک فرد میتواند مهارتهای رفتاری خود را تقویت کند؟
یک راه این است که در هر فرصتی که به دست میآید، این مهارتها را تمرین کنید.
برای برقراری ارتباط و صحبت کردن فعال باشید. شما میتوانید گفتوگوی خود را با استفاده از تلفن همراه ضبط کنید و سپس آن را تجزیهوتحلیل و بررسی کنید که آیا به طور واضح و به زبان و روش صحیح ارتباط برقرار میکنید یا خیر.
ممکن است سازمان شما در حال حاضر آموزشهایی در حوزه رفتاری و در زمینه مهارتهای برقراری ارتباط، مذاکره، ابراز وجود و مهارتهای تسهیلگری ارائه دهد. از آموزشهای رفتاری موجود در سازمان خود بهره ببرید و در این مهارتها پیشرفت کنید.
دورههای آنلاین رایگان زیادی نیز وجود دارند که میتوانند به تقویت مهارتهای رفتاری کمک کنند.
۳. فرآیند تحلیل کسبوکار را بیاموزید.
مانند هر فعالیت دیگری، تجزیهوتحلیل کسبوکار نیز از یک فرآیند پیروی میکند. برخی از کتابهای راهنما میگویند که فرآیند تجزیهوتحلیل کسبوکار را نمیتوان استاندارد کرد. اما ما در بیشتر در پروژههای تجربی خود، مشاهده کردهایم که در تجزیهوتحلیل کسبوکار یک رویکرد نسبتا خوب تعریف شدهاست.
بهترین بخش این است که میتوانید بر روی استانداردهای اصلی تحلیل کسبوکار جهانی از IIBA کار کنید. این سند به شما ایده خوبی از نحوه عملکرد واقعی تجزیهوتحلیل کسبوکار میدهد.
۴. ابزارهای مدلسازی الزامات و مدیریتی را یاد بگیرید.
مانند بیشتر مشاغل، تحلیلگران کسبوکار نیز از ابزارهای بسیاری به عنوان بخشی از کار خود استفاده میکنند. برخی از ابزارهای محبوب عبارتند از مدلسازی فرآیند کسبوکار، state modeling و use case modeling.
شما میتوانید از نسخه آزمایشی Microsoft Visio که ابزار محبوبی در بسیاری از سازمانها است، استفاده کنید. شما همچنین میتوانید دیگر ابزارهای رایگان، مانند نمودار لوسید یا مدلساز فرآیند کسبوکار BizAgi یا StarUML را یاد بگیرید. همچنین میتوانید آموزش ببینید که بعضی از فرآیندها را در محل کار خود مدلسازی کنید.
۵. حوزه فعالیت سازمان خود تحلیل دیتا بیاموزید را بیاموزید.
یکی از بهترین مکانها برای شروع سفر تجزیهوتحلیل کسبوکار، سازمان فعلی شماست. شما بخشی از سازمان هستید و افراد، فرآیندها و ابزارها را میشناسید، اما در عین حال، ذینفعان کسبوکار شما از شما انتظار دارند که تفاوتهای ظریف حوزه فعالیت سازمان خود را درک کنید.
تقریبا در تمام حوزهها، منابع خوبی در اینترنت و شاید در سازمان شما وجود داشته باشد. پیشنهاد خوب دیگری که ما توصیه میکنیم این است که به دنبال یک کتاب راهنما در حوزه فعالیت خود بگردید. به عنوان مثال، اگر در حوزه خردهفروشی هستید، به دنبال کتابی در مورد این دامنه بگردید؛ یعنی مثلا کتابچه راهنمای مدیریت خرده فروشی. با مرور این کتابچه، ایده نسبتا خوبی در مورد نحوه عملکرد دامنه خردهفروشی به دست خواهید آورد. هنگامیکه دامنه سازمان خود را درک کنید، پذیرفتن شما توسط ذینفعانبه عنوان یک تحلیلگر کسبوکار دو برابر بیشتر میشود.
۶. در فعالیتهای مربوط به جمعآوری الزامات به عنوان تحلیلگر کسبوکار شرکت کنید.
حالا که برخی اصول تجزیهوتحلیل کسبوکار را یاد گرفتهاید، بهترین موقعیت برای یادگیری و تمرین درگیر شدن در جمعآوری نیازمندیهای پروژه است. برای تجزیهوتحلیل کسبوکار فعلی پروژه خود، یک تحلیلگر کسبوکار در سایه باشید. این کار برای شما این امکان را فراهم میکند که مفاهیمی که آموختهاید را تمرین کنید.
تمرین باعث تکامل است. هر مهارتی را میتوانید یاد بگیرید؛ به شرط اینکه تمایل داشته باشید برای این یادگیری تلاش کنید.
۷. در گروهها یا کنفرانسهای حرفهای در مورد تجزیهوتحلیل کسبوکار شرکت کنید.
گروههای حرفهای و کنفرانسهای مجازی و فیزیکی زیادی در حوزه تجزیهوتحلیل کسبوکار وجود دارد. در این رویدادها شرکت کنید تا درک کنید که تجزیهوتحلیل کسبوکارها چگونه در حال تغییر است و روند آن چیست و چگونه میتوانید مفاهیم جدید تجزیهوتحلیل کسبوکار را به سازمان خود بیاورید.
همچنین، گروههای علاقهمند و حرفهای زیادی در لینکدین و انجمنهای مشابه در اینترنت وجود دارند که شما میتوانید در آنها بحث کنید، مشارکت کنید، از تجربههای خود صحبت کنید و مهارتهایی را که برای تبدیل شدن به یک تحلیلگر کسبوکار حرفهای نیاز دارید، یاد بگیرید.
۸. به عنوان یک تحلیلگر کسبوکار گواهینامه دریافت کنید.
برای اثبات شایستگی خود به عنوان یک تحلیلگر کسبوکار، بهترین کار این است که با شرکت در دورههای معتبر در حوزه تجزیهوتحلیل کسبوکار گواهینامه بگیرید. بسیاری از سازمانها گواهی تجزیهوتحلیل کسبوکار ارائه میدهند و برجستهترین آنها IIBA است.
در اواخر سال ۲۰۱۶، IIBA گواهی ورود به تجزیه و تحلیل کسبوکار (ECBA) را راه اندازی کرد؛ این طرح امکان صدور گواهینامه جدیدی که نیازهای روز را تشخیص دهد و خواستههای بسیاری را برآورده کند فراهم کرده است.ECBبه نیازهای آن دسته از افراد حرفهای که به حوزه تحلیل کسبوکار وارد میشوند یا حرفه خود را شروع میکنند، پاسخ میدهد..
ECBA به هیچ تجربه کاری قبلی در زمینه تحلیل کسبوکار نیاز ندارد و تحلیل دیتا بیاموزید یک آزمون مبتنی بر دانش است. ECBA بیشتر بر روی حوزههای مختلف دانش در زمینه تحلیل کسبوکار که قرار است برای تحلیلگران کسبوکار جدید استفاده شود، مانند تجزیهوتحلیل نیازمندیها، مدیریت و استخراج چرخه عمر نیازمندیها و همکاری مشترک تمرکز میکند.
توسعهدهندگان زیادی در سطح دنیا فعالیت دارند و بعضی از آنها به دنبال کسب تجارب جدید و فعالیت در یک حوزه تازه هستند و تحلیلگر کسبوکار یکی از انتخابهای پر تکرار در سالهای اخیر است. گره زدن فعالیتهای عملیاتی با کسبوکار و ایجاد یک پل ارتباطی موثر بین آنها، کاربردی و پر از چالش است. در این مقاله سعی کردیم به ۸ گام موثر بپردازیم که با کمک آن توسعهدهندگان میتوانند به یک تحلیلگر کسبوکار تبدیل شوند. امیدواریم مطالعه این مقاله برای شما جالب توجه باشد و خوشحال میشویم تا نظرات خود را با ما در میان بگذارید.
دادههای عظیم -بیگ دیتا – چیست ؟
دادههای عظیم معمولاً به مجموعهای از دادهها گفته میشود که اندازه آنها فراتر از حدی است که با نرمافزارهای معمول بتوان آنها را در یکزمان معقول اخذ، دقیق سازی، مدیریت و پردازش کرد. مفهوم «اندازه» در دادههای بزرگ بهطور مستمر در حال تغییر است و بهمرور بزرگتر میشود. دادههای عظیم مجموعهای از فنها و تاکتیکهایی است که نیازمند شکل جدیدی از یکپارچگی هستند تا بتوانند ارزشهای بزرگی را که در مجموعههای بزرگ، وسیع، پیچیده و متنوع داده پنهانشدهاند، آشکار سازند.
طبق تعریف مؤسسه تحقیقاتی گارتنر: به داراییهای اطلاعاتی با حجم بالا، شتاب بالا و تنوع بالا که نیازمند اشکال جدید پردازشی است و تصمیمگیری پیشرفته، کشف بینش و بهینهسازی فرآیند را امکانپذیر میسازد دادههای عظیم گفته میشود.
سه بعد از چالشها و فرصتهای پیش رو در حوزه رشد داده:
۱- افزایش در میزان داده، ۲
– افزایش سرعت تولید دادههای ورودی و
۳- خروجی و افزایش محدوده تنوع و منابع دادهها. بهطورکلی منشأ دادههای عظیم عبارتاند از:
شبکه و رسانههای اجتماعی، اینترنت اشیاء، توسعه دسترسی نسلهای جدید تلفن همراه و ثابت، توسعه خدمات نوین الکترونیکی و توسعه کاربردهای فناوری اطلاعات و ارتباطات در بخشهای مختلف.
bigdata
سرعت تولید اطلاعات در سامانههای رایانهای بهسرعت در حال افزایش است، در سال ۲۰۱۰ سرعت تولید اطلاعات به حدی رسید که در هر دو روز، بیش از کل دادههایی که تا سال ۲۰۰۳ تولیدشده بود داده تولید میشد.
این در حالی است که بر اساس یکی از تحقیقات IDC اطلاعات تولیدشده در سال ۲۰۲۰ پنجاه برابر دادههای تولیدشده در سال ۲۰۱۱ خواهد بود. در یک تحقیق دیگر میزان تولید داده در سال ۲۰۱۰ به ازای هر دو روز حدود ۵ اکزابایت (۱۰ ۱۸ بایت) تخمین زدهشده است، درحالیکه پیشبینیها نشان میدهد این مقدار در سال ۲۰۲۰ به ۴۰ زتابایت (۱۰ ۲۱ بایت) خواهد رسید. این مسئله اهمیت توجه به روشهای آنالیز، نگهداری و انتقال دادههای عظیم را نشان میدهد.
حجم اطلاعاتی که تا سال ۲۰۰۳ توسط انسان ایجاد شد تنها ۵ اگزابایت است اما امروزه این حجم از اطلاعات تنها در عرض دو روز ایجاد میشود. در تحقیقی نشان داد که هرروز ۲.۵ اگزابایت داده تولید میشود و حدود ۹۰ درصد دادههای موجود تنها در دو سال اخیر تولیدشده است. هر رایانه شخصی حدود ۵۰۰ گیگابایت اطلاعات در خود نگهداری میکند و در دنیا حدود ۲۰ میلیون رایانه شخصی وجود دارد. درگذشته فرآیند توصیف ژن انسان حدود ده سال طول میکشید درحالیکه امروز در کمتر از یک هفته انجام میشود.
شرکتی مثل گوگل بیلیونها سرور در سطح جهان دارد. حدود شش بیلیون مشترک تلفن همراه در جهان همهروزه ۱۰ میلیون پیام متنی ارسال و دریافت میکنند و تا سال ۲۰۲۰ حدود ۵۰ بیلیون وسیله متصل به اینترنت و شبکه وجود خواهد داشت. حجم دادههای تجاری تقریباً در سراسر جهان، هر ۱.۲ سال دو برابر میشود. حجم کل دادههای تولیدشده در جهان که در سال ۲۰۱۱ حدود ۱.۸ زتابایت بوده با نرخ تقریباً هر پنج سال ۹ برابر افزایش مییابد. بر این اساس پیشبینیها نشان میدهد شکل ۱ حجم دادهها با نرخ تقریبی نه برابر در هر پنج سال افزایش مییابد. ]۴[
افزایش تقریبی نه برابری حجم دادهها به ازا هر پنج سال
از سال ۲۰۱۲ به بعد در هرروز ۱۰۰۰ پتابایت داده تولید میشود که به دنبال خود مستلزم ذخیرهسازی، تحلیل، جستجوها، تمیزکاری دادهها، اشتراکها و غیره در دادههاست که باید در حوزه مختلف انجام شود. این موضوع باعث شده است که پژوهشگران و دانشمندان به دنبال ایجاد ساختارها، متدولوژیها، روشها و رویکردهای جدیدی برای مدیریت، کنترل و پردازش این حجم از دادهها باشند که این تلاشها در ذیل سایه دادههای عظیم مطرحشده است. دادههای عظیم یک اصطلاح برای مجموعههای داده خیلی بزرگ است که ازنظر ساختار، پیچیدگی و منابع تولید بسیار متنوع هستند و ذخیره و آنالیز آنها کار پیچیدهای است.
در سال ۲۰۱۳، دادههای عظیم بهعنوان یک پروژه مهم و جهانی مطرح شد. پروژهای که به جمعآوری، بصری سازی و آنالیز مقدار زیادی داده میپردازد. در راستای این پروژه اطلاعات آماری زیادی ارائه گردید. فیسبوک ماهانه حدود ۹۵۵ میلیون کاربر فعال به ۷۰ زبان زنده دنیا دارد و حدود ۱۴۰ بیلیون عکس در آن بارگذاری میشود و ۱۲۵ میلیون ارتباط دوستی برقرار میگردد. هرروزه ۳۰ بیلیون نوشته و ۲.۷ بیلیون لایک و توضیحات ارسال میگردد. در یوتیوب هر دقیقه ۴۸ ساعت ویدیو بارگذاری و هرروزه ۴ بیلیون فیلم اجرا میگردد. گوگل نیز از خدمات زیادی پشتیبانی میکند ازجمله ۷.۲ بیلیون صفحه در هرروز و ۲۰ پتابایت (۱۰ ۱۵ بایت) فرآیند روزانه و ترجمه به ۶۶ زبان؛ یک بیلیون توییت در هر ۷۲ ساعت، بیشتر از ۱۴۰ میلیون فعالیت کاربران توییتر است. تعداد ۵۷۱ وبگاه جدید در هر دقیقه از روز ایجاد میشود. پیشبینی میشود در طی دهه آینده حجم اطلاعات ۵۰ بار افزایش یابد، البته همزمان تعداد فنّاوریهای خاص اطلاعاتی که برای نگهداری این دادهها ایجاد میشود نیز ۱.۵ برابر میگردد.
در حوزه وب، حجم زیاد اطلاعات با رشد نمایی ۱۱ میلیارد صفحه در ۲۰۰۵ (ایران ده میلیون) و ۱۵۰ میلیارد صفحه در ۲۰۱۴ (ایران ششصد میلیون) تولید میشود و در محیط پویا صفحات جدید هم با نرخ ۸ درصد در هفته تولید میشوند، البته ۲۰ درصد صفحات موجود بعد از یک سال قابلدسترس نیستند.
۱-۱- ویژگیهای دادههای عظیم
دادههای عظیم به مجموعه دادههایی اشاره دارد که با استفاده از روشهای سنتی فناوری اطلاعات و ابزارهای سختافزاری و نرمافزاری موجود در آن نمیتوانند در زمان معقولی درک، گردآوری، مدیریت و پردازش شوند. دادههای عظیم روشها و فناوریهای نوینی را جهت جمعآوری، ذخیره و آنالیز دادههای غیر ساختیافته بهصورت مقیاسپذیر معرفی میکند. خواص پایه سهگانه دادههای عظیم: حجم، سرعت و تنوع و خواص هفتگانه حجم، سرعت، ارزش، تنوع، صحت، اعتبار و نوسان است.
بهصورت کلی دادههای عظیم با پنج ویژگی زیر شناخته میشود:
کمیت دادههایی که جمعآوری میشود اهمیت زیادی دارند. اندازه دادهها مشخص میکند که آیا این دادهها میتوانند بهصورت بالقوه داده عظیم تلقی شوند یا نه؟
یکی دیگر از مشخصات دادههای عظیم، تنوع دادهها است؛ بنابراین اینکه دادهها مربوط به چه صنعتی است و چه مفهومی را پشتیبانی میکند و در نتیجه چقدر نیاز به تجزیهوتحلیل دادهها وجود دارد، در تعیین آنها بهعنوان داده عظیم نقش دارد.
میزان داده تولیدشده در یک بازه زمانی یا به عبارت بهتر، سرعت ایجاد دادههای جدید.
تغییر دادههای ورودی، یکی از اصلیترین مشکلات مرتبط با دادههای عظیم است. این مفهوم به ناپایداری محیطهایی که داده در آن تولید میشود برمیگردد. هر چه ناپایداری در محیط بیشتر باشد، مدیریت و تحلیل دادهها سختتر خواهد شد.
مدیریت دادهها فرآیند بسیار پیچیدهای است، بهویژه وقتیکه حجم زیادی از دادههای پیچیده از منابع.
دادههای عظیم -بیگ دیتا – چیست ؟
دادههای عظیم معمولاً به مجموعهای از دادهها گفته میشود که اندازه آنها فراتر از حدی است که با نرمافزارهای معمول بتوان آنها را در یکزمان معقول اخذ، دقیق سازی، مدیریت و پردازش کرد. مفهوم «اندازه» در دادههای بزرگ بهطور مستمر در حال تغییر است و بهمرور بزرگتر میشود. دادههای عظیم مجموعهای از فنها و تاکتیکهایی است که نیازمند شکل جدیدی از یکپارچگی هستند تا بتوانند ارزشهای بزرگی را که در مجموعههای بزرگ، وسیع، پیچیده و متنوع داده پنهانشدهاند، آشکار سازند.
طبق تعریف مؤسسه تحقیقاتی گارتنر: به داراییهای اطلاعاتی با حجم بالا، شتاب بالا و تنوع بالا که نیازمند اشکال جدید پردازشی است و تصمیمگیری پیشرفته، کشف بینش و بهینهسازی فرآیند را امکانپذیر میسازد دادههای عظیم گفته میشود.
سه بعد از چالشها و فرصتهای پیش رو در حوزه رشد داده:
۱- افزایش در میزان داده، ۲
– افزایش سرعت تولید دادههای ورودی و
۳- خروجی و افزایش محدوده تنوع و منابع دادهها. بهطورکلی منشأ دادههای عظیم عبارتاند از:
شبکه و رسانههای اجتماعی، اینترنت اشیاء، توسعه دسترسی نسلهای جدید تلفن همراه و ثابت، توسعه خدمات نوین الکترونیکی و توسعه کاربردهای فناوری اطلاعات و ارتباطات در بخشهای مختلف.
bigdata
سرعت تولید اطلاعات در سامانههای رایانهای بهسرعت در حال افزایش است، در سال ۲۰۱۰ سرعت تولید اطلاعات به حدی رسید که در هر دو روز، بیش از کل دادههایی که تا سال ۲۰۰۳ تولیدشده بود داده تولید میشد.
این در حالی است که بر اساس یکی از تحقیقات IDC اطلاعات تولیدشده در سال ۲۰۲۰ پنجاه برابر دادههای تولیدشده در سال ۲۰۱۱ خواهد بود. در یک تحقیق دیگر میزان تولید داده در سال ۲۰۱۰ به ازای هر دو روز حدود ۵ اکزابایت (۱۰ ۱۸ بایت) تخمین زدهشده است، درحالیکه پیشبینیها نشان میدهد این مقدار در سال ۲۰۲۰ به ۴۰ زتابایت (۱۰ ۲۱ بایت) خواهد رسید. این مسئله اهمیت توجه به روشهای آنالیز، نگهداری و انتقال دادههای عظیم را نشان میدهد.
حجم اطلاعاتی که تا سال ۲۰۰۳ توسط انسان ایجاد شد تنها ۵ اگزابایت است اما امروزه این حجم از اطلاعات تنها در عرض دو روز ایجاد میشود. در تحقیقی نشان داد که هرروز ۲.۵ اگزابایت داده تولید میشود و حدود ۹۰ درصد دادههای موجود تنها در دو سال اخیر تولیدشده است. هر رایانه شخصی حدود ۵۰۰ گیگابایت اطلاعات در خود نگهداری میکند و در دنیا حدود ۲۰ میلیون رایانه شخصی وجود دارد. درگذشته فرآیند توصیف ژن انسان حدود ده سال طول میکشید درحالیکه امروز در کمتر از یک هفته انجام میشود.
شرکتی مثل گوگل بیلیونها سرور در سطح جهان دارد. حدود شش بیلیون مشترک تلفن همراه در جهان همهروزه ۱۰ میلیون پیام متنی ارسال و دریافت میکنند و تا سال ۲۰۲۰ حدود ۵۰ بیلیون وسیله متصل به اینترنت و شبکه وجود خواهد داشت. حجم دادههای تجاری تقریباً در سراسر جهان، هر ۱.۲ سال دو برابر میشود. حجم کل دادههای تولیدشده در جهان که در سال ۲۰۱۱ حدود ۱.۸ زتابایت بوده با نرخ تقریباً هر پنج سال ۹ برابر افزایش مییابد. بر این اساس پیشبینیها نشان میدهد شکل ۱ حجم دادهها با نرخ تقریبی نه برابر در هر پنج سال افزایش مییابد. ]۴[
افزایش تقریبی نه برابری حجم دادهها به ازا هر پنج سال
از سال ۲۰۱۲ به بعد در هرروز ۱۰۰۰ پتابایت داده تولید میشود که به دنبال خود مستلزم ذخیرهسازی، تحلیل، جستجوها، تمیزکاری دادهها، اشتراکها و غیره در دادههاست که باید در حوزه مختلف انجام شود. این موضوع باعث شده است که پژوهشگران و دانشمندان به دنبال ایجاد ساختارها، متدولوژیها، روشها و رویکردهای جدیدی برای مدیریت، کنترل و پردازش این حجم از دادهها باشند که این تلاشها در ذیل سایه دادههای عظیم مطرحشده است. دادههای عظیم یک اصطلاح برای مجموعههای داده خیلی بزرگ است که ازنظر ساختار، پیچیدگی و منابع تولید بسیار متنوع هستند و ذخیره و آنالیز آنها کار پیچیدهای است.
در سال ۲۰۱۳، دادههای عظیم بهعنوان یک پروژه مهم و جهانی مطرح شد. پروژهای که به جمعآوری، بصری سازی و آنالیز مقدار زیادی داده میپردازد. در راستای این پروژه اطلاعات آماری زیادی ارائه گردید. فیسبوک ماهانه حدود ۹۵۵ میلیون کاربر فعال به ۷۰ زبان زنده دنیا دارد و حدود ۱۴۰ بیلیون عکس در آن بارگذاری میشود و ۱۲۵ میلیون ارتباط دوستی برقرار میگردد. هرروزه ۳۰ بیلیون نوشته و ۲.۷ بیلیون لایک و توضیحات ارسال میگردد. در یوتیوب هر دقیقه ۴۸ ساعت ویدیو بارگذاری و هرروزه ۴ بیلیون فیلم اجرا میگردد. گوگل نیز از خدمات زیادی پشتیبانی میکند ازجمله ۷.۲ بیلیون صفحه در هرروز و ۲۰ پتابایت (۱۰ ۱۵ بایت) فرآیند روزانه و ترجمه به ۶۶ زبان؛ یک بیلیون توییت در هر ۷۲ ساعت، بیشتر از ۱۴۰ میلیون فعالیت کاربران توییتر است. تعداد ۵۷۱ وبگاه جدید در هر دقیقه از روز ایجاد میشود. پیشبینی میشود در طی دهه آینده حجم اطلاعات ۵۰ بار افزایش یابد، البته همزمان تعداد فنّاوریهای خاص اطلاعاتی که برای نگهداری این دادهها ایجاد میشود نیز ۱.۵ برابر میگردد.
در حوزه وب، حجم زیاد اطلاعات با رشد نمایی ۱۱ میلیارد صفحه در ۲۰۰۵ (ایران ده میلیون) و ۱۵۰ میلیارد صفحه در ۲۰۱۴ (ایران ششصد میلیون) تولید میشود و در محیط پویا صفحات جدید هم با نرخ ۸ درصد در هفته تولید میشوند، البته ۲۰ درصد صفحات موجود بعد از یک سال قابلدسترس نیستند.
۱-۱- ویژگیهای دادههای عظیم
دادههای عظیم به مجموعه دادههایی اشاره دارد که با استفاده از روشهای سنتی فناوری اطلاعات و ابزارهای سختافزاری و نرمافزاری موجود در آن نمیتوانند در زمان معقولی درک، گردآوری، مدیریت و پردازش شوند. دادههای عظیم روشها و فناوریهای نوینی را جهت جمعآوری، ذخیره و آنالیز دادههای غیر ساختیافته بهصورت مقیاسپذیر معرفی میکند. خواص پایه سهگانه دادههای عظیم: حجم، سرعت و تنوع و خواص هفتگانه حجم، سرعت، ارزش، تنوع، صحت، اعتبار و نوسان است.
بهصورت کلی دادههای عظیم با پنج ویژگی زیر شناخته میشود:
کمیت دادههایی که جمعآوری میشود اهمیت زیادی دارند. اندازه دادهها مشخص میکند که آیا این دادهها میتوانند بهصورت بالقوه داده عظیم تلقی شوند یا نه؟
یکی دیگر از مشخصات دادههای عظیم، تنوع دادهها است؛ بنابراین اینکه دادهها مربوط به چه صنعتی است و چه مفهومی را پشتیبانی میکند و در نتیجه چقدر نیاز به تجزیهوتحلیل دادهها وجود دارد، در تعیین آنها بهعنوان داده عظیم نقش دارد.
میزان داده تولیدشده در یک بازه زمانی یا به عبارت بهتر، سرعت ایجاد دادههای جدید.
تغییر دادههای ورودی، یکی از اصلیترین مشکلات مرتبط با دادههای عظیم است. این مفهوم به ناپایداری محیطهایی که داده در آن تولید میشود برمیگردد. هر چه ناپایداری در محیط بیشتر باشد، مدیریت و تحلیل دادهها سختتر خواهد شد.
مدیریت دادهها فرآیند بسیار پیچیدهای است، بهویژه وقتیکه حجم زیادی از دادههای پیچیده از منابع.
آموزش : داده های گمشده در SPSS
در یک بررسی و مطالعه بسیار اتفاق میافتد که مقادیر برخی از کمیتها اندازهگیری نشدهاند و یا قابل اندازهگیری و مشاهده نبودهاند. به عنوان مثال در یک پرسشنامه که از سوالشونده درخواست میشود اطلاعات شخصی خود را بیان کند، گاهی اوقات پاسخی به برخی از سوالات داده نمیشود. در اینگونه موارد با نتایجی تحت عنوان داده های گمشده روبهرو هستیم. در این نوشتار آموزشی میخواهیم با استفاده از نرمافزار SPSS روشهایی را برای جایگزین کردن برخی مقادیر خاص به جای Missing Value در SPSS بیان کنیم.
داده های گمشده خوب
به این نکته توجه کنید ما مقادیر متفاوت و مختلفی را میتوانیم به ازای داده های گمشده در یک تحقیق، قرار دهیم که به ماهیت و نوع تحقیق بستگی تمام دارد، ما با برخی از این مقادیر در ادامه آشنا خواهیم شد. با اینحال همواره توصیه نمیشود که به ازای داده های گمشدهی یک مطالعه، مقادیر مرتبط جایگزاری شود بلکه گاهی اوقات وجود این داده های گمشده و حجم آنها میتواند خود حامل موارد و اطلاعات مفیدی باشد.
مجموعه آموزشی آمار کار با نرمافزار از مقدماتی تا پیشرفته (ارسال رایگان به تهران و شهرستان)
مثال آموزشی جایگزاری داده های گمشده در SPSS
در یک تحقیق بر روی درآمد ۲۴ نفر از کارکنان یک موسسه دانشگاهی مشاهده شده است که ۷ نفر به سوال میزان درآمد ماهیانه خود پاسخ ندادهاند. نحوه ورود اطلاعات و داده های گمشده در SPSS آمده است. داده های گمشده در SPSS تحت عنوان Missing Values و با نقطه نشان داده میشوند.
در پی آن هستیم که بتوانیم به منظور ادامه تحلیلها، جایگزین مناسب عددی برای موارد عدم پاسخ و یا همان دادههای گمشدهی میزان درآمد بیابیم. برای این منظور از مسیر زیر استفاده میکنیم.
Transform → Replace Missing Values
در ابتدا کمیت (هایی) را که دارای مقادیر گمشده هستند و برخی از اطلاعات آنها در دسترس نمیباشد، انتخاب میکنیم. در کادر New Variables عبارت Revenue_1= SMEAN(Revenue) نشان داده میشود که به معنای آن است که کمیت جدیدی با عنوان Revenue_1 ایجاد میشود که در آن به جای مقادیر گمشده درآمد، میانگین دادههای موجود در کمیت درآمد را جایگزین میکند.
به این ترتیب در فایل دادهها و پنجره Data View کمیت جدیدی به صورت زیر ساخته میشود.
همانگونه که مشاهده میشود به ازای هر داده گمشده درآمد، مقدار ۳٫۷۲ که همان میانگین دادههای موجود میباشد، قرار داده شده است.
استفاده از چندین روش جایگزاری داده های گمشده در SPSS
در کادر Name and Method و در کادر متنی Name میتوانیم نام دیگری به جای Revenue_1 در کمیت جدید ساخته شده، قرار دهیم. به عنوان مثال ما نام MeanN را برگزیدهایم. چنانچه بر روی گزینهی Method کلیک کنیم، میتوانیم مقادیر خاص دیگری جهت جایگزینی با دادههای گمشده بیابیم.
با انتخاب گزینهی Series Mean میانگین کل دادههای موجود کمیت درآمد، جایگزین مقادیر گمشده خواهد شد. ما این انتخاب را در بالا انجام دادیم که مقدار ۳٫۷۲ جایگزین مقادیر گمشده قرار گرفت.
با انتخاب گزینهی Mean of nearby points میانگین دادههای چند خانه از بالا و پایین که در همسایگی داده گمشده قرار دارند، جایگزین مقدار گمشده خواهد شد. تعداد خانههای همسایگی را نیز میتوان با نوشتن یک عدد در کادر Number تعیین کرد. ما عدد ۲ را انتخاب کردهایم.
میدانید چرا پس از استفاده از این روش و در ردیف ۲۳ درآمد فرد همچنان به عنوان یک داده گمشده محسوب میشود؟ با انتخاب گزینهی Median of nearby points میانه دادههای چند خانه از بالا و پایین همسایگی داده گمشده، جایگزین آن خواهد شد. تعداد خانههای همسایگی را میتوان با نوشتن عدد در کادر Number تعیین کرد.
انتخاب گزینهی Linear interpolation سبب میشود که میانگین دو خانهای که قبل و بعد از داده گمشده قرار دارند، جایگزین خود داده گمشده شوند. ما نام ستون جدید براساس این روش را LinearI قرار دادهایم.
با انتخاب گزینهی Linear trend at point مقداری که از روند خطی دادههای موجود به دست میآید، به ازای Missing Value قرار میگیرد. نام ستون جدید براساس این روش را LinearT قرار دادهایم.
توجه شما را به این نکته جلب میکنیم که استفاده از روشها و Method های بالا بستگی به ماهیت دادهها و نحوه جمعآوری آنها دارد و نمیتوان هیچکدام را نسبت به دیگری بهتر و مناسبتر دانست.
ارایه خدمات جایگزینی (Missing Value) داده های گمشده در SPSS
ما در موسسه علمی پژوهشی داده پویا علامه ارایه خدمات جایگزاری داده های گمشده در SPSS را انجام میدهیم. جهت دریافت نکات بیشتر و نحوه کار میتوانید مختصری از کار خود را برای ما ارسال نمایید.
ما به سرعت تقاضای شما را بررسی و نتایج آنالیز جایگزاری داده های گمشده در SPSS را به صورت اختصاصی و کامل ارسال خواهیم کرد.
در این زمینه همچنین میتوانید کارگاه آموزشی جایگزینی دادههای گمشده در تحقیقات را که گراف پد برگزار کرده است، مشاهده کنید.
کارگاه آموزشی جایگزاری داده های گمشده تحلیل داده های گمشده
تماس با ما کتاب آماری
دیدگاه شما