علم داده یا دیتا ساینس چیست؟
تعریف علم داده چیست؟
علم داده یا دیتا ساینس در حقیقت یک تخصص میان رشته ای است که میکوشد الگوهایی کاربردی، قابل استفاده و ارزش آفرینی از میان داده های بزرگ کشف کند.
تعریف بالا دارای چند مشخصه کلیدی است که برای شفاف تر شدن موضوع به آنها میپردازیم.
اولین مشخصه ای که باید به آن توجه ویژه کنیم این است که علم داده تخصصی میان رشته ای است به این معنا که برای موفق شدن در این رشته باید در حوزه هایی از قبیل ریاضیات، آمار، علوم کامپیوتر، مدلسازی و برنامه نویسی کسب دانش کنیم.
دومین مولفه در تعریف بالا موضوع کشف و استخراج الگوهای کاربردی و ارزش آفرین است. کشف الگو قطعا یکی از مهمترین عواملی است که باعث بقا در نسل ما انسانها شده است بطوریکه حتی بعضی مواقع به مغز ما ماشین تشخیص الگو هم میگویند. نکته مهم دیگر در این موضع کاربردی بودن و ارزش آفرین بودن این الگو هاست که در ادامه به کاربردهای این الگو ها خواهیم پرداخت.
سومین مولفه در تعریف علم داده موضوع داده های بزرگ است. شاید زمانی نه چندان دور زمانه را به عصر اطلاعات تشبیه میکردند و داده را نفت دوران جدید میدانستند ولی الان دیگر داشتن داده های بسیار بزرگ آنچنان اهمیتی ندارد بلکه توانایی بهره برداری از این حجم داده ها که در دل خود الگوهای غیر واضحی را دارند دارای اهمیت است.
کاربردهای علم داده در صنایع مختلف:
علم داده با توجه به ماهیت وجودیش که برای کشف الگو ها و کمک به تصمیم گیری ابزاری بسیار ارزشمند است در حوزه های مختلفی کاربرد دارد که در اینجا به بخشی از آنها اشاره میکنیم:
کاربرد علم داده در منابع انسانی:
از مرحله استخدام تا قطع همکاری، از آموزش تا ارزیابی عملکرد میتوان از مدل های مختلف علم داده استفاده کرد. میتوان بررسی های رزومه های دریافت شده را مدل های NLP تسریع کرد، میتوان با استفاده از مدل های DEA ارزیابی عملکرد پرسنل و واحدهای مختلف را انجام داد. میتوان با استفاده از مدلهای رگرسیونی نرخ خروج پرسنل را پیشبینی کرده و برای آنها راه حل ارائه داد.
کاربرد علم داده در فروش:
میتوان با استفاده از مدلهای سری های زمانی و رگرسیونی فروش محصولات را پیش بینی کرد، میتوان با تحلیل رفتار مشتریان تغییراتی در محصول یا تولید محصولات جدید را شروع کرد، میتوان با آنالیز حساسیت مشتریان به تخفیفات برنامه های افزایش فروش سفارشی شده اجرا کرد، میتوان با استفاده از مدل های قوانین انجمنی ترکیب سبد خرید مشتریان را مهندسی کرد.
کاربرد علم داده در پزشکی:
میتوان با استفاده از الگوریتم های خوشه بندی و پردازش تصویر تشخیص بیماری را تسریع کرد، میتوان با استفاده از قدرت بالای پردازش GPUها و مدلهای محاسباتی موازی بررسی های ژنتیکی دقیق و سریعی را برای بیماران اجرا کرد، میتوان با استفاده از مدل های طبقه بندی موارد احتمالی بروز بیماری را پیش بینی کرد، میتوان با استفاده از تحلیل همبستگی های سرچ افراد احتمال بروز بیماری های واگیردار را برآورد کرد.
کاربرد علم داده در شبکه های اجتماعی:
با استفاده از مدل های متن کاوی نظرات کاربران شبکه های اجتماعی را رصد کرد و در طبقه های مختلف برنامه ریزی کرد، میتوان با استفاده از الگوریتم های داده کاوی میزان مشارکت کاربران را پیش بینی کرد، میتوان با استفاده از علم داده و بررسی رفتار مصرف کننده سیستم های توصیه گر ایجاد کرد، میتوان با علم داده فعالیت های مارکتینگی و بازاریابی را بصورت شخصی سازی شده ارائه داد.
کاربرد علم داده در زنجیره تامین:
میتوان با استفاده از علم داده تقاضا برای کالای خاص را در فصل های مختلف پیش بینی کرد و بر اساس آن زنجیره تامین را تنظیم کرد، میتوان خواب کالا در انبار را بصورت دقیق محاسبه کرد و همچنین خواب سرمایه و ارزش ریالی پول را برای تصمیم گیری های مالی شرکت تعیین کرد، میتوان با استفاده از مدل های بهینه سازی مکان مناسب ایجاد کارخانه ها یا انبارها را تعیین کرد، میتوان با استفاده از الگوریتم های خوشه بندی مسیرهای توزیع سیستم لجستیک را بهینه کرد.
موارد اشاره شده بخش بسیار کوچکی از کاربردهای علم داده در دنیای امروز است.
اهمیت علم داده در دنیای امروز:
حدود 10 سال پیش (در سال 2012) توماس دَوِنپورت و دی جی تَمپِل علم داده را جذایترین شغل قرن 21 معرفی کردند (+) و البته بعد از گذشت بیش از یک دهه بنظر میرسد هنوز حرفشان قابل دفاع باشد. (+)
اگر بخواهیم مهمترین وظیفه مدیران را از بین تمام فعالیتهای ریز ودرشتی که در طول روز انجام میدهند نام ببریم قطعا یکی از گزینه ها تصمیم گیری است. تصمیم گیری درست در سطوح مختلف سازمانها میتوان ضامن پیشرفت و پایداری سازمان باشد.
از طرفی با توجه به داده های بسیاری که در لایه های مختلف کسب و کار بصورت روزانه تولید یا جمع آوری میشود کسب و کاری موفق است که بتواند تصمیمات خود را مبتنی بر داده ها بگیرد و اینجاست که علم داده اهمیت انکارناپذیر خود را نمایان میکند.
با استفاده از علم داده میتوان تصمیماتی دقیق، سریع، شخصی سازی شده با نیازهای مشتریان را اتخاذ کرد که منتج به سودآوری بیشتر میشود.
تصمیمات مبتنی بر داده کلید موفقیت در کسب و کارها است.
پیش نیازهای علم داده:
در تعریف علم داده به مشخصه میان رشته ای بودن آن اشاره شد و حالا در این بخش میخواهیم به پیش نیازهای ورود به علم داده اشاره کنیم.
بحث پیش نیازهای علم داده را در 4 بخش خلاصه میکنیم که عبارتند از:
- مفاهیم
- ابزارها
- مهارت ها
- شخصیت
مفاهیم:
ریاضیات، آمار، مدلسازی، الگوریتم های حل مسئله و دانش تخصصی در حوزه مسئله برخی از مواردی است که در این حوزه میتوان به آنها اشاره کرد.
ریاضیات و آمار قطعا هسته اصلی علم داده را تشکیل میدهند بطوریکه اگر میخواهیم در حوزه علم داده مسیر حرفه ای را طی کنیم نمیتوان از آنها چشم پوشی کرد.
با استفاده از روش های مختلف مدلسازی میتوان مسائل پیشرو را به قالبی تبدیل کرد که بتوان آنرا حل نمود.
لازم به ذکر است که مدل به معنای حالت ساده سازی شده ای از جهان واقعی بیرون است که میتواند در مسیر فهم موضوع کمک کننده باشد.
نکته مهم بعدی دانش تخصصی در حوزه مسئله است. برای اینکه بتوان از علم داده بهترین استفاده را کرد و خروجی هایی قابل اتکا و ارزش آفرین انتظار داشت باید این نکته مهم را در نظر بگیریم که بدون داشتن دانش تخصصی در حوزه مسئله به نتیجه نخواهیم رسید.
2. ابزار:
یک دانشمند داده برای حل مدل های خود و انجام هرگونه کار در حوزه علم داده نیاز به تسلط به ابزارهایی دارد که جزء جدایی ناپذیر علم داده هستند این ابزار ها شامل دیتابیس ها، زبان های برنامه نویسی یا نرم افزارهای تحلیلی متفاوتی می باشند و به فراخور صورت مسئله های مختلف نیاز به بکارگیری از آنها میشود. مثلا پایگاه های داده SQL, NoSql, و … زبان های برنامه نویسی مانند R یا Python نرم افزارهای هوش تجاری مانند power BI یا نرم افزارهای حل جبری مانند GAMS و … جزء این دسته می باشند.
3. مهارت ها:
خروجی های علم داده باید کاربردی و ارزش آفرین باشند لذا معتقدیم باید مهارت ارائه، مهارت حل مسئله، مهارت ارتباطی و تفکر انتقادی جزء پیش نیازهای علم داده لحاظ شوند.
4. شخصیت
عاشق کار میان رشته ای بودن، شخصیت یادگیرنده داشتن، دارا بودن روحیه کار تیمی، داشتن استعداد نگاه رو به جلو و همچنین توانایی انجام کار عمیق از دیگر الزامات علم داده می باشد.