داده ها شباهت زیادی با نفت دارند. همه ما میدانیم که نفت، بسیار ارزشمند و برای کشورها حیاتی است. اما در گذشته عدهای از آن فراری بودند و اصلاً توجهی به ارزش آن نداشتند. دادهها، سرمایههای عظیم هر سازمان هستند که اگر به درستی مورد تحلیل و استفاده قرار گیرند، منافع فراوانی را به همراه خواهند داشت.
اکتشاف داده
هدف جمع آوری داده
داده ها بر اساس هدف جمع آوری به دو دسته اولیه و ثانویه تقسیم میشوند.
دادههای اولیه
داده هایی هستند که با یک هدف مشخصی جمعآوری میشوند. مثلاً زمانی که دارای یک پیج فروشگاهی در اینستاگرام هستید و در استوری نظرسنجی مقایسه محبوبیت دو محصول را قرار میدهید، در حال جمع آوری نوعی داده اولیه هستید.
دادههای ثانویه
دادههایی که از قبل با هدفی دیگر جمع آوری شده و یا موجود هستند که برای اهداف جدید دوباره از آنها استفاده میکنیم. مثلاً گزارش تعداد محصولات فروخته شده در یک پیج فروشگاهی اینستاگرام داده ثانویه است. همچنین داده های موجود در اینترنت، نتایج گزارشهای آماری و داده های منتشر شده توسط بیزینس ها یا دولتها از نوع داده های ثانویه هستند.
نوع دسترسی به داده
همینطور دادهها بر اساس محل قرارگیری و نوع دسترسی به آنها به دو نوع درون سازمانی و برون سازمانی تقسیم میشوند. استفاده از آمار گوگل ترندز یا تحلیل گفتمانهای موجود درباره کسب و کار خود یا رقبا در شبکههای اجتماعی، از ساده ترین راههای استفاده از داده های موجود در فضای مجازی هستند.
دادههای درون سازمانی
داده هایی هستند که آنها را در سازمان خود جمع آوری کرده ایم. تصمیم به جمع آوری این نوع دادهها معمولاً به صورت هدفمند انجام میشود. به عنوان مثال مشخصات فردی مشتریان یک فروشگاه مانند سن، قد و جنسیت از این نوع هستند.
دادههای برون سازمانی
داده هایی هستند که به طور کلی به آنها دسترسی نداریم و برای استفاده از آنها نیازمند جمع آوری یا خرید دادهها هستیم. مثلاً دادههای کاربران اینستاگرام برای شرکت متا، درون سازمانی و برای ما، برون سازمانی محسوب میشود.
سرعت اکتشاف داده
یکی از مسائل مهمی که باید در پروژههای داده کاوی مورد توجه قرار گیرد، سرعت دسترسی به دادهها است. در ابتدا باید به صورت دقیق بررسی و ارزیابی کنیم تا متوجه شویم که زمان تخمینی برای دسترسی به همه داده های مورد نیاز چقدر است؟ در بعضی موارد تمام داده های مورد نیاز در دیتابیسهای سازمان ذخیره شده و نگرانی بابت این موضوع نداریم. اما گاهی اوقات فرایند جمع آوری داده های مورد نیاز ممکن است بیش از چند ماه زمان ببرد که فرایند استفاده از آن را با کندی مواجه میکند.
حجم داده
با توجه به اینکه فرایند داده کاوی نیازمند تعداد زیادی داده است، تخمین حجم آنها بسیار حائز اهمیت است. با پیش بینی حجم دادههای مورد استفاده، به فضای مورد نیاز برای ذخیره آن و توان پردازشی لازم برای سیستم یا سرور پردازشگر آن پی میبریم. همانطور که میدانید پردازش های مبتنی بر تصویر، نیازمند فضای ذخیره سازی و توان پردازشی بسیار بیشتری هستند.
تنوع داده
دادههایی که برای پردازش های داده کاوی مورد استفاده قرار میگیرند، همواره از یک جنس نیستند. برای استفاده از این دادهها باید آمادگی مواجهه با انواع مختلفی از اطلاعات را داشته باشیم و هیچگاه ارائه گزارشات تحلیلی را محدود به یک نوع داده نکنیم.
صحت داده
از مهم ترین مسائلی که پیش از اکتشاف و جمعآوری داده مورد توجه قرار میگیرد، بررسی صحت دادهها است. اطمینان از صحت، بروز بودن و قابل اطمینان بودن دادهها بسیار مهم است. اگر دادههای مورد استفاده از صحت و کیفیت مناسب برخوردار نباشند، منجر به نتایج نادرستی خواهند شد.
تجسم داده
هر چند موضوع تجسم داده بیشتر هنگام توزیع و اشتراک گذاری آن مورد توجه قرار میگیرد. اما باید مقدمات و پیش فرض های ذهنی تجسم آنرا قبل از جمع آوری و اکتشاف آن فراهم کنیم. اگر نتوانیم هیچ تجسم صحیحی از دادههایی که جمعآوری خواهیم کرد داشته باشیم، ممکن است در فرایند اکتشاف داده دچار اشتباه شویم و باعث هدر رفت زمان و هزینهها شود.
ارزش داده
قطعاً هر فرایند داده کاوی اهداف مختلف اقتصادی، اجتماعی، سیاسی و ... را دنبال میکند. لذا هنگام اکتشاف داده به اطلاعاتی نیاز داریم که ارزش کافی برای اهداف ما را داشته باشند. البته این نکته را مد نظر قرار دهید که دادهها طلای قرن هستند پس هیچگاه آنها را دور نریزید. ممکن است دادهای از نظر شما کاملا بی ارزش باشد اما برای استفاده در اهداف دیگر تبدیل به یک داده بسیار سودمند شود.
منابع تولید داده
فضای حقیقی
تقریباً همه فضاهای حقیقی مانند فروشگاه،رستوران، بانک و ... منابع تولید داده هستند. البته جمع آوری و ذخیره سازی دیتا در فضاهای حقیقی بسیار کم است. اما اگر مالک یک کسب و کار هوشمند هستید، ارزش دادههای پیرامون خود را بدانید و به سادگی آنها را از دست ندهید.
فضای مجازی
فضای مجازی، منبع مناسبی برای دادههای کلان
فضای مجازی با توجه به ماهیت فناوری آن، دادههای بسیار بیشتری را ذخیره کرده و مورد استفاده قرار میدهد. استفاده کاربران از شبکه های اجتماعی، پیامرسانها، VOD ها و ... بدون ذخیره سازی اطلاعات آنها ممکن نیست. لذا حجم عظیمی از اطلاعات افراد در فضای مجازی ذخیره می شوند. البته همیشه همه این دیتاها مورد استفاده قرار نمیگیرند اما یک کسب و کار هوشمند با استفاده مناسب از آنها، رشد فراوانی را تجربه خواهد کرد.
اینترنت اشیا
استفاده از تجهیزات هوشمندی که دادههایی را تولید یا جمعآوری میکنند، کمک شایانی به فرایندهای داده کاوی خواهد کرد. البته این موضوع در مراحل اولیهاش است و هنوز به طور گسترده مورد استفاده قرار نمیگیرد. ارتباط وسایل الکترونیک با اینترنت شرایطی را فراهم میآورد تا بتوانیم حجم عظیمی از دادههای پیرامون خود را به سادگی ذخیره و جمعآوری کنیم. استفاده از تجهیزات اینترنت اشیا برای جمع آوری داده یک چاه نفت عمیق اما دارای هزینه بیشتر است. شاید در نگاه اول استفاده از تجهیزات زیاد برای جمع آوری داده منطقی به نظر نرسد، اما اطلاعات جامع و متنوعی که این دادهها در اختیار ما قرار میدهند بیانگر ارزش احداث این چاه جدید است.
نقش iot در داده کاوی
استخراج داده
استخراج داده حالتهای متنوع بسیاری دارد. ساده ترین نوع استخراج داده یک نظرسنجی یا پرسشنامه است. در موارد مختلف با توجه به داده های مورد نیاز، باید روشهای گوناگون استخراج آن را بشناسیم و از آنها استفاده کنیم. رایجترین این روشها استفاده از API و وب اسکرپینگ است. روش استخراج داده بر اساس منبع آن، میزان دسترسی به داده و سرعت استخراج آن تعیین میشود.
پالایش داده
اگر داده ها را نفت جدید بدانیم، پالایشگاه آن فناوریهای مرتبط با هوش مصنوعی (AI) و پیش پردازشهای آماری است. این موضوع به این معنا نیست که درهمه فرایندهای داده کاوی، نیازمند استفاده از الگوریتمهای پیچیده و سطح بالایی از دانش هوش مصنوعی هستیم؛ بلکه بسیاری از آنها با استفاده از روشهای متداول به خوبی قابل انجام است.
در مفاهیم تئوری داده کاوی، عملیات و فرایند مختلفی را تحتعنوان پالایش داده مطرح میکنیم. اما در این مقایسه، فرایندهای تخصصی کاهش، تکمیل و تطبیق داده را با نام عمومی پالایش بیگ دیتا معرفی کردیم. شناسایی داده های پرت، تکمیل اطلاعات ناموجود، طبقه بندی مناسب دادهها و تکنیکهای متن کاوی ذیل این بخش تعریف میشوند.
مجسم سازی
برای تحقیق درک و فهم بهتر از دادهها توسط خودمان، همکاران و همچنین مشتریان، لازم است سه گانه دیتا، داستان و تجسم را برای آن ترسیم کنیم. داستان باعث روشن شدن موضوع استفاده از داده و تجسم باعث درگیر شدن عمیق مخاطب با دادهها میشود. با کمک مجسم سازی داده، علاوه بر به اشتراک گذاشتن فرضیات ذهنی خودمان، قادر به فهم مجدد آنها در مراجعات آینده خواهیم بود.
در صورت وجود هر گونه سؤال یا بحثی درباره این مطلب، از طریق بخش چت آنلاین سایت با ما ارتباط بگیرید. از مکالمه با شما خوشحال میشویم 😀