داده، نفت جدید

داده‌ها نفت جدید هستند که برای اکتشاف، استخراج و پالایش آن نیازمند استفاده از روش ها و الگوریتم‌های متفاوتی هستیم. برخی از داده‌ها در محیط کسب و کار ما موجود هستند و فقط لازم است به طور بهینه‌ای از آن‌ها استفاده کنیم. اما بیشتر داده‌ها نیازمند تهیه و جمع آوری بر اساس اهداف تعیین شده هستند. این داده ها بر اساس نوع دسترسی به آن، به دو بخش درون سازمانی و برون سازمانی تقسیم می‌شوند.
داده، نفت جدید

داده ها شباهت زیادی با نفت دارند. همه ما می‌دانیم که نفت، بسیار ارزشمند و  برای کشورها حیاتی است. اما در گذشته عده‌ای از آن فراری بودند و اصلاً توجهی به ارزش آن نداشتند. داده‌ها، سرمایه‌های عظیم هر سازمان هستند که اگر به درستی مورد تحلیل و استفاده قرار گیرند، منافع فراوانی را به همراه خواهند داشت. 

اکتشاف داده

هدف جمع آوری داده

داده ها بر اساس هدف جمع آوری به دو دسته اولیه و ثانویه تقسیم می‌شوند. 

داده‌های اولیه

 داده هایی هستند که با یک هدف مشخصی جمع‌آوری می‌شوند. مثلاً زمانی که دارای یک پیج فروشگاهی در اینستاگرام هستید و در استوری نظرسنجی مقایسه محبوبیت دو محصول را قرار می‌دهید، در حال جمع آوری نوعی داده اولیه هستید.

داده‌های ثانویه

 داده‌هایی که از قبل با هدفی دیگر جمع آوری شده و یا موجود هستند که برای اهداف جدید دوباره از آن‌ها استفاده می‌کنیم. مثلاً گزارش تعداد محصولات فروخته شده در یک پیج فروشگاهی اینستاگرام داده ثانویه است. همچنین داده های موجود در اینترنت، نتایج گزارش‌های آماری و داده های منتشر شده توسط بیزینس ها یا دولت‌ها از نوع داده های ثانویه هستند.

داده‌های ثانویه

نوع دسترسی به داده

همینطور داده‌ها بر اساس محل قرارگیری و نوع دسترسی به آن‌ها به دو نوع درون سازمانی و برون سازمانی تقسیم می‌شوند. استفاده از آمار گوگل ترندز یا تحلیل گفتمان‌های موجود درباره کسب و کار خود یا رقبا در شبکه‌های اجتماعی، از ساده ترین راه‌های استفاده از داده های موجود در فضای مجازی هستند.

داده‌های درون سازمانی

داده هایی هستند که آن‌ها را در سازمان خود جمع آوری کرده ایم. تصمیم به جمع آوری این نوع داده‌ها معمولاً به صورت هدفمند انجام می‌شود. به عنوان مثال مشخصات فردی مشتریان یک فروشگاه مانند سن، قد و جنسیت از این نوع هستند. 

داده‌های برون سازمانی

داده هایی هستند که به طور کلی به آن‌ها دسترسی نداریم و برای استفاده از آن‌ها نیازمند جمع آوری یا خرید داده‌ها هستیم. مثلاً داده‌های کاربران اینستاگرام برای شرکت متا، درون سازمانی و برای ما، برون سازمانی محسوب می‌شود.

سرعت اکتشاف داده

یکی از مسائل مهمی که باید در پروژه‌های داده کاوی مورد توجه قرار گیرد، سرعت دسترسی به داده‌ها است. در ابتدا باید به صورت دقیق بررسی و ارزیابی کنیم تا متوجه شویم که زمان تخمینی برای دسترسی به همه داده های مورد نیاز چقدر است؟ در بعضی موارد تمام داده های مورد نیاز در دیتابیس‌های سازمان ذخیره شده و نگرانی بابت این موضوع نداریم. اما گاهی اوقات فرایند جمع آوری داده های مورد نیاز ممکن است بیش از چند ماه زمان ببرد که فرایند استفاده از آن را با کندی مواجه می‌کند.

حجم داده

با توجه به اینکه فرایند داده کاوی نیازمند تعداد زیادی داده است، تخمین حجم آن‌ها بسیار حائز اهمیت است. با پیش بینی حجم داده‌های مورد استفاده، به فضای مورد نیاز برای ذخیره آن و توان پردازشی لازم برای سیستم یا سرور پردازشگر آن پی می‌بریم. همانطور که می‌دانید پردازش های مبتنی بر تصویر، نیازمند فضای ذخیره سازی و توان پردازشی بسیار بیشتری هستند.

بیگ دیتا

 

تنوع داده

داده‌هایی که برای پردازش های داده کاوی مورد استفاده قرار می‌گیرند، همواره از یک جنس نیستند. برای استفاده از این داده‌ها باید آمادگی مواجهه با انواع مختلفی از اطلاعات را داشته باشیم و هیچگاه ارائه گزارشات تحلیلی را محدود به یک نوع داده نکنیم.

صحت داده

از مهم ترین مسائلی که پیش از اکتشاف و جمع‌آوری داده مورد توجه قرار می‌گیرد، بررسی صحت داده‌ها است. اطمینان از صحت، بروز بودن و قابل اطمینان بودن داده‌ها بسیار مهم است. اگر داده‌های مورد استفاده  از صحت و کیفیت مناسب برخوردار نباشند، منجر به نتایج نادرستی خواهند شد.

تجسم داده

هر چند موضوع تجسم داده بیشتر هنگام توزیع و اشتراک گذاری آن مورد توجه قرار می‌گیرد. اما باید مقدمات و پیش فرض های ذهنی تجسم آن‌را قبل از جمع آوری و اکتشاف آن فراهم کنیم. اگر نتوانیم هیچ تجسم صحیحی از داده‌هایی که جمع‌آوری خواهیم کرد داشته باشیم، ممکن است در فرایند اکتشاف داده دچار اشتباه شویم و باعث هدر رفت زمان و هزینهها شود.

ارزش داده

قطعاً هر فرایند داده کاوی اهداف مختلف اقتصادی، اجتماعی، سیاسی و ... را دنبال می‌کند. لذا هنگام اکتشاف داده به اطلاعاتی نیاز داریم که ارزش کافی برای اهداف ما را داشته باشند. البته این نکته را مد نظر قرار دهید که داده‌ها طلای قرن هستند پس هیچ‌گاه آنها را دور نریزید. ممکن است داده‌ای از نظر شما کاملا بی ارزش باشد اما برای استفاده در اهداف دیگر تبدیل به یک داده بسیار سودمند شود.

منابع تولید داده

فضای حقیقی

تقریباً همه فضاهای حقیقی مانند فروشگاه،رستوران‌، بانک و ... منابع تولید داده هستند. البته جمع آوری و ذخیره سازی دیتا در فضاهای حقیقی بسیار کم است. اما اگر مالک یک کسب و کار هوشمند هستید، ارزش داده‌های پیرامون خود را بدانید و به سادگی آن‌ها را از دست ندهید.

فضای مجازی

فضای مجازی، منبع مناسبی برای داده‌های کلان

فضای مجازی، منبع مناسبی برای داده‌های کلان

فضای مجازی با توجه به ماهیت فناوری آن، داده‌های بسیار بیشتری را ذخیره کرده و مورد استفاده قرار می‌دهد. استفاده کاربران از شبکه های اجتماعی، پیامرسان‌ها، VOD ها و ... بدون ذخیره سازی اطلاعات آن‌ها ممکن نیست. لذا حجم عظیمی از اطلاعات افراد در فضای مجازی ذخیره می شوند. البته همیشه همه این دیتاها مورد استفاده قرار نمی‌گیرند اما یک کسب و کار هوشمند با استفاده مناسب از آن‌ها، رشد فراوانی را تجربه خواهد کرد.

 

اینترنت اشیا

استفاده از تجهیزات هوشمندی که داده‌هایی را تولید یا جمع‌آوری می‌کنند، کمک شایانی به فرایندهای داده کاوی خواهد کرد. البته این موضوع در مراحل اولیه‌اش است و هنوز به طور گسترده مورد استفاده قرار نمی‌گیرد. ارتباط وسایل الکترونیک با اینترنت شرایطی را فراهم می‌آورد تا بتوانیم حجم عظیمی از داده‌های پیرامون خود را به سادگی ذخیره و جمع‌آوری کنیم. استفاده از تجهیزات اینترنت اشیا برای جمع آوری داده یک چاه نفت عمیق اما دارای هزینه بیشتر است. شاید در نگاه اول استفاده از تجهیزات زیاد برای جمع آوری داده منطقی به نظر نرسد، اما اطلاعات جامع و متنوعی که این داده‌ها در اختیار ما قرار می‌دهند بیانگر ارزش احداث این چاه جدید است.

نقش iot در داده کاوی

نقش iot در داده کاوی

استخراج داده

استخراج داده حالت‌های متنوع بسیاری دارد. ساده ترین نوع استخراج داده یک نظرسنجی یا پرسشنامه است. در موارد مختلف با توجه به داده های مورد نیاز، باید روش‌های گوناگون استخراج آن را بشناسیم و از آن‌ها استفاده کنیم. رایج‌ترین این روش‌ها استفاده از API و وب اسکرپینگ است. روش استخراج داده بر اساس منبع آن، میزان دسترسی به داده و سرعت استخراج آن تعیین می‌شود.

پالایش داده

اگر داده ها را نفت جدید بدانیم، پالایشگاه آن فناوری‌های مرتبط با هوش مصنوعی (AI) و پیش پردازش‌های آماری است. این موضوع به این معنا نیست که درهمه فرایندهای داده کاوی، نیازمند استفاده از الگوریتم‌های پیچیده و سطح بالایی از دانش هوش مصنوعی هستیم؛ بلکه بسیاری از آن‌ها با استفاده از روش‌های متداول به  خوبی قابل انجام است.

در مفاهیم تئوری داده کاوی، عملیات و فرایند مختلفی را تحت‌عنوان پالایش داده مطرح می‌کنیم. اما در این مقایسه، فرایندهای تخصصی کاهش، تکمیل و تطبیق داده را با نام عمومی پالایش بیگ دیتا معرفی کردیم. شناسایی داده های پرت، تکمیل اطلاعات ناموجود، طبقه بندی مناسب داده‌ها و تکنیک‌های متن کاوی ذیل این بخش تعریف می‌شوند.

مجسم سازی

برای تحقیق درک و فهم بهتر از داده‌ها توسط خودمان، همکاران و همچنین مشتریان، لازم است سه گانه دیتا، داستان و تجسم را برای آن ترسیم کنیم. داستان باعث روشن شدن موضوع استفاده از داده و تجسم باعث درگیر شدن عمیق مخاطب با داده‌ها می‌شود. با کمک مجسم سازی داده، علاوه بر به اشتراک گذاشتن فرضیات ذهنی خودمان، قادر به فهم مجدد آن‌ها در مراجعات آینده خواهیم بود.

 

 در صورت وجود هر گونه سؤال یا بحثی درباره این مطلب، از طریق بخش چت آنلاین سایت با ما ارتباط بگیرید. از مکالمه با شما خوشحال می‌شویم 😀