You are on page 1of 57

‫به نام خدا‬

‫نام درس‪ :‬مفاهیم داده کاوی‬


‫)‪(Datamining‬‬
‫فصل اول ‪ :‬مقدمه و مفاهیم اولیه‬
‫دسته بندی ذهن انسان (اکاف ‪)1989‬‬

‫داده‬ ‫•‬
‫• اطالعات‬
‫• دانش‬
‫• خرد‬
‫ادراك‬ ‫•‬

‫‪2‬‬
‫داده)‪(DATA‬‬

‫دادهها نمادها و سیگنالهای ضبطشده (گرفتهشده و ذخیرهشده) هستند و دارای معنای خاصی نیستند‪.‬‬ ‫•‬
‫نمادها شامل کلمات (متن یا کالم)‪ ،‬اعداد‪ ،‬نمودارها و تصاویری (بیحرکت یا متحرك) هستند که بلوکهای ارتباطی هستند‪.‬‬ ‫•‬
‫سیگنالها شامل سنسور و یا خوانش حسی نور‪ ،‬صدا‪ ،‬بو‪ ،‬مزه و لمس میباشند‪.‬‬ ‫•‬
‫هدف اصلی دادهها برای ضبط فعالیتها و موقعیتها‪ ،‬تالش برای گرفتن تصویر درست و رویداد واقعی میباشد‪.‬‬ ‫•‬
‫داده ارزشی در تصمیمگیری ندارد‪.‬‬ ‫•‬
‫تعریف داده از دیدگاه دیگران‪:‬‬ ‫•‬
‫دادهها توسط سکانسهای عالئم یا نمادها ارائه میشوند‪.‬‬ ‫•‬
‫دادهها به عنوان جریانی از نمادها درك میشوند‪.‬‬ ‫•‬
‫دادهها موجودیتهای نمادین اولیه میباشند‪.‬‬ ‫•‬
‫‪3‬‬
‫اطالعات)‪(INFORMATION‬‬

‫اطالعات پیامی است که حاوی معنی‪ ،‬مفهوم یا ورودی مربوط (دارای ارتباط با یکدیگر و سازماندهیشده)‪ ،‬برای‬ ‫•‬
‫تصمیمگیری و یا عمل (عکس العمل) میباشد‪.‬‬
‫اطالعات از منابع فعلی (ارتباط) و تاریخی (دادههای پردازششده یا تصویر بازسازیشده) دریافت میگردند‪.‬‬ ‫•‬
‫در اصل هدف از اطالعات‪ ،‬کمک به تصمیمگیری و یا حل مشکالت یا تحقق یک فرصت است‪.‬‬ ‫•‬
‫تعریف اطالعات از دیدگاه دیگران‪:‬‬ ‫•‬
‫اطالعات‪ ،‬معنی و مفهوم داده شده است‪.‬‬ ‫•‬
‫اطالعات‪ ،‬معنا و مفهوم تأمین میکنند‪.‬‬ ‫•‬
‫اطالعات‪ ،‬ارتباط مفهوم و انسان است‪.‬‬ ‫•‬
‫‪4‬‬
‫دانش )‪(KNOWLEDGE‬‬
‫دانش عبارت است از‬ ‫•‬
‫• معرفت یا شناخت (شناخت چه؟)‬
‫• ظرفیت و توانایی عمل (شناخت چگونه؟)‬
‫• فهم و ادراك (شناخت چرا؟)‪.‬‬

‫•‬
‫هدف دانش‪ ،‬بهترکردن زندگی ما است‪.‬‬
‫• در زمینه تجارت‪ ،‬هدف دانش ایجاد یا افزایش ارزش برای شرکت و کلیه ذینفعان آن است‪.‬‬
‫• دانش زمانی حاصل میشود که دادهها و اطالعات شناخته شوند و روابط بین اطالعات مشخص و درك شود‪.‬‬
‫• دانش را می توان به عنوان یک درك روشن و مشخص از یک موضوع یا یک شیء یا درك یک واقعیت خاص تعریف کرد‪ .‬در اصل ‪ ،‬این محتوا‬
‫است که در ذهن ما جای میگیرد‪ .‬بنابراین روند دستیابی به دانش از طریق تفسیر ما از اطالعات (معنا و مفهوم) است‪ .‬روند تحول اطالعات به‬
‫دانش‪ ،‬از طریق یادگیری و تفسیر انسان صورت میگیرد‪.‬‬
‫تعریف دانش از دیدگاه دیگران‪:‬‬ ‫•‬
‫• دانش‪ ،‬تخصص انسانی است که در ذهن شخص ذخیره میشود و از طریق تجربه و تعامل با محیط پیرامون شخص به دست میآید‪.‬‬
‫• دانش شامل سفارشدادن یا پیونددادن اطالعات در یک چارچوب از قبل موجود در فهم انسان است‪.‬‬
‫‪5‬‬
‫خرد )‪(WISDOM‬‬

‫خرد یا حکمت‪ ،‬مجموعه چندین دانش تجمیعشده و درستکار میباشد‪.‬‬ ‫•‬


‫خرد دانش عمیقی را شامل می شود که عالوه بر دانش نیاز به بینش‪ ،‬قابلیت پیش بینی و خالقیت نیز دارد‪.‬‬ ‫•‬
‫خرد از تجمیع دانش بوجود آمده و از نظر عموم جامعه(سازمان)‪ ،‬به رفتار مناسب و ارزشمند‪ ،‬ختم خواهد شد‪.‬‬ ‫•‬
‫یک فرد آگاه و خردمند‪ ،‬کسی است که اعتقاد واقعی درست یا اعتقادی موجه و متکی به واقعیت داشته باشد‪ .‬با‬ ‫•‬
‫این حال دانشمندبودن یکی از مؤلفههای خرد است و دیگری نمایش عقاید بیسروصدا در مورد رفتار زندگی‬
‫میباشد‪.‬‬
‫خرد ساختاری از کثرت دانش است‪ ،‬پس بسیاری افراد متکبر خواهند شد‪.‬‬ ‫•‬
‫‪6‬‬
7
8
9
‫منابع درسی‬

‫‪10‬‬
‫فهرست مطالب‬
‫•‬
‫چرا دادهکاوی؟‬
‫• دادهکاوی چیست؟‬
‫دادههای قابل پردازش ؟‬ ‫•‬
‫• چه الگوهایی را میتوان استخراج کرد؟‬
‫• چه فناوریهایی در دادهکاوی به کار میروند؟‬

‫‪https://www.copyrightuser.org/understand/exceptions/text-data-mining/‬‬

‫‪11‬‬
‫• چرا دادهکاوی؟‬
‫دادهکاوی چیست؟‬ ‫•‬
‫دادههای قابل پردازش ؟‬ ‫•‬
‫• چه الگوهایی را میتوان استخراج کرد؟‬
‫• چه فناوریهایی در دادهکاوی به کار میروند؟‬

‫‪12‬‬
‫چرا دادهکاوی؟‬
‫از دیدگاه تجاری‬
‫• مقدار زیادی داده در حال جمع آوری و انباشت هست‪.‬‬
‫دادههای اینترنتی‬ ‫•‬
‫دادههای تجارت الکترونیک‬ ‫•‬
‫دادههای خرید از فروشگاهها‬ ‫•‬
‫دادههای تراکنشهای بانکی و کارتهای اعتباری‬ ‫•‬
‫کامپیوترها قویتر و ارزانتر شدهاند‪.‬‬ ‫•‬
‫‪http://hajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf‬‬ ‫رقابتهای تجاری سختتر شدهاند‬ ‫•‬
‫ارائه خدمات بهتر به مشتریان و جلب نظر مشتریان (مشتری مداری)‬ ‫•‬
‫‪13‬‬
‫چرا دادهکاوی؟‬
‫از دیدگاه علمی‬
‫داده ها با سرعت خیلی زیاد جمع آوری و ذخیره میشوند (گیگابایت در ثانیه)‬ ‫•‬
‫‪ -‬حسگرهای موجود در ماهواره ها‬
‫‪ -‬تلسکوپ های فضایی‬
‫‪ -‬دادههای خرید ثبت شده در فروشگاهها‬
‫‪ -‬دادههای تراکنش های بانکی و کارتهای اعتباری‬

‫فهم این داده ها و اطالعات موجود در آن از قابلیت های انسانی فراتر رفته‬ ‫•‬
‫است‪.‬‬
‫دادهکاوی به دانشمندان امکان میدهد که‪:‬‬ ‫•‬
‫• داده ها را گروهبندی و دستهبندی کنند‪.‬‬
‫‪ •14‬فرضیههای جدیدی را شکل دهند‪.‬‬

‫‪http://hajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf‬‬
‫چرا دادهکاوی؟‬
‫داده‪ ،‬یک کامپیوتر است !‬
‫مقدار زیاد داده‪ ،‬میتواند قویتر از الگوریتمها و مدلهای پیچیده باشد‪.‬‬ ‫•‬
‫حل شدن مسائل پردازش زبان طبیعی با استفاده از داده توسط گوگل‬ ‫•‬
‫• مثل ‪ :‬غلطهای امالیی و هممعنیها‬
‫داده‪ ،‬قدرت است!‬ ‫•‬
‫امروزه داده جمعآوری شده‪ ،‬یک از بزرگترین داراییهای یک شرکت آنالین است‪.‬‬ ‫•‬
‫• مثال‪ :‬اطالعات جستجوهای کاربران در گوگل‬
‫• توئیتهای کاربران و دنبالکردنها در توئیتر‬
‫• معاملهها در آمازون ( خرید و فروشها )‬
‫راهی برای بهکارگیری هوش جمعی‬
‫‪15‬‬ ‫•‬
‫چرا دادهکاوی؟‬

‫‪16‬‬
‫چرا دادهکاوی؟‬ ‫•‬
‫• دادهکاوی چیست؟‬
‫دادههای قابل پردازش ؟‬ ‫•‬
‫• چه الگوهایی را میتوان استخراج کرد؟‬
‫• چه فناوریهایی در دادهکاوی به کار میروند؟‬

‫‪17‬‬
‫دادهکاوی چیست؟‬
‫• استفاده از تکنیکهای مؤثر برای تحلیل مجموعههای خیلی بزرگ داده و استخراج‬
‫الگوهای مفید و معنادار از داده‬

‫‪18‬‬
WHY NOW?

19
20
‫نقش انسان در داده کاوی‬

‫اشکال این تعریف ؟‬ ‫•‬

‫•‬
‫در هر مرحله از فرآیند داده کاوی انسان باید به صورت فعال درگیر باشد‪.‬‬
‫• هدف درس‪ :‬آشنایی با مقدمات این علم‪ ،‬اما این برای مهارت یافتن کافی نیست‪.‬‬

‫‪21‬‬
‫مثال ها‬

‫‪22‬‬
‫مثال ها‬

‫‪23‬‬
‫مثال ها‬

‫‪24‬‬
‫مثال ها‬

‫‪25‬‬
‫مثال ها‬

‫‪26‬‬
‫مثال ها‬

‫‪27‬‬
‫مثال ها‬

‫‪28‬‬
‫مثال ها‬

‫‪29‬‬
‫مثال ها‬

‫‪30‬‬
‫مراحل اکتشاف دانش‬

‫ پاکسازی داده‬:(Data cleaning) •


‫ یکپارچهسازی داده‬: (Data integration) •
‫ انتخاب داده‬: ) Data Selection( •
‫ تبدیل دادهها‬: (Data Transformation) •
‫ دادهکاوی‬:)Data mining( •
‫ ارزیابی الگوها‬: (Pattern Evaluation) •
‫ ارائه دانش‬: (Knowledge Presentation) •

31
‫داده خیلی پیچیده است!‬
‫• انواع داده مختلف وجود دارد‪.‬‬
‫جدولها‪ ،‬گرافها‪ ،‬سریهای زمانی‪ ،‬تصاویر و ‪. ...‬‬ ‫•‬
‫• ابعاد مکانی و زمانی دادهها‬
‫• دادههای ترکیبی از انواع مختلف داده‬
‫مثال ‪ :‬از تلفن همراه ‪ :‬محل کنونی کاربر‪ ،‬اطالعات‬ ‫•‬
‫دوستی‪ ،‬نظرات در توئیتر‪ ،‬تصاویر دوربینها و‬
‫جستجوها در موتورهای جستجو‬

‫‪32‬‬
‫‪https://www.magicsoftware.com/2012/08/big-data-definition-for-business.html‬‬
‫•‬
‫چرا دادهکاوی؟‬
‫• دادهکاوی چیست؟‬

‫• دادههای قابل پردازش ؟‬


‫چه الگوهایی را میتوان استخراج کرد؟‬ ‫•‬
‫• چه فناوریهایی در دادهکاوی به کار میروند؟‬

‫‪33‬‬
‫چه نوع دادهای را میتوان پردازش کرد؟‬
‫جریانهای داده و دادههای حسگرها‬ ‫•‬
‫• دادههای سریهای زمانی‬
‫• دادههای ترتیبی‬
‫• دادههای ساختیافته‪ ،‬گرافها‪ ،‬شبکههای اجتماعی‬
‫و دادههای لینک شده‬
‫دادههای فضایی و فضایی‪-‬زمانی‬ ‫•‬
‫• پایگاهدادههای چندرسانهای‬
‫• دادههای متنی‬
‫• دادههای وب‬‫‪34‬‬
‫‪https://www.salesforce.com/products/marketing-cloud/best-practices/data-mining-predictive-analytics/‬‬
‫مثال ‪ :‬دادههای معاملهها‬
‫• میلیاردها مشتری واقعی‬
‫• ‪ 20 :WALMART‬میلیون معامله در روز‬
‫• ‪ 300 : AT & T‬میلیون تماس در روز‬
‫• دیجی کاال ‪ :‬بیش از ‪ 3000‬سفارش و ‪ 500‬هزار بازدید در روز‬
‫• کارتهای اعتباری ‪ :‬میلیاردها معامله در روز‬
‫• کسب اطالعات از مشتریهای خاص توسط برخی شرکتها‬

‫‪35‬‬
‫مثال ‪ :‬اسناد‬
‫• وب به عنوان یک منبع سند‪ 50 :‬میلیارد صفحه‬
‫وب تخمین زده شده است‪.‬‬
‫• ویکیپدیا‪ :‬بیش از ‪ 4‬میلیون مقاله تا کنون‬
‫جریان ثابت ‪100‬‬ ‫• پورتالهای خبری آنالین‪:‬‬
‫مقاله جدید در هر روز‬
‫• توئیتر‪ :‬تقریباً ‪ 300‬میلیون توئیت در روز‬

‫‪36‬‬
‫‪https://marketingland.com/leveraging-wikipedia-data-deeper-consumer-insights-82320‬‬
‫مثال ‪ :‬دادههای شبکه‬
‫• وب‪ :‬بیش از ‪ 50‬میلیون صفحه وب مرتبط شده با دیگر صفحات ( لینک شده)‬
‫• فیس بوک‪ :‬بیش از ‪ 500‬میلیون کاربر‬
‫• توئیتر‪ :‬بیش از ‪ 300‬میلیون کاربر‬
‫• تلگرام‪ :‬ماهانه بیش از ‪ 200‬میلیون کاربر فعال‬
‫• وبالگها ‪ :‬بیش از ‪ 250‬میلیون وبالگ در جهان‬

‫‪37‬‬

‫‪http://blog.farifam.com/2018/02/12/rstudio-twitter-data-analysis-cleaning-data/‬‬
‫سایر دادههای مهم‬
‫• دادههای مربوط به آب و هوا‬
‫داده مربوط به تغییرات آب و هوایی‬ ‫•‬
‫‪https://www.ncdc.noaa.gov/cdo-web/‬‬ ‫•‬
‫یک پایگاه داده از دما‪ ،‬بارش و فشار هوا که توسط مرکز دادههای ملی آب و هوا‪،‬‬ ‫•‬
‫دانشگاه ایالتی آریزونا و مرکز تحلیل اطالعات کربن دی اکسید مدیریت میشود‪.‬‬

‫• دادههای مربوط به سالمتی افراد‬


‫داروهای مصرف شده توسط افراد مختلف‬ ‫•‬
‫• اطالعات ژنتیکی و فیزیکی مربوط به افراد مختلف‬
‫• اطالعات مربوط به بیماران مختلف و ویژگیهای آنها‬ ‫‪38‬‬
‫•‬
‫چرا دادهکاوی؟‬
‫• دادهکاوی چیست؟‬
‫دادههای قابل پردازش ؟‬ ‫•‬
‫• چه الگوهایی را میتوان استخراج کرد؟‬
‫• چه فناوریهایی در دادهکاوی به کار میروند؟‬

‫‪39‬‬
‫‪DATA MINING TASKS‬‬ ‫چه الگوهایی کاوش می شوند؟‬

‫‪40‬‬
DESCRIPTION

41
REGRESSION

42
CLASSIFICATION

43
PREDICTION

44
CLUSTERING

45
ASSOCIATION

46
47
‫•‬
‫چرا دادهکاوی؟‬
‫• دادهکاوی چیست؟‬
‫دادههای قابل پردازش ؟‬ ‫•‬
‫• چه الگوهایی را میتوان استخراج کرد؟‬

‫• چه فناوریهایی در دادهکاوی به کار میروند؟‬

‫‪48‬‬
‫دادهکاوی‪ :‬تالقی علوم مختلف‬

‫یادگیری ماشین‬ ‫تشخیص الگو‬ ‫آمار‬

‫برنامههای کاربردی‬ ‫دادهکاوی‬ ‫بصریسازی‬

‫الگوریتم‬ ‫فناوری پایگاه داده‬ ‫محاسبات با کارایی باال‬

‫‪49‬‬
‫چرا نیاز به علوم مختلف داریم؟‬
‫• حجم زیاد دادهها‬
‫• الگوریتمها باید قابلیت کار با حجم زیادی از دادهها را داشته باشند‪.‬‬
‫• دادهها دارای ابعاد زیادی هستند‪.‬‬
‫• مثال میکرو آرایه ها دارای دهها هزار ویژگی هستند‪.‬‬
‫• دادهها دارای پیچیدگی زیادی هستند‪.‬‬
‫• مثل دادههای جریانی و دادههای حسگرها‬
‫• دادههای دنباله زمانی و داده های ترتیبی‬
‫• دادههای ساختاری و گرافی‬
‫• دادههای چند رسانهای‪ ،‬متنی و دادههای وب‬
‫• کاربردهای جدید و پیچیده‬
‫‪https://medium.com/enabled-innovation/artificial-general-intelligence-too-much-or-too-little-too-soon-9c0dd7bd1c2d‬‬
‫‪50‬‬
51
52
53
‫اشتباهات رایج در داده کاوی‬

‫‪54‬‬
‫اشتباهات رایج در داده کاوی‬

‫‪55‬‬
‫اشتباهات رایج در داده کاوی‬

‫‪56‬‬
‫ابزارهای داده کاوی‬

‫‪57‬‬

You might also like