Professional Documents
Culture Documents
ادخ مان هب یواک هداد میهافم (Datamining)
ادخ مان هب یواک هداد میهافم (Datamining)
داده •
• اطالعات
• دانش
• خرد
ادراك •
2
داده)(DATA
دادهها نمادها و سیگنالهای ضبطشده (گرفتهشده و ذخیرهشده) هستند و دارای معنای خاصی نیستند. •
نمادها شامل کلمات (متن یا کالم) ،اعداد ،نمودارها و تصاویری (بیحرکت یا متحرك) هستند که بلوکهای ارتباطی هستند. •
سیگنالها شامل سنسور و یا خوانش حسی نور ،صدا ،بو ،مزه و لمس میباشند. •
هدف اصلی دادهها برای ضبط فعالیتها و موقعیتها ،تالش برای گرفتن تصویر درست و رویداد واقعی میباشد. •
داده ارزشی در تصمیمگیری ندارد. •
تعریف داده از دیدگاه دیگران: •
دادهها توسط سکانسهای عالئم یا نمادها ارائه میشوند. •
دادهها به عنوان جریانی از نمادها درك میشوند. •
دادهها موجودیتهای نمادین اولیه میباشند. •
3
اطالعات)(INFORMATION
اطالعات پیامی است که حاوی معنی ،مفهوم یا ورودی مربوط (دارای ارتباط با یکدیگر و سازماندهیشده) ،برای •
تصمیمگیری و یا عمل (عکس العمل) میباشد.
اطالعات از منابع فعلی (ارتباط) و تاریخی (دادههای پردازششده یا تصویر بازسازیشده) دریافت میگردند. •
در اصل هدف از اطالعات ،کمک به تصمیمگیری و یا حل مشکالت یا تحقق یک فرصت است. •
تعریف اطالعات از دیدگاه دیگران: •
اطالعات ،معنی و مفهوم داده شده است. •
اطالعات ،معنا و مفهوم تأمین میکنند. •
اطالعات ،ارتباط مفهوم و انسان است. •
4
دانش )(KNOWLEDGE
دانش عبارت است از •
• معرفت یا شناخت (شناخت چه؟)
• ظرفیت و توانایی عمل (شناخت چگونه؟)
• فهم و ادراك (شناخت چرا؟).
•
هدف دانش ،بهترکردن زندگی ما است.
• در زمینه تجارت ،هدف دانش ایجاد یا افزایش ارزش برای شرکت و کلیه ذینفعان آن است.
• دانش زمانی حاصل میشود که دادهها و اطالعات شناخته شوند و روابط بین اطالعات مشخص و درك شود.
• دانش را می توان به عنوان یک درك روشن و مشخص از یک موضوع یا یک شیء یا درك یک واقعیت خاص تعریف کرد .در اصل ،این محتوا
است که در ذهن ما جای میگیرد .بنابراین روند دستیابی به دانش از طریق تفسیر ما از اطالعات (معنا و مفهوم) است .روند تحول اطالعات به
دانش ،از طریق یادگیری و تفسیر انسان صورت میگیرد.
تعریف دانش از دیدگاه دیگران: •
• دانش ،تخصص انسانی است که در ذهن شخص ذخیره میشود و از طریق تجربه و تعامل با محیط پیرامون شخص به دست میآید.
• دانش شامل سفارشدادن یا پیونددادن اطالعات در یک چارچوب از قبل موجود در فهم انسان است.
5
خرد )(WISDOM
10
فهرست مطالب
•
چرا دادهکاوی؟
• دادهکاوی چیست؟
دادههای قابل پردازش ؟ •
• چه الگوهایی را میتوان استخراج کرد؟
• چه فناوریهایی در دادهکاوی به کار میروند؟
https://www.copyrightuser.org/understand/exceptions/text-data-mining/
11
• چرا دادهکاوی؟
دادهکاوی چیست؟ •
دادههای قابل پردازش ؟ •
• چه الگوهایی را میتوان استخراج کرد؟
• چه فناوریهایی در دادهکاوی به کار میروند؟
12
چرا دادهکاوی؟
از دیدگاه تجاری
• مقدار زیادی داده در حال جمع آوری و انباشت هست.
دادههای اینترنتی •
دادههای تجارت الکترونیک •
دادههای خرید از فروشگاهها •
دادههای تراکنشهای بانکی و کارتهای اعتباری •
کامپیوترها قویتر و ارزانتر شدهاند. •
http://hajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf رقابتهای تجاری سختتر شدهاند •
ارائه خدمات بهتر به مشتریان و جلب نظر مشتریان (مشتری مداری) •
13
چرا دادهکاوی؟
از دیدگاه علمی
داده ها با سرعت خیلی زیاد جمع آوری و ذخیره میشوند (گیگابایت در ثانیه) •
-حسگرهای موجود در ماهواره ها
-تلسکوپ های فضایی
-دادههای خرید ثبت شده در فروشگاهها
-دادههای تراکنش های بانکی و کارتهای اعتباری
فهم این داده ها و اطالعات موجود در آن از قابلیت های انسانی فراتر رفته •
است.
دادهکاوی به دانشمندان امکان میدهد که: •
• داده ها را گروهبندی و دستهبندی کنند.
•14فرضیههای جدیدی را شکل دهند.
http://hajmohamadi.ir/wp-content/uploads/2015/10/Data-Mining-_-Slides.pdf
چرا دادهکاوی؟
داده ،یک کامپیوتر است !
مقدار زیاد داده ،میتواند قویتر از الگوریتمها و مدلهای پیچیده باشد. •
حل شدن مسائل پردازش زبان طبیعی با استفاده از داده توسط گوگل •
• مثل :غلطهای امالیی و هممعنیها
داده ،قدرت است! •
امروزه داده جمعآوری شده ،یک از بزرگترین داراییهای یک شرکت آنالین است. •
• مثال :اطالعات جستجوهای کاربران در گوگل
• توئیتهای کاربران و دنبالکردنها در توئیتر
• معاملهها در آمازون ( خرید و فروشها )
راهی برای بهکارگیری هوش جمعی
15 •
چرا دادهکاوی؟
16
چرا دادهکاوی؟ •
• دادهکاوی چیست؟
دادههای قابل پردازش ؟ •
• چه الگوهایی را میتوان استخراج کرد؟
• چه فناوریهایی در دادهکاوی به کار میروند؟
17
دادهکاوی چیست؟
• استفاده از تکنیکهای مؤثر برای تحلیل مجموعههای خیلی بزرگ داده و استخراج
الگوهای مفید و معنادار از داده
18
WHY NOW?
19
20
نقش انسان در داده کاوی
•
در هر مرحله از فرآیند داده کاوی انسان باید به صورت فعال درگیر باشد.
• هدف درس :آشنایی با مقدمات این علم ،اما این برای مهارت یافتن کافی نیست.
21
مثال ها
22
مثال ها
23
مثال ها
24
مثال ها
25
مثال ها
26
مثال ها
27
مثال ها
28
مثال ها
29
مثال ها
30
مراحل اکتشاف دانش
31
داده خیلی پیچیده است!
• انواع داده مختلف وجود دارد.
جدولها ،گرافها ،سریهای زمانی ،تصاویر و . ... •
• ابعاد مکانی و زمانی دادهها
• دادههای ترکیبی از انواع مختلف داده
مثال :از تلفن همراه :محل کنونی کاربر ،اطالعات •
دوستی ،نظرات در توئیتر ،تصاویر دوربینها و
جستجوها در موتورهای جستجو
32
https://www.magicsoftware.com/2012/08/big-data-definition-for-business.html
•
چرا دادهکاوی؟
• دادهکاوی چیست؟
33
چه نوع دادهای را میتوان پردازش کرد؟
جریانهای داده و دادههای حسگرها •
• دادههای سریهای زمانی
• دادههای ترتیبی
• دادههای ساختیافته ،گرافها ،شبکههای اجتماعی
و دادههای لینک شده
دادههای فضایی و فضایی-زمانی •
• پایگاهدادههای چندرسانهای
• دادههای متنی
• دادههای وب34
https://www.salesforce.com/products/marketing-cloud/best-practices/data-mining-predictive-analytics/
مثال :دادههای معاملهها
• میلیاردها مشتری واقعی
• 20 :WALMARTمیلیون معامله در روز
• 300 : AT & Tمیلیون تماس در روز
• دیجی کاال :بیش از 3000سفارش و 500هزار بازدید در روز
• کارتهای اعتباری :میلیاردها معامله در روز
• کسب اطالعات از مشتریهای خاص توسط برخی شرکتها
35
مثال :اسناد
• وب به عنوان یک منبع سند 50 :میلیارد صفحه
وب تخمین زده شده است.
• ویکیپدیا :بیش از 4میلیون مقاله تا کنون
جریان ثابت 100 • پورتالهای خبری آنالین:
مقاله جدید در هر روز
• توئیتر :تقریباً 300میلیون توئیت در روز
36
https://marketingland.com/leveraging-wikipedia-data-deeper-consumer-insights-82320
مثال :دادههای شبکه
• وب :بیش از 50میلیون صفحه وب مرتبط شده با دیگر صفحات ( لینک شده)
• فیس بوک :بیش از 500میلیون کاربر
• توئیتر :بیش از 300میلیون کاربر
• تلگرام :ماهانه بیش از 200میلیون کاربر فعال
• وبالگها :بیش از 250میلیون وبالگ در جهان
37
http://blog.farifam.com/2018/02/12/rstudio-twitter-data-analysis-cleaning-data/
سایر دادههای مهم
• دادههای مربوط به آب و هوا
داده مربوط به تغییرات آب و هوایی •
https://www.ncdc.noaa.gov/cdo-web/ •
یک پایگاه داده از دما ،بارش و فشار هوا که توسط مرکز دادههای ملی آب و هوا، •
دانشگاه ایالتی آریزونا و مرکز تحلیل اطالعات کربن دی اکسید مدیریت میشود.
39
DATA MINING TASKS چه الگوهایی کاوش می شوند؟
40
DESCRIPTION
41
REGRESSION
42
CLASSIFICATION
43
PREDICTION
44
CLUSTERING
45
ASSOCIATION
46
47
•
چرا دادهکاوی؟
• دادهکاوی چیست؟
دادههای قابل پردازش ؟ •
• چه الگوهایی را میتوان استخراج کرد؟
48
دادهکاوی :تالقی علوم مختلف
49
چرا نیاز به علوم مختلف داریم؟
• حجم زیاد دادهها
• الگوریتمها باید قابلیت کار با حجم زیادی از دادهها را داشته باشند.
• دادهها دارای ابعاد زیادی هستند.
• مثال میکرو آرایه ها دارای دهها هزار ویژگی هستند.
• دادهها دارای پیچیدگی زیادی هستند.
• مثل دادههای جریانی و دادههای حسگرها
• دادههای دنباله زمانی و داده های ترتیبی
• دادههای ساختاری و گرافی
• دادههای چند رسانهای ،متنی و دادههای وب
• کاربردهای جدید و پیچیده
https://medium.com/enabled-innovation/artificial-general-intelligence-too-much-or-too-little-too-soon-9c0dd7bd1c2d
50
51
52
53
اشتباهات رایج در داده کاوی
54
اشتباهات رایج در داده کاوی
55
اشتباهات رایج در داده کاوی
56
ابزارهای داده کاوی
57