You are on page 1of 28

‫به نام خدا‬

‫داده کاوی‬
‫فصل دوم‪:‬‬
‫دادههای خود را بشناسید‪.‬‬

‫داده ها و انواع خصوصیات‬ ‫‪.1‬‬


‫آماره های توصیفی داده‬ ‫‪.2‬‬
‫تجسم داده ها )‪(Data Visualization‬‬ ‫‪.3‬‬
‫اندازهگیری میزان شباهت )‪ (Similarity‬و عدم‬ ‫‪.4‬‬
‫شباهت ‪ Dissimilarity‬داده ها‬
‫خصوصیات یا ویژگیها )‪(Attributes‬‬

‫نام‌های‌دیگر‪‌Dimensions, Features, Variables‌:‬‬

‫تعریف‪‌:‬معموال‌‌داده‌ها‌به‌صورت‌مجموعه‌ای‌از‌رکوردها‌نگهداری‌می‌شوند‪‌.‬‬

‫هر‌رکورد‌از‌مجموعه‌ای‌ویژگی‌ها‌تشکیل‌شده‌است‪‌.‬‬
‌‫ انواع‌ویژگی‌ها‬

‫رنگ مو‬:‫ مثل‬Nominal


‫جنسیت‬:‫ مثل‬Symmetric
Binary Nominal

‫ نتیجه‬:‫مثل‬ Asymmetric
HIV ‫آزمایش‬ ‫میزان‬:‫ مثل‬Ordinal
‫تحصیالت‬

Attributes
‫تاریخ های تقویم‬:‫ مثل‬Interval
Numerical
‫ وزن‬،‫قد‬:‫مثل‬ Ratio
‫‪ ‬ویژگی‌ها‌از‌دیدگاه‌تعداد‌مقادیربه‌دو‌دسته‌‪‌:‬‬

‫دارای‌مقادیر‌محدود‌یا‌قابل‌شمارش‌نامحدود‌هستند‪‌.‬‬
‫مقادیر‌ویژگی‌های‌گسسته‌معموال‌به‌صورت‌اعداد‌صحیح‌نمایش‌داده‌می‌شوند‪‌.‬‬ ‫گسسته‌‬
‫ویژگی‌باینری‌یک‌نوع‌خاص‌از‌ویژگی‌گسسته‌است‪‌.‬‬

‫مقادیر‌ویژگی‌های‌پیوسته‌با‌تعداد‌رقم‌اعشار‌محدود‌نمایش‌داده‌می‌شود‪‌.‬‬
‫پیوسته‌‬
‫مقادیر‌ویژگی‌های‌پیوسته‌به‌صورت‌حقیقی‌نمایش‌داده‌می‌شود‪‌.‬‬
‫آماره های توصیفی پایه‬

‫‪ ‬هدف‌اصلی‌در‌پویش‌داده‌‬

‫داشتن‌تصویر‌جامعی‌از‌داده‌ها‌برای‌موفقیت‌پیش‌پردازش‌آن‌ها‌موضوعی‌ضروری‌است‪‌.‬‬ ‫•‬
‫پویش‌داده‌ها‌برای‌درک‌بهتر‌خصوصیات‌داده‌انجام‌می‌شود‪‌.‬‬ ‫•‬

‫‪ ‬انگیزه‌اصلی‌پویش‌داده‪‌:‬‬

‫کمک‌کردن‌در‌انتخاب‌بهترین‌ابزارها‌برای‌پیش‌پردازش‌داده‌ها‌و‌تحلیل‌داده‌کاوی‌‬ ‫•‬
‫استفاده‌از‌توانایی‌های‌بشر‌برای‌شناسایی‌الگو‌های‌بصری‌‬ ‫•‬
‫‪Unimodal‬‬
‫‪Biomodal‬‬ ‫‪ ‬روش‌های‌پویش‌داده‌‬
‫‪Trimodal‬‬ ‫مد‌‬ ‫گسسته‌‬
‫‪No mode‬‬ ‫بسامد‌‬
‫درصدک‌‬ ‫پیوسته‌‬

‫میانگین‌‬
‫مکان‌‬ ‫آمارهای‌کالن‌‬ ‫•‬
‫بازه‌‬ ‫میانه‌‬

‫چندک‌‬
‫پراکندگی‌‬
‫دامنه‌میان‌چارکی‌‬

‫واریانس‌‬ ‫مصورسازی‌داده‌‬ ‫•‬

‫انحراف‌معیار‌‬
‫میانگین‬

‫میانگین )‪( (Mean‬اندازهگیری جبری)‬ ‫•‬

‫میانگین وزنی‬ ‫•‬


‫میانه‬

‫)‪𝑥(𝑟+1‬‬ ‫‪If m is odd‬‬


‫‪1‬‬ ‫گسسته‌‬
‫)‪𝑥(𝑟) + 𝑥(𝑟+1‬‬ ‫‪If m is even‬‬
‫‪2‬‬
‫میانه‬ ‫•‬

‫پیوسته‌‬
‫‪ ‬داده‌های‌متقارن‌و‌نامتقارن‌‌(میانه‌– میانگین‌– مد)‌‬

‫چولگی‌بیانگر‌میزان‌عدم‌تقارن‌توزیع‌احتمال‌داده‌ها‌حول‌میانگین‌شان‌است‪‌.‬‬
‫‪Unimodal‬‬
‫‪Biomodal‬‬ ‫‪ ‬روش‌های‌پویش‌داده‌‬
‫‪Trimodal‬‬ ‫مد‌‬ ‫گسسته‌‬
‫‪No mode‬‬ ‫بسامد‌‬
‫درصدک‌‬ ‫پیوسته‌‬

‫میانگین‌‬
‫مکان‌‬ ‫آمارهای‌کالن‌‬ ‫•‬
‫بازه‌‬ ‫میانه‌‬

‫چندک‌‬
‫پراکندگی‌‬
‫دامنه‌میان‌چارکی‌‬

‫واریانس‌‬ ‫مصورسازی‌داده‌‬ ‫•‬

‫انحراف‌معیار‌‬
‫اندازه گیری پراکندگی داده ها‬
‫• بازه‌‪‌:‬سری‌اختالف‌بزرگترین‌مقدار‌ )(‪‌‌max‬و‌کوچکترین‌مقدار‌)(‪‌min‬است‌‪.‬‬

‫• چندک‌ها‌‪‌:‬نقاطی‌هستند‌که‌روی‌بازه‌هایی‌در‌پراکندگی‌داده‌ها‌قرار‌می‌گیرند‌و‌‬
‫آن‌را‌ضرورتا‌به‌مجموعه‌های‌متوالی‌با‌اندازه‌های‌مساوی‌تقسیم‌می‌کنند‌‪‌‌.‬‬
‫• چندک‌دوتایی‌‌‬
‫• چندک‌چهار‌تایی‌‬
‫‌‬
‫• دامنه‌میان‌چارکی‌‪‌:‬چارک‌ها‌سه‌مقداری‌هستند‌که‌سری‌داده‌ها‌را‌به‌چهار‌‬
‫بخش‌مساوی‌تقسیم‌می‌کنند‌و‌برابر‌با‌فاصله‌بین‌چارک‌اول‌وسوم‌است‪‌.‬‬
‫دامنه‌میان‌چارکی‌برابر‌است‌با‌ ‪‌IQR = Q3-Q1‬‬
‫‪Unimodal‬‬
‫‪Biomodal‬‬ ‫‪ ‬روش‌های‌پویش‌داده‌‬
‫‪Trimodal‬‬ ‫مد‌‬ ‫گسسته‌‬
‫‪No mode‬‬ ‫بسامد‌‬
‫درصدک‌‬ ‫پیوسته‌‬

‫میانگین‌‬
‫مکان‌‬ ‫آمارهای‌کالن‌‬ ‫•‬
‫بازه‌‬ ‫میانه‌‬

‫چندک‌‬
‫پراکندگی‌‬
‫دامنه‌میان‌چارکی‌‬

‫واریانس‌‬ ‫مصورسازی‌داده‌‬ ‫•‬

‫انحراف‌معیار‌‬
‫واریانس و انحراف معیار‬
‫واریانس‌و‌انحراف‌معیار‌رایجترین‌معیارهای‌محاسبه‌پراکندگی‌داده‌ها‌هستند‌و‌بهه‌‬
‫صورت‌زیر‌محاسبه‌می‌شوند‪‌.‬‬
‫‌‬
‫‌‬
‫واریانس‬ ‫میانگین‬ ‫انحراف از معیار‬
‫‌‬
‫‌‬
‫‌‬
‫‌انحراف‌معیار‌پایین‌نشانگر‌این‌است‌که‌داده‌ها‌تمایل‌به‌نزدیهک‌بهودن‌بهه‌مقهدار‌‬
‫میانگین‌را‌دارند‌و‌انحراف‌معیار‌باال‌نشانگر‌پراکندگی‌داده‌ها‌روی‌محدوده‌وسهیعی‌‬
‫از‌مقادیر‌است‌‪‌.‬‬
‫اگر‌انحراف‌از‌معیار‌برابر‌صفر‌باشد‌یعنی‌هیچ‌‌پراکندگی‌وجود‌ندارد‌و‌به‌عبارت‌‬
‫دیگر‌همه‌مشاهدات‌یک‌مقدار‌دارند‌‪.‬‬
‫‪Unimodal‬‬
‫‪Biomodal‬‬ ‫‪ ‬روش‌های‌پویش‌داده‌‬
‫‪Trimodal‬‬ ‫مد‌‬ ‫گسسته‌‬
‫‪No mode‬‬ ‫بسامد‌‬
‫درصدک‌‬ ‫پیوسته‌‬

‫میانگین‌‬
‫مکان‌‬ ‫آمارهای‌کالن‌‬ ‫•‬
‫بازه‌‬ ‫میانه‌‬

‫چندک‌‬
‫پراکندگی‌‬
‫دامنه‌میان‌چارکی‌‬

‫واریانس‌‬ ‫مصورسازی‌داده‌‬ ‫•‬

‫انحراف‌معیار‌‬
‫مصورسازی داده ها‬

‫• هدف‌تصویر‌سازی‌داده‌ها‌برقراری‌ارتباط‌واضح‌و‌اثر‌بخش‌از‌طریق‌ارائه‌گرافیکی‌‬
‫است‪‌.‬‬
‫• به‌عالوه‌از‌تصویر‌سازی‌داده‌ها‌می‌توان‌برای‌کشف‌روابط‌میان‌داده‌هها‌اسهتفاده‌‬
‫نمود‌‪‌.‬‬

‫هیستوگرام‌‬ ‫•‬
‫نمودار‌ ‪Boxplot‬‬ ‫•‬
‫نمودار‌چندکی‌‪Quantile plot‬‬ ‫•‬
‫نمودار‌چندکی‌– چندکی‌‪Quantile-Quantile (Q-Q) plot‬‬ ‫•‬
‫نمودار‌پراکندگی‌‌‪‌Scatter plot‬‬ ‫•‬
‫تحلیل هیستوگرام‬

‫‪‌:‌Histogram‬یک‌روش‌گرافیکی‌برای‌خالصه‌کردن‌پراکندگی‌یک‌خصوصیت‌‬ ‫•‬
‫است‪‌‌.‬‬
‫تحلیل ‪Boxplot‬‬
‫‪‌:Boxplot‬داده‌ها‌با‌یک‌جعبه‌نشان‌داده‌شده‌است‪‌.‬‬
‫انتهای‌جعبه‌در‌چارک‌اول‌وسوم‌است‪‌،‬بنابرین‌ارتفاع‌جعبه‌‪‌IRQ‬است‌‪‌.‬‬
‫میانه‌توسط‌یک‌خط‌‪‌،‬در‌جعبه‌مشخص‌می‌شود‌‪‌.‬‬
‫)‪(max‬‬ ‫و‌حداکثر‬ ‫‪‌:whisker‬دو‌خط‌در‌خارج‌از‌جعبه‌که‌به‌حداقل‌)‪(Min‬‬
‫کشیده‌می‌شود‌‪‌.‬‬
‫داده‌های‌پرت‌)‪‌:(Outliers‬نقطه‌های‌فراتر‌از‌آستانه‬
‫تحلیل چندکی ‪Quantile plot‬‬

‫ابتدا‌داده‌ها‌به‌صورت‌صعودی‌مرتب‌می‌شوند‪‌.‬‬
‫برای‌داده‌های‌‪‌fi ‌،xi‬درصد‌داده‌هایی‌که‌مقداری‌کمتر‌یها‌برابهر‌بها‌مقهدار‌‪‌xi‬‬
‫دارندرا‌نشات‌می‌دهد‪.‬‬
‫تحلیل نمودار چندکی – چندکی‬
‫‪Quantile-Quantile (Q-Q) plot‬‬

‫یک‌روش‌مبتنی‌بر‌تصویر‌برای‌نمایش‌توزیع‌نرمال‌است‪‌.‬‬
‫در‌این‌نمودار‌چندک‌های‌توزیع‌تجربی‌داده‌ها‌در‌مقابهل‌چنهدک‌ههای‌نرمهال‌‬
‫ترسیم‌می‌شوند‪.‬‬
‫نمودار پراکندگی ‪Scatter plot‬‬

‫یک‌نگاه‌اولیه‌از‌داده‌های‌دو‌متغییره‌برای‌دیدن‌خوشهه‌ای‌از‌نقهاط‪‌،‬داده‌ههای‌‬
‫پرت‌(‪‌،‌)Outliers‬یا‌بررسی‌امکان‌روابط‌همبستگی‌را‌فراهم‌می‌کند‪‌.‬‬
‫هر‌جفت‌از‌مقادیر‌به‌عنوان‌یک‌نقطه‌از‌مختصات‌در‌نمودار‌ترسیم‌می‌شود‪.‬‬
‫اندازه گیری شباهت و عدم شباهت میان داده ها‬

‫در‌برنامه‌های‌کاربردی‌داده‌کاوی‌‪‌،‬مانند‌خوشه‌بندی‌‪‌،‬تحلیل‌داده‌های‌دور‌‬
‫افتاده‌و‌دسته‌بندی‌نزدیکترین‌– همسایه‌‪‌،‬راه‌هایی‌برای‌ارزیابی‌شهباهت‌‬
‫داده‌ها‌با‌یکدیگر‌و‌مقایسه‌آنها‌نیاز‌داریم‌‪‌.‬‬
‫هر‌چه‌مقدارسنجه‌شباهت باالتر‌باشد‌‪‌،‬شباهت‌بین‌دو‌داده‌بیشتر‌است‌‬
‫(مقدار‌‪‌1‬نشان‌دهنده‌تشابه‌کامل‌است‌و‌در‌این‌حالت‌داده‌ها‌یکسان‌‬
‫هستند)‌‬
‫ماتریس داده ها در برابر ماتریس تفاوت‬

‫فرض‌کنید‌‪‌n‬داده‌داشته‌باشیم‌که‌توسط‌‪‌‌p‬خصوصیت‌تعریف‌شده‌اند‪‌.‬‬
‫‌‌‌‌‌ماتریس‌داده‌ها‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌ ‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌ماتریس‌تفاوت‌‬ ‫‌‌‌‌‬
‫‌‬
‫‌‬
‫‌‬
‫‌‬

‫‌‬
‫‌‬
‫)‪‌‌d(i,j‬مقدار‌عدم‌تشابه‌یا‌تفاوت‌بین‌دو‌داده‌‪‌i‬و‌‪‌j‬است‪(.‬یک‌عدد‌غیر‌‬
‫منفی)‌‬
‫معیارهای‌سنجش‌نزدیکی‌برای‌خصوصیت‌های‌اسمی‌‌‬

‫خصوصیت های اسمی میتواند دو یا چند حالت داشته باشد ‪.‬‬


‫‪ m‬را تعددداد حالددت هددای ی د خصوصددیت اسددمی و د ار میدددهی و ‪ p‬تعددداد د‬
‫خصوصیات توصیف داده است ‪.‬‬

‫عدم شباهت‬ ‫شباهت‬

‫به این ت تیب اگ دادههای ‪ i‬و ‪ j‬مشابه باشند )‪ d(i,j‬ب اب با ‪ 0‬و اگ متفاوت باشدند‬
‫‪ ،‬ب اب با ‪ 1‬می شوند‪.‬‬
‫معیارهای‌سنجش‌نزدیکی‌برای‌خصوصیت‌های‌دودویی‌‌‬
‫خصوصیت‌های‌دوتایی‌میتواند‌دو‌حالت‌‪‌0‬و‌‪‌1‬را‌داشته‌باشد‌‪‌.‬‬
‫‌‌‬
‫در‌این‌حالت‌‪‌q‬تعدادخصوصیت‌هایی‌است‌که‌برای‌دو‌داده‌‪‌i‬و‌ ‪‌j‬برابر‌بها‌‪‌1‬‬
‫باشند‌‪‌.‬‬
‫‪‌‌r‬تعدادی‌از‌خصوصیت‌هایی‌است‌که‌برای‌داده‌‪‌i‬برابر‌‪‌1‬است‌اما‌برای‌داده‌‪‌‌j‬‬
‫برابرصفر‌است‪‌.‬‬
‫‪‌s‬تعداد‌خصوصیت‌هایی‌است‌که‌برای‌داده‌‪‌i‬برابر‌صفر‌ولی‌برای‌داده‌‪‌j‬برابر‌‬
‫‪‌1‬است‪‌.‬‬
‫همچنین‌‪‌t‬تعدادی‌از‌خصوصیت‌ها‌است‌که‌برای‌هر‌دو‌داده‌‪‌i‬و‌‪‌j‬برابر‌صهفر‌‬
‫است‪‌.‬‬
‫در‌نهایت‌تعداد‌کل‌خصوصیت‌ها‌نیز‌برابر‌با‌‪‌p‬است‌که‌‌‌‪‌p=q+r+s+t‬‬
‫عدم شباهت‬ ‫شباهت‬
‫معیارهای‌سنجش‌نزدیکی‌برای‌خصوصیت‌های‌عددی‌‌‬

‫عدم‌تشابه‌برای‌داده‌های‌عددی‌‪‌‌:‬‬
‫• فاصله‌اقلیدسی‌‬
‫• فاصله‌منهتن‌‬
‫• فاصله‌سوپریمم‬
‫معیارهای‌سنجش‌نزدیکی‌برای‌خصوصیت‌های‌ترتیبی‌‌‬

‫مقادیر‌یک‌خصوصیت‌ترتیبی‌دارای‌رتبه‌بندی‌‌یا‌نظمهی‌معنهی‌دار‌اسهت‌‪‌.‬در‌‬
‫عین‌حال‌مقدار‌اختالف‌بین‌مقادیر‌پشت‌سر‌هم‌نامعلوم‌است‌‪‌.‬‬
‫بنابر‌این‌خصوصیت‌عددی‌را‌می‌توان‌به‌خصوصهیت‌ترتیبهی ‌‪‌‌ f‬بها ‌‪ M‬حالهت‌‬
‫نگاشت‪‌.‬‬
‫هنگام‌محاسبه‌فاصله‌بین‌داده‌ها‌‪‌،‬رفتار‌خصوصهیت‌ههای‌ترتیبهی‌شهبیه‌بهه‌‬
‫خصوصیت‌های‌عددی‌است‪‌.‬‬

‫عدم شباهت‬ ‫شباهت‬

You might also like