Professional Documents
Culture Documents
Untitled
Untitled
داده کاوی
فصل دوم:
دادههای خود را بشناسید.
تعریف:معموالدادههابهصورتمجموعهایازرکوردهانگهداریمیشوند.
هررکوردازمجموعهایویژگیهاتشکیلشدهاست.
انواعویژگیها
نتیجه:مثل Asymmetric
HIV آزمایش میزان: مثلOrdinal
تحصیالت
Attributes
تاریخ های تقویم: مثلInterval
Numerical
وزن،قد:مثل Ratio
ویژگیهاازدیدگاهتعدادمقادیربهدودسته:
دارایمقادیرمحدودیاقابلشمارشنامحدودهستند.
مقادیرویژگیهایگسستهمعموالبهصورتاعدادصحیحنمایشدادهمیشوند. گسسته
ویژگیباینرییکنوعخاصازویژگیگسستهاست.
مقادیرویژگیهایپیوستهباتعدادرقماعشارمحدودنمایشدادهمیشود.
پیوسته
مقادیرویژگیهایپیوستهبهصورتحقیقینمایشدادهمیشود.
آماره های توصیفی پایه
هدفاصلیدرپویشداده
داشتنتصویرجامعیازدادههابرایموفقیتپیشپردازشآنهاموضوعیضروریاست. •
پویشدادههابرایدرکبهترخصوصیاتدادهانجاممیشود. •
انگیزهاصلیپویشداده:
کمککردندرانتخاببهترینابزارهابرایپیشپردازشدادههاوتحلیلدادهکاوی •
استفادهازتواناییهایبشربرایشناساییالگوهایبصری •
Unimodal
Biomodal روشهایپویشداده
Trimodal مد گسسته
No mode بسامد
درصدک پیوسته
میانگین
مکان آمارهایکالن •
بازه میانه
چندک
پراکندگی
دامنهمیانچارکی
انحرافمعیار
میانگین
پیوسته
دادههایمتقارنونامتقارن(میانه– میانگین– مد)
چولگیبیانگرمیزانعدمتقارنتوزیعاحتمالدادههاحولمیانگینشاناست.
Unimodal
Biomodal روشهایپویشداده
Trimodal مد گسسته
No mode بسامد
درصدک پیوسته
میانگین
مکان آمارهایکالن •
بازه میانه
چندک
پراکندگی
دامنهمیانچارکی
انحرافمعیار
اندازه گیری پراکندگی داده ها
• بازه:سریاختالفبزرگترینمقدار )(maxوکوچکترینمقدار)(minاست.
• چندکها:نقاطیهستندکهرویبازههاییدرپراکندگیدادههاقرارمیگیرندو
آنراضرورتابهمجموعههایمتوالیبااندازههایمساویتقسیممیکنند.
• چندکدوتایی
• چندکچهارتایی
• دامنهمیانچارکی:چارکهاسهمقداریهستندکهسریدادههارابهچهار
بخشمساویتقسیممیکنندوبرابربافاصلهبینچارکاولوسوماست.
دامنهمیانچارکیبرابراستبا IQR = Q3-Q1
Unimodal
Biomodal روشهایپویشداده
Trimodal مد گسسته
No mode بسامد
درصدک پیوسته
میانگین
مکان آمارهایکالن •
بازه میانه
چندک
پراکندگی
دامنهمیانچارکی
انحرافمعیار
واریانس و انحراف معیار
واریانسوانحرافمعیاررایجترینمعیارهایمحاسبهپراکندگیدادههاهستندوبهه
صورتزیرمحاسبهمیشوند.
واریانس میانگین انحراف از معیار
انحرافمعیارپاییننشانگرایناستکهدادههاتمایلبهنزدیهکبهودنبههمقهدار
میانگینرادارندوانحرافمعیارباالنشانگرپراکندگیدادههارویمحدودهوسهیعی
ازمقادیراست.
اگرانحرافازمعیاربرابرصفرباشدیعنیهیچپراکندگیوجودنداردوبهعبارت
دیگرهمهمشاهداتیکمقداردارند.
Unimodal
Biomodal روشهایپویشداده
Trimodal مد گسسته
No mode بسامد
درصدک پیوسته
میانگین
مکان آمارهایکالن •
بازه میانه
چندک
پراکندگی
دامنهمیانچارکی
انحرافمعیار
مصورسازی داده ها
• هدفتصویرسازیدادههابرقراریارتباطواضحواثربخشازطریقارائهگرافیکی
است.
• بهعالوهازتصویرسازیدادههامیتوانبرایکشفروابطمیاندادهههااسهتفاده
نمود.
هیستوگرام •
نمودار Boxplot •
نمودارچندکیQuantile plot •
نمودارچندکی– چندکیQuantile-Quantile (Q-Q) plot •
نمودارپراکندگیScatter plot •
تحلیل هیستوگرام
:Histogramیکروشگرافیکیبرایخالصهکردنپراکندگییکخصوصیت •
است.
تحلیل Boxplot
:Boxplotدادههابایکجعبهنشاندادهشدهاست.
انتهایجعبهدرچارکاولوسوماست،بنابرینارتفاعجعبهIRQاست.
میانهتوسطیکخط،درجعبهمشخصمیشود.
)(max وحداکثر :whiskerدوخطدرخارجازجعبهکهبهحداقل)(Min
کشیدهمیشود.
دادههایپرت):(Outliersنقطههایفراترازآستانه
تحلیل چندکی Quantile plot
ابتدادادههابهصورتصعودیمرتبمیشوند.
برایدادههایfi ،xiدرصددادههاییکهمقداریکمتریهابرابهربهامقهدارxi
دارندرانشاتمیدهد.
تحلیل نمودار چندکی – چندکی
Quantile-Quantile (Q-Q) plot
یکروشمبتنیبرتصویربراینمایشتوزیعنرمالاست.
درایننمودارچندکهایتوزیعتجربیدادههادرمقابهلچنهدکههاینرمهال
ترسیممیشوند.
نمودار پراکندگی Scatter plot
یکنگاهاولیهازدادههایدومتغییرهبرایدیدنخوشههایازنقهاط،دادهههای
پرت(،)Outliersیابررسیامکانروابطهمبستگیرافراهممیکند.
هرجفتازمقادیربهعنوانیکنقطهازمختصاتدرنمودارترسیممیشود.
اندازه گیری شباهت و عدم شباهت میان داده ها
دربرنامههایکاربردیدادهکاوی،مانندخوشهبندی،تحلیلدادههایدور
افتادهودستهبندینزدیکترین– همسایه،راههاییبرایارزیابیشهباهت
دادههابایکدیگرومقایسهآنهانیازداریم.
هرچهمقدارسنجهشباهت باالترباشد،شباهتبیندودادهبیشتراست
(مقدار1نشاندهندهتشابهکاملاستودراینحالتدادههایکسان
هستند)
ماتریس داده ها در برابر ماتریس تفاوت
فرضکنیدnدادهداشتهباشیمکهتوسطpخصوصیتتعریفشدهاند.
ماتریسدادهها ماتریستفاوت
)d(i,jمقدارعدمتشابهیاتفاوتبیندودادهiوjاست(.یکعددغیر
منفی)
معیارهایسنجشنزدیکیبرایخصوصیتهایاسمی
به این ت تیب اگ دادههای iو jمشابه باشند ) d(i,jب اب با 0و اگ متفاوت باشدند
،ب اب با 1می شوند.
معیارهایسنجشنزدیکیبرایخصوصیتهایدودویی
خصوصیتهایدوتاییمیتوانددوحالت0و1راداشتهباشد.
دراینحالتqتعدادخصوصیتهاییاستکهبرایدودادهiو jبرابربها1
باشند.
rتعدادیازخصوصیتهاییاستکهبرایدادهiبرابر1استامابرایدادهj
برابرصفراست.
sتعدادخصوصیتهاییاستکهبرایدادهiبرابرصفرولیبرایدادهjبرابر
1است.
همچنینtتعدادیازخصوصیتهااستکهبرایهردودادهiوjبرابرصهفر
است.
درنهایتتعدادکلخصوصیتهانیزبرابرباpاستکهp=q+r+s+t
عدم شباهت شباهت
معیارهایسنجشنزدیکیبرایخصوصیتهایعددی
عدمتشابهبرایدادههایعددی:
• فاصلهاقلیدسی
• فاصلهمنهتن
• فاصلهسوپریمم
معیارهایسنجشنزدیکیبرایخصوصیتهایترتیبی
مقادیریکخصوصیتترتیبیدارایرتبهبندییانظمهیمعنهیداراسهت.در
عینحالمقداراختالفبینمقادیرپشتسرهمنامعلوماست.
بنابراینخصوصیتعددیرامیتوانبهخصوصهیتترتیبهی fبها Mحالهت
نگاشت.
هنگاممحاسبهفاصلهبیندادهها،رفتارخصوصهیتههایترتیبهیشهبیهبهه
خصوصیتهایعددیاست.