hw4 Solution

‫بازیابی اطالعات ‪ -‬نیمسال دوم ‪99-98‬‬
‫تمرین سری چهارم‬
‫فصل سیزده ‪ :‬دسته بندی متن‬

‫‪ -1‬الف) اگر در یک مدل دسته بندی دو کالسه‪ ،‬مثل دسته‪-‬‬
‫بندی اخبار به دو دستهی اخبار ورزشی و سیاسی‪ ،‬اگر‬
‫تعداد کلماتی که به عنوان ویژگی انتخاب میشوند‬
‫بیشتر متعلق به یک دسته باشند چه تاثیری در نتیجه‬
‫دستهبندی دارد؟ توضیح دهید‪.‬‬
‫پاسخ ‪:‬‬
‫اگر بیشتر ویژگی ها را از کالس اول انتخاب کنیم‪:‬‬
‫این حالت مانند این است که مدل تنها برای تشخیص کالس‬
‫اول آموزش ببیند‪ .‬در استفاده از این مدل برچسب دوم‬
‫به درستی تشخیص داده نمی شود‪ .‬چون مدل برای متون‬
‫این دسته آموزشی ندیده است ‪،‬به هر متنی به غیر از‬
‫متون کالس اول‪،‬برچسب کالس دوم را میزند‪.‬‬
‫ب) دلیل سادگی یادگیری مدل بیز ساده را بیان کنید؟‬
‫چون در مدل بیز ساده تنها احتمال رخداد یک کلمه از‬

‫سند درنظر گرفته میشود و احتمال کلمات متوالی در‬
‫اسناد موجود در یک دسته در نظر گرفته نمیشود‪ .‬به‬
‫بیان دیگر در مدل بیز ساده برای سادگی کار‪ ،‬فرض می‪-‬‬
‫شود کلمات یک سند از یکدیگر مستقل هستند در حالی که‬
‫چنین فرضی اشتباه است و کلمات بهم وابسته اند‪.‬‬
‫‪ -2‬با اجرای الگوریتم بیز ساده بر روی دادههای جدول‬

‫شماره ‪ ، 1‬دستهی دو سند بدون برچسب را تعیین کنید ؟‬
‫فرض کنید اندازهی لغتنامه برابر با ‪ 4‬است‪( .‬نوشتن‬
‫تمامی محاسبات الزامی است)‬
‫صفحه‪ 1 :‬از‬
‫‪11‬‬
99-98 ‫ نیمسال دوم‬- ‫بازیابی اطالعات‬
‫سند‬ ‫برچسب‬ 1‫شماره‬ ‫جدول‬
‫کالس‬
AACBBAABABBAACCBB U
AAAAAACBBBBBBBABA U
CACCCABCABBCCABCC W
CCCCABACBCCBACCAB W
AAACCABBBBBBAABBA ?
CACBCDCCCABBACDAB ?
: ‫پاسخ‬
P(U) = 1/2 , P(W) = 1/2
15 + 1 16 15 + 1 16
P(A|U) = = , P(B|U) = = ,
15 + 4 +15 +4 38 15 + 4 +15 +4 38
4+1 5 1 1
P(C|U) = = , P(D|U) = = ,
15 + 4 +15 +4 38 15 + 4 +15 +4 38
8+1 9 8+1 9
P(A|W) = = , P(B|W) = = ,
8 + 18 + 8 +4 38 8 + 18 + 8 +4 38
18 + 1 19 1 1
P(C|W) = = , P(D|W) = =
8 + 18 + 8 +4 38 8 + 18 + 8 +4 38
AAACCCBBBBBBAABBA = X
P(X|U) = log 𝑃(𝑈) + 7 * log P(A|U) + 2 * log P(C|U) + 8 * log P(B|U)
= -0.3 + 7 * -0.38 + 2 * -0.88 + 8 * -0.38 = - 7.76
P(X|W) = log 𝑃(𝑊) + 7 * log P(A|W) + 2 * log P(C|W) + 8 * log P(B|W)
‫ از‬2 :‫صفحه‬
11
99-98 ‫ نیمسال دوم‬- ‫بازیابی اطالعات‬
= -0.3 + 7 * -0.62 + 2 * -0.3 + 8 * -0.62 = - 10.2
 X∈U
CACBCDCCCABBACDAB = Y
P(Y|U) = log 𝑃(𝑈) + 4 * log P(A|U) + 7 * log P(C|U) + 4 * log P(B|U) +
2 * log P(D|U)
= -0.3 + 4 * -0.38 + 7 * -0.88 + 4 * -0.37 + 2 * -1.57 = - 12.6
P(Y|W) = log 𝑃(𝑊) + 4 * log P(A|W) + 7 * log P(C|W) + 4 * log P(B|W) +
2 * log P(D|W)
= -0.3 + 4 * -0.62 + 7 * -0.3 + 4 * -0.62 + 2 * -1.57 = - 10.5
 Y∈W
‫ از‬3 :‫صفحه‬
11
‫فصل چهارده ‪ :‬دسته بندی برداری‬

‫‪ -3‬الف) با استفاده از الگوریتم دسته بندی ‪ Rocchio‬و با‬
‫توجه به جدول شماره ‪ 2‬کالس ‪ d6 ,d7‬را مشخص کنید‪(.‬مقادیر‬
‫جدول‪ ،‬مقادیر ‪ tf-idf‬هستند)‬
‫شماره‪2‬‬ ‫جدول‬
‫آموزشی‬ ‫کالس ‪l‬‬ ‫‪c‬‬ ‫کالس‬ ‫سند‬
‫جدید‬
‫کلمات‬ ‫‪d1‬‬ ‫‪d2‬‬ ‫‪d3‬‬ ‫‪d4‬‬ ‫‪d5‬‬ ‫‪d6‬‬ ‫‪d7‬‬
‫شنا‬ ‫‪1‬‬ ‫‪0.8‬‬ ‫‪0.7‬‬ ‫‪0‬‬ ‫‪0.1‬‬ ‫‪0.5‬‬ ‫‪0.1‬‬
‫شیرجه‬ ‫‪0.5‬‬ ‫‪0.6‬‬ ‫‪0.4‬‬ ‫‪0.1‬‬ ‫‪0‬‬ ‫‪0.6‬‬ ‫‪0‬‬
‫بازی‬ ‫‪0.44‬‬ ‫‪0‬‬ ‫‪0‬‬ ‫‪2.64 1.76‬‬ ‫‪0.22 2.64‬‬
‫غرق‬ ‫‪0‬‬ ‫‪0.22‬‬ ‫‪0‬‬ ‫‪4.4 12.32‬‬ ‫‪0‬‬ ‫‪0.88‬‬
‫این نوع دسته بندی بین هر دو کالس با توجه به ابعاد فضا‬

‫یک ابر صفحه تعیین میکند‪.‬‬
‫𝑀‬
‫𝜃 = 𝑖𝑑 𝑖𝑤 ∑‬
‫‪𝑖=1‬‬
‫‪0.5‬‬
‫‪0.5‬‬
‫(‬ ‫بردار مرکز کالس ‪) : c‬‬
‫‪2.2‬‬
‫‪8.36‬‬
‫‪11‬‬
‫‪1.25‬‬
‫‪0.75‬‬
‫(‬ ‫بردار مرکز کالس ‪) : l‬‬
‫‪0.15‬‬
‫‪0.07‬‬
‫‪0.75‬‬
‫‪0.25‬‬
‫(=𝑤‬ ‫)‬
‫‪2.05‬‬
‫‪8.29‬‬
‫‪𝜃 = 73.07‬‬
‫‪𝑤𝑑1 − 𝜃 < 0. 𝑤𝑑2 − 𝜃 < 0. 𝑤𝑑3 − 𝜃 < 0. 𝑤𝑑4 − 𝜃 > 0. 𝑤𝑑5 − 𝜃 > 0‬‬
‫بردارهایی که با جایگذاری در معادله ابرصفحه حاصل منفی‬

‫می دهند(از ابر صفحه کوچکتر هستند )‪،‬متعلق به کالس ‪l‬‬
‫هستندو بردارهایی که با جایگذاری در معادله ابرصفحه‬
‫حاصل مثبت می دهند(از ابر صفحه کوچکتر هستند )‪،‬متعلق به‬
‫کالس ‪ c‬هستند ‪.‬‬
‫‪𝑤𝑑6 − 𝜃 < 0‬‬
‫این مدل دسته بندی به سند ‪ 6‬برچسب ‪ l‬می دهد ‪.‬‬
‫‪𝑤𝑑7 − 𝜃 < 0‬‬
‫این مدل دسته بندی به سند ‪7‬برچسب ‪ l‬می دهد ‪.‬‬
‫ب) با یک مثال نشان دهید در الگوریتم دستهبندی ‪Rocchio‬‬

‫به دستهای تعلق گیرد که متفاوت‬ ‫چگونه ممکن است یک سند‬
‫از برچسب آموزشی آن است‪.‬‬
‫پاسخ‪:‬‬
‫‪11‬‬
‫در مثال باال طبق برچسب های آموزشی‪ ،‬سند ‪ C‬به کالس ‪A‬‬
‫متعلق است‪ .‬اما فاصلهی این سند از مرکز کالس ‪ B‬کمتر است‬
‫و براساس الگوریتم ‪ Rocchio‬برچسب ‪ B‬میگیرد‪.‬‬
‫ج) با استفاده از الگوریتم ‪-k‬نزدیکترین و دادههای جدول‬

‫شماره ‪ 2‬تعیین کنید سندهای جدید در کدام دسته قرار‬
‫میگیرد‪.‬‬
‫به ازای ‪k = 1‬‬ ‫‪.I‬‬

‫به ازای ‪k = 3‬‬ ‫‪.II‬‬
‫‪|𝑑6 − 𝑑1| = 0.55‬‬
‫‪|𝑑6 − 𝑑2| = 0.39‬‬
‫‪11‬‬
‫‪|𝑑6 − 𝑑3| = 0.28‬‬
‫‪|𝑑6 − 𝑑4| = 26.2‬‬
‫‪|𝑑6 − 𝑑5| = 154.9‬‬
‫‪|𝑑7 − 𝑑1| = 6.7‬‬
‫‪|𝑑7 − 𝑑2| = 7.5‬‬
‫‪|𝑑7 − 𝑑3| = 7.58‬‬
‫‪|𝑑7 − 𝑑4| = 6.6‬‬
‫‪|𝑑7 − 𝑑5| = 12.32‬‬
‫نزدیکترین سند به سند‪، d6‬سند‪ d3‬و به سند ‪، d7‬سند ‪ d4‬است‬

‫بنابراین برای ‪ d6، k=1‬برچسب ‪ l‬و ‪ d7‬برچسب ‪ c‬میگیرد‪.‬‬
‫برای ‪، d1,d2,d3 ، k=3‬نزدیکترین ها به ‪ d6‬هستند و همه متعلق‬

‫به یک کالس هستند بنابراین برچسب ‪ d6‬هم ‪ l‬میشود ‪.‬‬
‫برای ‪، d1,d2,d4 ، k=3‬نزدیکترین ها به ‪ d7‬هستند بنابراین‬

‫برچسب ‪ l d7‬میشود ‪.‬‬
‫‪ -4‬با ذکر چند مثال عملکرد دو الگوریتم دسته بندی ‪Rocchio‬‬

‫و ‪-k‬نزدیکترین را در کالسهای دو یا چند تکه مقایسه‬
‫کنید‪.‬‬
‫کالس های چند تکه کالس هایی هستند که داده های آن ها به‬
‫چند شکل مختلف ظاهر می شوند‪،‬اگر بتوانیم این داده ها‬
‫را نمایش دهیم در یک ناحیه متمرکز نیستند ودر چندقسمت‬
‫مختلف از صفحه مختصات دیده می شوند ‪ .‬برای چنین داده‬
‫هایی الگوریتم ‪ Rocchio‬مناسب نیست به این دلیل که این‬
‫الگوریتم تنها با مرکز داده ها کار می کند و به دلیل‬
‫وضعیت این کالس ها مرکز داده ها نماینده خوبی برای‬
‫‪11‬‬
‫تمام اعضای کالس نیست‪ .‬در این حالت ممکن است که مرکز‬
‫دادههای یک کالس در مجاورت دادههای کالسهای دیگر قرار‬
‫بگیرند‪.‬‬
‫اما در الگوریتم ‪ k‬نزدیکترین به این دلیل که بر اساس‬

‫نزدیکترین داده ها به هر داده آزمایشی تصمیم گرفته می‪-‬‬
‫شود برای کالس های چند تکه عملکرد بهتری دارد‪.‬‬
‫مثال ‪:‬‬
‫در شکالعضای کالس قرمز در دو قسمت مختلف پراکنده هستند‬

‫و مرکز آن ها به شکلی که در تصویر می بیند به دست‬
‫آمده است ‪.‬‬
‫اگر از الگوریتم ‪ Rocchio‬استفاده کنیم ‪ ،‬یک قسمت از داده‬

‫ها که به مرکز کالس آبی نزدیکتر هستند به اشتباه برچسب‬
‫می خورند‪ .‬اما اگر از الگوریتم ‪ k‬نزدیکترین با مقدار‬
‫‪ 3‬استفاده کنیم می توان داده ها‬
‫؟‬
‫؟‬
‫‪11‬‬
‫فصل پانزده ‪ :‬یادگیری ماشین روی اسناد‬

‫‪ -5‬درخت تصمیم مناسب برای اطالعات جدول شماره ‪ 3‬را‬
‫بسازید‪.‬‬
‫جدول شماره ‪3‬‬

‫شماره‬ ‫سن‬ ‫جنسیت‬ ‫نوع بلیت‬ ‫موقعیت‬ ‫زنده‬
‫مسافر‬ ‫کابین‬
‫‪1‬‬ ‫‪> 40‬‬ ‫مرد‬ ‫ویژه‬ ‫نیمه‬ ‫خیر‬
‫شمالی‬
‫‪2‬‬ ‫‪< 40‬‬ ‫مرد‬ ‫عادی‬ ‫نیمه‬ ‫خیر‬
‫جنوبی‬
‫‪3‬‬ ‫‪> 40‬‬ ‫زن‬ ‫عادی‬ ‫نیمه‬ ‫خیر‬
‫جنوبی‬
‫‪4‬‬ ‫‪> 40‬‬ ‫مرد‬ ‫ویژه‬ ‫نیمه‬ ‫بله‬
‫شمالی‬
‫‪5‬‬ ‫‪< 40‬‬ ‫زن‬ ‫عادی‬ ‫نیمه‬ ‫خیر‬
‫شمالی‬
‫‪6‬‬ ‫‪> 40‬‬ ‫مرد‬ ‫عادی‬ ‫نیمه‬ ‫بله‬
‫شمالی‬
‫سن‬
‫‪> 40‬‬ ‫‪> 40‬‬
‫زنده= خیر‬ ‫جنسیت‬
‫زنده= خیر‬
‫زنده= بله‬
‫فصل شانزده ‪ :‬خوشهبندی‬
‫‪11‬‬
‫‪ -6‬الف) مثالی ارائه دهید که در آن الگوریتم ‪k-means‬‬

‫خوشههای نامتوازن تولید کند که یک خوشه خیلی کوچک و‬
‫یک خوشه خیلی بزرگ باشد‪.‬‬
‫اگر نقاط مرکزی اولیه به صورتی انتخاب شوند که تعدادی‬

‫از آنها از میان داده های خارج از محدودهی اکثر داده‬
‫ها ( ‪) outliers‬انتخاب شوند‪ ،‬ممکن است باعث شود تقارن‬
‫خوشهبندی بهم بریزد ‪.‬در این حالت دادههای خارج از‬
‫محدوده که تعداد کمی دارند برای خود خوشه جداگانهایی‬
‫ایجاد میکنند و این باعث میشود که یک خوشه بزرگ و‬
‫خوشهی دیگر بسیار کوچک شود‪.‬‬
‫ب) دو مورد از شرطهای خاتمه الگوریتم ‪ k-means‬به صورت‬

‫زیر است‪:‬‬
‫‪ ‬مرکز خوشهها تغیر نکند‪.‬‬
‫‪ ‬برچسب ها تغیر نکند‪.‬‬
‫ایا این دو شرط یکدیگر را تضمین میکنند؟ توضیح‬

‫سدهید‪.‬‬
‫بله‪ .‬اگر برچسبها تغییر نکنند مراکز هم تغیر نمی‪-‬‬

‫کنند و اگر مراکز تغیر نکنند یعنی برچسبها تغیر‬
‫نکرده اند‪.‬‬
‫‪ -7‬الف) در شکل زیر خروجی حاصل از یک الگوریتم خوشه‪-‬‬

‫بندی آمده است‪ .‬برای بررسی میزان عملکرد این‬
‫الگوریتم معیارهای خواسته شده را محاسبه کنید‪.‬‬
‫‪Precision ‬‬
‫‪Recall ‬‬
‫‪Rand index ‬‬
‫‪11‬‬
‫خوشه ‪3‬‬
‫خوشه ‪1‬‬ ‫خوشه ‪2‬‬
‫‪6‬‬ ‫‪6‬‬ ‫‪6‬‬
‫‪TP + FP = ( ) + ( ) + ( ) = 45‬‬
‫‪2‬‬ ‫‪2‬‬ ‫‪2‬‬
‫‪4‬‬ ‫‪2‬‬ ‫‪5‬‬ ‫‪4‬‬
‫‪TP = ( ) + ( ) + ( ) + ( ) = 23‬‬ ‫‪=> FP = 45 – 23 = 22‬‬
‫‪2‬‬ ‫‪2‬‬ ‫‪2‬‬ ‫‪2‬‬
‫‪4‬‬ ‫‪8‬‬ ‫‪11‬‬
‫‪TN = ( ) + ( ) + ( ) = 89‬‬
‫‪2‬‬ ‫‪2‬‬ ‫‪2‬‬
‫‪18‬‬
‫( = ‪TP + TN + FP + FN‬‬ ‫‪) = 153‬‬
‫‪2‬‬
‫‪FN = 153 – 23 – 22 – 89 = 19‬‬
‫>=‬
‫‪Precision = TP/TP+FP = 23 / 45‬‬
‫‪Recall = TP/TP+FN = 23 / 44‬‬
‫‪Rand index = TP+TN/TP+FP+FN+TN = 112 / 153‬‬
‫ب) تفاوت معیار ‪ accuracy , Rand index‬در چیست؟‬
‫پاسخ‪:‬‬
‫‪ RI‬به اسم خوشه حساس نیست ولی ‪ accuracy‬به اسم خوشه حساس‬
‫است‪.‬‬
‫‪11‬‬

hw4 Solution

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

hw4 Solution

Uploaded by

Copyright:

Available Formats

‫بازیابی اطالعات ‪ -‬نیمسال دوم ‪99-98‬‬

‫تمرین سری چهارم‬

‫فصل سیزده ‪ :‬دسته بندی متن‬

‫ب) دلیل سادگی یادگیری مدل بیز ساده را بیان کنید؟‬

‫چون در مدل بیز ساده تنها احتمال رخداد یک کلمه از‬

‫‪ -2‬با اجرای الگوریتم بیز ساده بر روی دادههای جدول‬

‫تمرین سری چهارم‬

‫سند‬ ‫برچسب‬ 1‫شماره‬ ‫جدول‬

P(U) = 1/2 , P(W) = 1/2

P(X|U) = log 𝑃(𝑈) + 7 * log P(A|U) + 2 * log P(C|U) + 8 * log P(B|U)

= -0.3 + 7 * -0.38 + 2 * -0.88 + 8 * -0.38 = - 7.76

P(X|W) = log 𝑃(𝑊) + 7 * log P(A|W) + 2 * log P(C|W) + 8 * log P(B|W)

‫تمرین سری چهارم‬

= -0.3 + 7 * -0.62 + 2 * -0.3 + 8 * -0.62 = - 10.2

P(Y|U) = log 𝑃(𝑈) + 4 * log P(A|U) + 7 * log P(C|U) + 4 * log P(B|U) +

= -0.3 + 4 * -0.38 + 7 * -0.88 + 4 * -0.37 + 2 * -1.57 = - 12.6

P(Y|W) = log 𝑃(𝑊) + 4 * log P(A|W) + 7 * log P(C|W) + 4 * log P(B|W) +

= -0.3 + 4 * -0.62 + 7 * -0.3 + 4 * -0.62 + 2 * -1.57 = - 10.5

‫تمرین سری چهارم‬

‫فصل چهارده ‪ :‬دسته بندی برداری‬

‫کلمات‬ ‫‪d1‬‬ ‫‪d2‬‬ ‫‪d3‬‬ ‫‪d4‬‬ ‫‪d5‬‬ ‫‪d6‬‬ ‫‪d7‬‬

‫شنا‬ ‫‪1‬‬ ‫‪0.8‬‬ ‫‪0.7‬‬ ‫‪0‬‬ ‫‪0.1‬‬ ‫‪0.5‬‬ ‫‪0.1‬‬

‫شیرجه‬ ‫‪0.5‬‬ ‫‪0.6‬‬ ‫‪0.4‬‬ ‫‪0.1‬‬ ‫‪0‬‬ ‫‪0.6‬‬ ‫‪0‬‬

‫بازی‬ ‫‪0.44‬‬ ‫‪0‬‬ ‫‪0‬‬ ‫‪2.64 1.76‬‬ ‫‪0.22 2.64‬‬

‫غرق‬ ‫‪0‬‬ ‫‪0.22‬‬ ‫‪0‬‬ ‫‪4.4 12.32‬‬ ‫‪0‬‬ ‫‪0.88‬‬

‫این نوع دسته بندی بین هر دو کالس با توجه به ابعاد فضا‬

‫تمرین سری چهارم‬

‫بردارهایی که با جایگذاری در معادله ابرصفحه حاصل منفی‬

‫‪𝑤𝑑6 − 𝜃 < 0‬‬

‫این مدل دسته بندی به سند ‪ 6‬برچسب ‪ l‬می دهد ‪.‬‬

‫‪𝑤𝑑7 − 𝜃 < 0‬‬

‫این مدل دسته بندی به سند ‪7‬برچسب ‪ l‬می دهد ‪.‬‬

‫ب) با یک مثال نشان دهید در الگوریتم دستهبندی ‪Rocchio‬‬

‫تمرین سری چهارم‬

‫ج) با استفاده از الگوریتم ‪-k‬نزدیکترین و دادههای جدول‬

‫به ازای ‪k = 1‬‬ ‫‪.I‬‬

‫‪|𝑑6 − 𝑑1| = 0.55‬‬

‫‪|𝑑6 − 𝑑2| = 0.39‬‬

‫تمرین سری چهارم‬

‫‪|𝑑6 − 𝑑3| = 0.28‬‬

‫‪|𝑑6 − 𝑑4| = 26.2‬‬

‫‪|𝑑6 − 𝑑5| = 154.9‬‬

‫‪|𝑑7 − 𝑑1| = 6.7‬‬

‫‪|𝑑7 − 𝑑2| = 7.5‬‬

‫‪|𝑑7 − 𝑑3| = 7.58‬‬

‫‪|𝑑7 − 𝑑4| = 6.6‬‬

‫‪|𝑑7 − 𝑑5| = 12.32‬‬

‫نزدیکترین سند به سند‪، d6‬سند‪ d3‬و به سند ‪، d7‬سند ‪ d4‬است‬

‫برای ‪، d1,d2,d3 ، k=3‬نزدیکترین ها به ‪ d6‬هستند و همه متعلق‬

‫برای ‪، d1,d2,d4 ، k=3‬نزدیکترین ها به ‪ d7‬هستند بنابراین‬

‫‪ -4‬با ذکر چند مثال عملکرد دو الگوریتم دسته بندی ‪Rocchio‬‬

‫تمرین سری چهارم‬

‫اما در الگوریتم ‪ k‬نزدیکترین به این دلیل که بر اساس‬

‫در شکالعضای کالس قرمز در دو قسمت مختلف پراکنده هستند‬

‫اگر از الگوریتم ‪ Rocchio‬استفاده کنیم ‪ ،‬یک قسمت از داده‬

‫تمرین سری چهارم‬

‫فصل پانزده ‪ :‬یادگیری ماشین روی اسناد‬

‫جدول شماره ‪3‬‬

‫زنده= خیر‬ ‫جنسیت‬

‫فصل شانزده ‪ :‬خوشهبندی‬

‫تمرین سری چهارم‬

‫‪ -6‬الف) مثالی ارائه دهید که در آن الگوریتم ‪k-means‬‬

‫اگر نقاط مرکزی اولیه به صورتی انتخاب شوند که تعدادی‬