You are on page 1of 11

‫بازیابی اطالعات ‪ -‬نیمسال دوم ‪99-98‬‬

‫تمرین سری چهارم‬

‫فصل سیزده ‪ :‬دسته بندی متن‬


‫‪ -1‬الف) اگر در یک مدل دسته بندی دو کالسه‪ ،‬مثل دسته‪-‬‬
‫بندی اخبار به دو دستهی اخبار ورزشی و سیاسی‪ ،‬اگر‬
‫تعداد کلماتی که به عنوان ویژگی انتخاب میشوند‬
‫بیشتر متعلق به یک دسته باشند چه تاثیری در نتیجه‬
‫دستهبندی دارد؟ توضیح دهید‪.‬‬
‫پاسخ ‪:‬‬
‫اگر بیشتر ویژگی ها را از کالس اول انتخاب کنیم‪:‬‬
‫این حالت مانند این است که مدل تنها برای تشخیص کالس‬
‫اول آموزش ببیند‪ .‬در استفاده از این مدل برچسب دوم‬
‫به درستی تشخیص داده نمی شود‪ .‬چون مدل برای متون‬
‫این دسته آموزشی ندیده است ‪،‬به هر متنی به غیر از‬
‫متون کالس اول‪،‬برچسب کالس دوم را میزند‪.‬‬

‫ب) دلیل سادگی یادگیری مدل بیز ساده را بیان کنید؟‬

‫پاسخ ‪:‬‬

‫چون در مدل بیز ساده تنها احتمال رخداد یک کلمه از‬


‫سند درنظر گرفته میشود و احتمال کلمات متوالی در‬
‫اسناد موجود در یک دسته در نظر گرفته نمیشود‪ .‬به‬
‫بیان دیگر در مدل بیز ساده برای سادگی کار‪ ،‬فرض می‪-‬‬
‫شود کلمات یک سند از یکدیگر مستقل هستند در حالی که‬
‫چنین فرضی اشتباه است و کلمات بهم وابسته اند‪.‬‬

‫‪ -2‬با اجرای الگوریتم بیز ساده بر روی دادههای جدول‬


‫شماره ‪ ، 1‬دستهی دو سند بدون برچسب را تعیین کنید ؟‬
‫فرض کنید اندازهی لغتنامه برابر با ‪ 4‬است‪( .‬نوشتن‬
‫تمامی محاسبات الزامی است)‬

‫صفحه‪ 1 :‬از‬
‫‪11‬‬
99-98 ‫ نیمسال دوم‬- ‫بازیابی اطالعات‬

‫تمرین سری چهارم‬

‫سند‬ ‫برچسب‬ 1‫شماره‬ ‫جدول‬

‫کالس‬

AACBBAABABBAACCBB U

AAAAAACBBBBBBBABA U

CACCCABCABBCCABCC W

CCCCABACBCCBACCAB W

AAACCABBBBBBAABBA ?

CACBCDCCCABBACDAB ?

: ‫پاسخ‬

P(U) = 1/2 , P(W) = 1/2

15 + 1 16 15 + 1 16
P(A|U) = = , P(B|U) = = ,
15 + 4 +15 +4 38 15 + 4 +15 +4 38

4+1 5 1 1
P(C|U) = = , P(D|U) = = ,
15 + 4 +15 +4 38 15 + 4 +15 +4 38

8+1 9 8+1 9
P(A|W) = = , P(B|W) = = ,
8 + 18 + 8 +4 38 8 + 18 + 8 +4 38

18 + 1 19 1 1
P(C|W) = = , P(D|W) = =
8 + 18 + 8 +4 38 8 + 18 + 8 +4 38

AAACCCBBBBBBAABBA = X

P(X|U) = log 𝑃(𝑈) + 7 * log P(A|U) + 2 * log P(C|U) + 8 * log P(B|U)

= -0.3 + 7 * -0.38 + 2 * -0.88 + 8 * -0.38 = - 7.76

P(X|W) = log 𝑃(𝑊) + 7 * log P(A|W) + 2 * log P(C|W) + 8 * log P(B|W)

‫ از‬2 :‫صفحه‬
11
99-98 ‫ نیمسال دوم‬- ‫بازیابی اطالعات‬

‫تمرین سری چهارم‬

= -0.3 + 7 * -0.62 + 2 * -0.3 + 8 * -0.62 = - 10.2

 X∈U

CACBCDCCCABBACDAB = Y

P(Y|U) = log 𝑃(𝑈) + 4 * log P(A|U) + 7 * log P(C|U) + 4 * log P(B|U) +

2 * log P(D|U)

= -0.3 + 4 * -0.38 + 7 * -0.88 + 4 * -0.37 + 2 * -1.57 = - 12.6

P(Y|W) = log 𝑃(𝑊) + 4 * log P(A|W) + 7 * log P(C|W) + 4 * log P(B|W) +

2 * log P(D|W)

= -0.3 + 4 * -0.62 + 7 * -0.3 + 4 * -0.62 + 2 * -1.57 = - 10.5

 Y∈W

‫ از‬3 :‫صفحه‬
11
‫بازیابی اطالعات ‪ -‬نیمسال دوم ‪99-98‬‬

‫تمرین سری چهارم‬

‫فصل چهارده ‪ :‬دسته بندی برداری‬


‫‪ -3‬الف) با استفاده از الگوریتم دسته بندی ‪ Rocchio‬و با‬
‫توجه به جدول شماره ‪ 2‬کالس ‪ d6 ,d7‬را مشخص کنید‪(.‬مقادیر‬
‫جدول‪ ،‬مقادیر ‪ tf-idf‬هستند)‬
‫شماره‪2‬‬ ‫جدول‬
‫آموزشی‬ ‫کالس ‪l‬‬ ‫‪c‬‬ ‫کالس‬ ‫سند‬
‫جدید‬

‫کلمات‬ ‫‪d1‬‬ ‫‪d2‬‬ ‫‪d3‬‬ ‫‪d4‬‬ ‫‪d5‬‬ ‫‪d6‬‬ ‫‪d7‬‬

‫شنا‬ ‫‪1‬‬ ‫‪0.8‬‬ ‫‪0.7‬‬ ‫‪0‬‬ ‫‪0.1‬‬ ‫‪0.5‬‬ ‫‪0.1‬‬

‫شیرجه‬ ‫‪0.5‬‬ ‫‪0.6‬‬ ‫‪0.4‬‬ ‫‪0.1‬‬ ‫‪0‬‬ ‫‪0.6‬‬ ‫‪0‬‬

‫بازی‬ ‫‪0.44‬‬ ‫‪0‬‬ ‫‪0‬‬ ‫‪2.64 1.76‬‬ ‫‪0.22 2.64‬‬

‫غرق‬ ‫‪0‬‬ ‫‪0.22‬‬ ‫‪0‬‬ ‫‪4.4 12.32‬‬ ‫‪0‬‬ ‫‪0.88‬‬

‫پاسخ ‪:‬‬

‫این نوع دسته بندی بین هر دو کالس با توجه به ابعاد فضا‬


‫یک ابر صفحه تعیین میکند‪.‬‬

‫𝑀‬

‫𝜃 = 𝑖𝑑 𝑖𝑤 ∑‬
‫‪𝑖=1‬‬

‫‪0.5‬‬
‫‪0.5‬‬
‫(‬ ‫بردار مرکز کالس ‪) : c‬‬
‫‪2.2‬‬
‫‪8.36‬‬

‫صفحه‪ 4 :‬از‬
‫‪11‬‬
‫بازیابی اطالعات ‪ -‬نیمسال دوم ‪99-98‬‬

‫تمرین سری چهارم‬

‫‪1.25‬‬
‫‪0.75‬‬
‫(‬ ‫بردار مرکز کالس ‪) : l‬‬
‫‪0.15‬‬
‫‪0.07‬‬
‫‪0.75‬‬
‫‪0.25‬‬
‫(=𝑤‬ ‫)‬
‫‪2.05‬‬
‫‪8.29‬‬

‫‪𝜃 = 73.07‬‬

‫‪𝑤𝑑1 − 𝜃 < 0. 𝑤𝑑2 − 𝜃 < 0. 𝑤𝑑3 − 𝜃 < 0. 𝑤𝑑4 − 𝜃 > 0. 𝑤𝑑5 − 𝜃 > 0‬‬

‫بردارهایی که با جایگذاری در معادله ابرصفحه حاصل منفی‬


‫می دهند(از ابر صفحه کوچکتر هستند )‪،‬متعلق به کالس ‪l‬‬
‫هستندو بردارهایی که با جایگذاری در معادله ابرصفحه‬
‫حاصل مثبت می دهند(از ابر صفحه کوچکتر هستند )‪،‬متعلق به‬
‫کالس ‪ c‬هستند ‪.‬‬

‫‪𝑤𝑑6 − 𝜃 < 0‬‬

‫این مدل دسته بندی به سند ‪ 6‬برچسب ‪ l‬می دهد ‪.‬‬

‫‪𝑤𝑑7 − 𝜃 < 0‬‬

‫این مدل دسته بندی به سند ‪7‬برچسب ‪ l‬می دهد ‪.‬‬

‫ب) با یک مثال نشان دهید در الگوریتم دستهبندی ‪Rocchio‬‬


‫به دستهای تعلق گیرد که متفاوت‬ ‫چگونه ممکن است یک سند‬
‫از برچسب آموزشی آن است‪.‬‬

‫پاسخ‪:‬‬

‫صفحه‪ 5 :‬از‬
‫‪11‬‬
‫بازیابی اطالعات ‪ -‬نیمسال دوم ‪99-98‬‬

‫تمرین سری چهارم‬

‫در مثال باال طبق برچسب های آموزشی‪ ،‬سند ‪ C‬به کالس ‪A‬‬
‫متعلق است‪ .‬اما فاصلهی این سند از مرکز کالس ‪ B‬کمتر است‬
‫و براساس الگوریتم ‪ Rocchio‬برچسب ‪ B‬میگیرد‪.‬‬

‫ج) با استفاده از الگوریتم ‪-k‬نزدیکترین و دادههای جدول‬


‫شماره ‪ 2‬تعیین کنید سندهای جدید در کدام دسته قرار‬
‫میگیرد‪.‬‬

‫به ازای ‪k = 1‬‬ ‫‪.I‬‬


‫به ازای ‪k = 3‬‬ ‫‪.II‬‬

‫پاسخ ‪:‬‬

‫‪|𝑑6 − 𝑑1| = 0.55‬‬

‫‪|𝑑6 − 𝑑2| = 0.39‬‬

‫صفحه‪ 6 :‬از‬
‫‪11‬‬
‫بازیابی اطالعات ‪ -‬نیمسال دوم ‪99-98‬‬

‫تمرین سری چهارم‬

‫‪|𝑑6 − 𝑑3| = 0.28‬‬

‫‪|𝑑6 − 𝑑4| = 26.2‬‬

‫‪|𝑑6 − 𝑑5| = 154.9‬‬

‫‪|𝑑7 − 𝑑1| = 6.7‬‬

‫‪|𝑑7 − 𝑑2| = 7.5‬‬

‫‪|𝑑7 − 𝑑3| = 7.58‬‬

‫‪|𝑑7 − 𝑑4| = 6.6‬‬

‫‪|𝑑7 − 𝑑5| = 12.32‬‬

‫نزدیکترین سند به سند‪، d6‬سند‪ d3‬و به سند ‪، d7‬سند ‪ d4‬است‬


‫بنابراین برای ‪ d6، k=1‬برچسب ‪ l‬و ‪ d7‬برچسب ‪ c‬میگیرد‪.‬‬

‫برای ‪، d1,d2,d3 ، k=3‬نزدیکترین ها به ‪ d6‬هستند و همه متعلق‬


‫به یک کالس هستند بنابراین برچسب ‪ d6‬هم ‪ l‬میشود ‪.‬‬

‫برای ‪، d1,d2,d4 ، k=3‬نزدیکترین ها به ‪ d7‬هستند بنابراین‬


‫برچسب ‪ l d7‬میشود ‪.‬‬

‫‪ -4‬با ذکر چند مثال عملکرد دو الگوریتم دسته بندی ‪Rocchio‬‬


‫و ‪-k‬نزدیکترین را در کالسهای دو یا چند تکه مقایسه‬
‫کنید‪.‬‬

‫پاسخ ‪:‬‬

‫کالس های چند تکه کالس هایی هستند که داده های آن ها به‬
‫چند شکل مختلف ظاهر می شوند‪،‬اگر بتوانیم این داده ها‬
‫را نمایش دهیم در یک ناحیه متمرکز نیستند ودر چندقسمت‬
‫مختلف از صفحه مختصات دیده می شوند ‪ .‬برای چنین داده‬
‫هایی الگوریتم ‪ Rocchio‬مناسب نیست به این دلیل که این‬
‫الگوریتم تنها با مرکز داده ها کار می کند و به دلیل‬
‫وضعیت این کالس ها مرکز داده ها نماینده خوبی برای‬

‫صفحه‪ 7 :‬از‬
‫‪11‬‬
‫بازیابی اطالعات ‪ -‬نیمسال دوم ‪99-98‬‬

‫تمرین سری چهارم‬

‫تمام اعضای کالس نیست‪ .‬در این حالت ممکن است که مرکز‬
‫دادههای یک کالس در مجاورت دادههای کالسهای دیگر قرار‬
‫بگیرند‪.‬‬

‫اما در الگوریتم ‪ k‬نزدیکترین به این دلیل که بر اساس‬


‫نزدیکترین داده ها به هر داده آزمایشی تصمیم گرفته می‪-‬‬
‫شود برای کالس های چند تکه عملکرد بهتری دارد‪.‬‬

‫مثال ‪:‬‬

‫در شکالعضای کالس قرمز در دو قسمت مختلف پراکنده هستند‬


‫و مرکز آن ها به شکلی که در تصویر می بیند به دست‬
‫آمده است ‪.‬‬

‫اگر از الگوریتم ‪ Rocchio‬استفاده کنیم ‪ ،‬یک قسمت از داده‬


‫ها که به مرکز کالس آبی نزدیکتر هستند به اشتباه برچسب‬
‫می خورند‪ .‬اما اگر از الگوریتم ‪ k‬نزدیکترین با مقدار‬
‫‪ 3‬استفاده کنیم می توان داده ها‬

‫؟‬

‫؟‬

‫صفحه‪ 8 :‬از‬
‫‪11‬‬
‫بازیابی اطالعات ‪ -‬نیمسال دوم ‪99-98‬‬

‫تمرین سری چهارم‬

‫فصل پانزده ‪ :‬یادگیری ماشین روی اسناد‬


‫‪ -5‬درخت تصمیم مناسب برای اطالعات جدول شماره ‪ 3‬را‬

‫بسازید‪.‬‬

‫جدول شماره ‪3‬‬


‫شماره‬ ‫سن‬ ‫جنسیت‬ ‫نوع بلیت‬ ‫موقعیت‬ ‫زنده‬
‫مسافر‬ ‫کابین‬
‫‪1‬‬ ‫‪> 40‬‬ ‫مرد‬ ‫ویژه‬ ‫نیمه‬ ‫خیر‬
‫شمالی‬
‫‪2‬‬ ‫‪< 40‬‬ ‫مرد‬ ‫عادی‬ ‫نیمه‬ ‫خیر‬
‫جنوبی‬
‫‪3‬‬ ‫‪> 40‬‬ ‫زن‬ ‫عادی‬ ‫نیمه‬ ‫خیر‬
‫جنوبی‬
‫‪4‬‬ ‫‪> 40‬‬ ‫مرد‬ ‫ویژه‬ ‫نیمه‬ ‫بله‬
‫شمالی‬
‫‪5‬‬ ‫‪< 40‬‬ ‫زن‬ ‫عادی‬ ‫نیمه‬ ‫خیر‬
‫شمالی‬
‫‪6‬‬ ‫‪> 40‬‬ ‫مرد‬ ‫عادی‬ ‫نیمه‬ ‫بله‬
‫شمالی‬

‫پاسخ ‪:‬‬

‫سن‬
‫‪> 40‬‬ ‫‪> 40‬‬

‫زنده= خیر‬ ‫جنسیت‬

‫زنده= خیر‬
‫زنده= بله‬

‫فصل شانزده ‪ :‬خوشهبندی‬

‫صفحه‪ 9 :‬از‬
‫‪11‬‬
‫بازیابی اطالعات ‪ -‬نیمسال دوم ‪99-98‬‬

‫تمرین سری چهارم‬

‫‪ -6‬الف) مثالی ارائه دهید که در آن الگوریتم ‪k-means‬‬


‫خوشههای نامتوازن تولید کند که یک خوشه خیلی کوچک و‬
‫یک خوشه خیلی بزرگ باشد‪.‬‬
‫پاسخ ‪:‬‬

‫اگر نقاط مرکزی اولیه به صورتی انتخاب شوند که تعدادی‬


‫از آنها از میان داده های خارج از محدودهی اکثر داده‬
‫ها ( ‪) outliers‬انتخاب شوند‪ ،‬ممکن است باعث شود تقارن‬
‫خوشهبندی بهم بریزد ‪.‬در این حالت دادههای خارج از‬
‫محدوده که تعداد کمی دارند برای خود خوشه جداگانهایی‬
‫ایجاد میکنند و این باعث میشود که یک خوشه بزرگ و‬
‫خوشهی دیگر بسیار کوچک شود‪.‬‬

‫ب) دو مورد از شرطهای خاتمه الگوریتم ‪ k-means‬به صورت‬


‫زیر است‪:‬‬
‫‪ ‬مرکز خوشهها تغیر نکند‪.‬‬
‫‪ ‬برچسب ها تغیر نکند‪.‬‬

‫ایا این دو شرط یکدیگر را تضمین میکنند؟ توضیح‬


‫سدهید‪.‬‬

‫پاسخ ‪:‬‬

‫بله‪ .‬اگر برچسبها تغییر نکنند مراکز هم تغیر نمی‪-‬‬


‫کنند و اگر مراکز تغیر نکنند یعنی برچسبها تغیر‬
‫نکرده اند‪.‬‬

‫‪ -7‬الف) در شکل زیر خروجی حاصل از یک الگوریتم خوشه‪-‬‬


‫بندی آمده است‪ .‬برای بررسی میزان عملکرد این‬
‫الگوریتم معیارهای خواسته شده را محاسبه کنید‪.‬‬
‫‪Precision ‬‬
‫‪Recall ‬‬
‫‪Rand index ‬‬

‫صفحه‪ 10 :‬از‬
‫‪11‬‬
‫بازیابی اطالعات ‪ -‬نیمسال دوم ‪99-98‬‬

‫تمرین سری چهارم‬

‫خوشه ‪3‬‬
‫خوشه ‪1‬‬ ‫خوشه ‪2‬‬

‫پاسخ ‪:‬‬
‫‪6‬‬ ‫‪6‬‬ ‫‪6‬‬
‫‪TP + FP = ( ) + ( ) + ( ) = 45‬‬
‫‪2‬‬ ‫‪2‬‬ ‫‪2‬‬
‫‪4‬‬ ‫‪2‬‬ ‫‪5‬‬ ‫‪4‬‬
‫‪TP = ( ) + ( ) + ( ) + ( ) = 23‬‬ ‫‪=> FP = 45 – 23 = 22‬‬
‫‪2‬‬ ‫‪2‬‬ ‫‪2‬‬ ‫‪2‬‬
‫‪4‬‬ ‫‪8‬‬ ‫‪11‬‬
‫‪TN = ( ) + ( ) + ( ) = 89‬‬
‫‪2‬‬ ‫‪2‬‬ ‫‪2‬‬
‫‪18‬‬
‫( = ‪TP + TN + FP + FN‬‬ ‫‪) = 153‬‬
‫‪2‬‬
‫‪FN = 153 – 23 – 22 – 89 = 19‬‬

‫>=‬

‫‪Precision = TP/TP+FP = 23 / 45‬‬

‫‪Recall = TP/TP+FN = 23 / 44‬‬

‫‪Rand index = TP+TN/TP+FP+FN+TN = 112 / 153‬‬

‫ب) تفاوت معیار ‪ accuracy , Rand index‬در چیست؟‬

‫پاسخ‪:‬‬

‫‪ RI‬به اسم خوشه حساس نیست ولی ‪ accuracy‬به اسم خوشه حساس‬
‫است‪.‬‬

‫صفحه‪ 11 :‬از‬
‫‪11‬‬

You might also like