Professional Documents
Culture Documents
hw4 Solution
hw4 Solution
پاسخ :
صفحه 1 :از
11
99-98 نیمسال دوم- بازیابی اطالعات
کالس
AACBBAABABBAACCBB U
AAAAAACBBBBBBBABA U
CACCCABCABBCCABCC W
CCCCABACBCCBACCAB W
AAACCABBBBBBAABBA ?
CACBCDCCCABBACDAB ?
: پاسخ
15 + 1 16 15 + 1 16
P(A|U) = = , P(B|U) = = ,
15 + 4 +15 +4 38 15 + 4 +15 +4 38
4+1 5 1 1
P(C|U) = = , P(D|U) = = ,
15 + 4 +15 +4 38 15 + 4 +15 +4 38
8+1 9 8+1 9
P(A|W) = = , P(B|W) = = ,
8 + 18 + 8 +4 38 8 + 18 + 8 +4 38
18 + 1 19 1 1
P(C|W) = = , P(D|W) = =
8 + 18 + 8 +4 38 8 + 18 + 8 +4 38
AAACCCBBBBBBAABBA = X
از2 :صفحه
11
99-98 نیمسال دوم- بازیابی اطالعات
X∈U
CACBCDCCCABBACDAB = Y
2 * log P(D|U)
2 * log P(D|W)
Y∈W
از3 :صفحه
11
بازیابی اطالعات -نیمسال دوم 99-98
پاسخ :
𝑀
𝜃 = 𝑖𝑑 𝑖𝑤 ∑
𝑖=1
0.5
0.5
( بردار مرکز کالس ) : c
2.2
8.36
صفحه 4 :از
11
بازیابی اطالعات -نیمسال دوم 99-98
1.25
0.75
( بردار مرکز کالس ) : l
0.15
0.07
0.75
0.25
(=𝑤 )
2.05
8.29
𝜃 = 73.07
𝑤𝑑1 − 𝜃 < 0. 𝑤𝑑2 − 𝜃 < 0. 𝑤𝑑3 − 𝜃 < 0. 𝑤𝑑4 − 𝜃 > 0. 𝑤𝑑5 − 𝜃 > 0
پاسخ:
صفحه 5 :از
11
بازیابی اطالعات -نیمسال دوم 99-98
در مثال باال طبق برچسب های آموزشی ،سند Cبه کالس A
متعلق است .اما فاصلهی این سند از مرکز کالس Bکمتر است
و براساس الگوریتم Rocchioبرچسب Bمیگیرد.
پاسخ :
صفحه 6 :از
11
بازیابی اطالعات -نیمسال دوم 99-98
پاسخ :
کالس های چند تکه کالس هایی هستند که داده های آن ها به
چند شکل مختلف ظاهر می شوند،اگر بتوانیم این داده ها
را نمایش دهیم در یک ناحیه متمرکز نیستند ودر چندقسمت
مختلف از صفحه مختصات دیده می شوند .برای چنین داده
هایی الگوریتم Rocchioمناسب نیست به این دلیل که این
الگوریتم تنها با مرکز داده ها کار می کند و به دلیل
وضعیت این کالس ها مرکز داده ها نماینده خوبی برای
صفحه 7 :از
11
بازیابی اطالعات -نیمسال دوم 99-98
تمام اعضای کالس نیست .در این حالت ممکن است که مرکز
دادههای یک کالس در مجاورت دادههای کالسهای دیگر قرار
بگیرند.
مثال :
؟
؟
صفحه 8 :از
11
بازیابی اطالعات -نیمسال دوم 99-98
بسازید.
پاسخ :
سن
> 40 > 40
زنده= خیر
زنده= بله
صفحه 9 :از
11
بازیابی اطالعات -نیمسال دوم 99-98
پاسخ :
صفحه 10 :از
11
بازیابی اطالعات -نیمسال دوم 99-98
خوشه 3
خوشه 1 خوشه 2
پاسخ :
6 6 6
TP + FP = ( ) + ( ) + ( ) = 45
2 2 2
4 2 5 4
TP = ( ) + ( ) + ( ) + ( ) = 23 => FP = 45 – 23 = 22
2 2 2 2
4 8 11
TN = ( ) + ( ) + ( ) = 89
2 2 2
18
( = TP + TN + FP + FN ) = 153
2
FN = 153 – 23 – 22 – 89 = 19
>=
پاسخ:
RIبه اسم خوشه حساس نیست ولی accuracyبه اسم خوشه حساس
است.
صفحه 11 :از
11