Professional Documents
Culture Documents
۲۱ﺍﺳﻔﻨﺪ ۱۳۹۳
ﻣﻘﺪﻣﻪ ۱
ﻓﺮﺽ ﮐﻨﯿﺪﮐﻪ } X = {x1 , x2 , · · · xnﯾﮏ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ } {)p(x1 ), p(x2 ), · · · p(xnﺑﺎﺷﺪ .ﺑﻪ ﺍﯾﻦ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﻣﯽ
∑
n
H(X) := − p(x) log2 p(x). )(۱
i=1
ﺑﺪﻭﻥ ﺍﻏﺮﺍﻕ ﻣﯽ ﺗﻮﺍﻥ ﮔﻔﺖ ﮐﻪ ﺗﻤﺎﻡ ﻧﻈﺮ ﯾﻪ ﺍﻃﻼﻋﺎﺕ ﮐﻼﺳﯿﮏ ﺑﺮ ﺭ ﻭﯼ ﺍﯾﻦ ﺗﺎﺑﻊ ﮐﻪ ﺁﻥ ﺭﺍ ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﻣﯽ ﺧﻮﺍﻧﻨﺪ ﻭ ﺧﻮﺍﺹ
ﻭﺗﻌﺒﯿﺮﻫﺎﯼ ﺁﻥ ﺑﻨﺎﺷﺪﻩ ﺍﺳﺖ .ﻫﺪﻑ ﻣﺎ ﺩﺭﺍﯾﻦ ﺩﺭﺱ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺍﻭﻻً ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺍﯾﻦ ﺗﺎﺑﻊ ﻭﺗﻮﺍﺑﻊ ﻭﺍﺑﺴﺘﻪ ﺑﻪ ﺁﻥ ﺭﺍﺍﺳﺘﺨﺮﺍﺝ ﮐﻨﯿﻢ،
ﺛﺎﻧﯿﺎً ﺗﻌﺒﯿﺮ ﻭﺗﻔﺴﯿﺮﻫﺎﯼ ﺍﯾﻦ ﺗﻮﺍﺑﻊ ﺭﺍ ﺑﻔﻬﻤﯿﻢ .ﻧﺨﺴﺘﯿﻦ ﮐﺎﺭﯼ ﮐﻪ ﺑﺎﯾﺪ ﺑﮑﻨﯿﻢ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﺍﯾﻦ ﺗﺎﺑﻊ ﺳﻨﺠﻪ ﻣﻨﺎﺳﺒﯽ ﺑﺮﺍﯼ
ﺍﻃﻼﻋﺎﺕ ﺍﺳﺖ .ﺍﯾﻦ ﮐﺎﺭﯼ ﺍﺳﺖ ﮐﻪ ﺩﺭﻧﺨﺴﺘﯿﻦ ﺑﺨﺶ ﺍﯾﻦ ﺩﺭﺱ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ .ﺩﺭﺑﺨﺶ ﻫﺎﯼ ﺑﻌﺪﯼ ﺍﯾﻦ ﺩﺭﺱ ﻣﻔﺎﻫﯿﻤﯽ ﻣﺜﻞ
ﺍﻃﻼﻋﺎﺕ ﺷﺮﻃﯽ ﻭ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺭﺍ ﻣﻌﺮﻓﯽ ﻣﯽ ﮐﻨﯿﻢ .ﭘﺲ ﺍﺯﺑﺮ ﺭﺳﯽ ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺗﻮﺍﺑﻌﯽ ﮐﻪ ﺑﺮﺍﯼ ﺍﻧﺪﺍﺯﻩ ﮔﯿﺮﯼ ﺍﻃﻼﻋﺎﺕ
ﻣﻌﺮﻓﯽ ﮐﺮﺩﻩ ﺍﯾﻢ ﺑﻪ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺍﻃﻼﻋﺎﺕ ﻭ ﺣﺪﯼ ﮐﻪ ﺑﺮﺍﯼ ﺍﯾﻦ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﻭﺟﻮﺩ ﺩﺍﺭﺩﻣﯽ ﭘﺮﺩﺍﺯﯾﻢ.
۱
ﻣﻔﻬﻮﻡ ﻭﺍﻧﺪﺍﺯﻩ ﺍﻃﻼﻋﺎﺕ ۲
ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺁﺯﻣﺎﯾﺶ ﯾﺎ ﻭﺍﻗﻌﻪ ﺍﯼ ﻣﺜﻞ Xﮐﻪ ﻧﺘﺎﯾﺞ ﯾﺎﭘﯿﺸﺎﻣﺪﻫﺎﯼ ﻣﻤﮑﻦ ﺁﻥ ﺭﺍ ﺑﺎﻣﺠﻤﻮﻋﻪ } {x1 , x2 , · · · xnﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ
ﺍﺗﻔﺎﻕ ﺑﯿﻔﺘﺪ ﻭ ﯾﮏ ﻧﺘﯿﺠﻪ ﻣﻌﯿﻦ ﻣﺜﻞ xiﺣﺎﺻﻞ ﺷﻮﺩ .ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﭙﺮﺳﯿﻢ ﮐﻪ ﻣﺎ ﺑﻪ ﻋﻨﻮﺍﻥ ﻧﺎﻇﺮ ﯾﺎ ﻣﺸﺎﻫﺪﻩ ﮔﺮ ﭼﻪ
ﻣﻘﺪﺍﺭ ﺍﻃﻼﻉ ﺣﺎﺻﻞ ﮐﺮﺩﻩ ﺍﯾﻢ ،ﯾﺎ ﭼﻪ ﻣﻘﺪﺍﺭ ﺍﺯ ﻋﺪﻡ ﯾﻘﯿﻦ ﻣﺎ ﻧﺴﺒﺖ ﺑﻪ ﻧﺘﯿﺠﻪ ﻫﺎﯼ ﻣﻤﮑﻦ ﮐﺎﺳﺘﻪ ﺷﺪﻩ ﺍﺳﺖ .ﻓﺮﺽ ﻣﺎ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ
ﺍﺣﺘﻤﺎﻻﺕ ﻭﻗﻮﻉ ﯾﻌﻨﯽ ) p(xiﻫﺎ ﻣﻌﻠﻮﻡ ﻫﺴﺘﻨﺪ .ﻃﺒﯿﻌﯽ ﺍﺳﺖ ﮐﻪ ﺑﺎ ﺩﺍﻧﺴﺘﻦ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻤﯽ ﺗﻮﺍﻥ ﯾﻘﯿﻨﺎ ﮔﻔﺖ ﮐﻪ ﭼﻪ ﭘﯿﺸﺎﻣﺪﯼ ﺭﺥ
ﺧﻮﺍﻫﺪ ﺩﺍﺩ .ﻣﯿﺰﺍﻥ ﻋﺪﻡ ﯾﻘﯿﻨﯽ ﮐﻪ ﻧﺴﺒﺖ ﺑﻪ ﻧﺘﯿﺠﻪ ﺩﺍﺭ ﯾﻢ ﻭ ﺩﺭ ﻧﺘﯿﺠﻪ ﻣﻘﺪﺍﺭ ﺍﻃﻼﻋﯽ ﮐﻪ ﺍﺯ ﻣﺸﺎﻫﺪﻩ ﺧﻮﺩ ﺩﺭ ﯾﺎﻓﺖ ﻣﯽ ﮐﻨﯿﻢ ،ﻃﺒﯿﻌﺘﺎ
ﺗﺎﺑﻌﯽ ﺍﺯ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻻﺕ ﺍﺳﺖ .ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺍﮔﺮ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ
ﺁﻧﮕﺎﻩ ﻧﺘﯿﺠﻪ ﻫﺮ ﺁﺯﻣﺎﯾﺸﯽ ﺍﺯ ﻗﺒﻞ ﻣﻌﻠﻮﻡ ﺍﺳﺖ ﻭ ﻣﺎ ﺍﺯ ﻣﺸﺎﻫﺪﻩ ﺁﺯﻣﺎﯾﺶ ﻫﯿﭻ ﺍﻃﻼﻋﯽ ﺣﺎﺻﻞ ﻧﻤﯽ ﮐﻨﯿﻢ ،ﺯﯾﺮﺍ ﺍﺯ ﻗﺒﻞ ﻭ ﺑﺎ ﻣﺤﺎﺳﺒﻪ
ﺗﺤﻠﯿﻠﯽ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﮕﻮﯾﯿﻢ ﮐﻪ ﻫﻤﻮﺍﺭﻩ ﻧﺘﯿﺠﻪ x1ﺣﺎﺻﻞ ﺧﻮﺍﻫﺪ ﺷﺪ .ﺍﻣﺎ ﺍﮔﺮ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ
1
= ) P (xi , )(۳
N
ﺁﻧﮕﺎﻩ ﻫﺮﺑﺎﺭ ﮐﻪ ﺁﺯﻣﺎﯾﺶ ﺭﺍ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ ﯾﮏ ﻧﺘﯿﺠﻪ ﺑﺪﺳﺖ ﻣﯽ ﺁﯾﺪ ﮐﻪ ﺑﻪ ﺩﺍﻧﺶ ﻣﺎ ﺍﺿﺎﻓﻪ ﻣﯽ ﮐﻨﺪ ،ﺩﺍﻧﺸﯽ ﮐﻪ ﺍﺯ ﻗﺒﻞ ﻧﺪﺍﺷﺘﯿﻢ
ﻭ ﻧﻤﯽ ﺗﻮﺍﻧﺴﺘﯿﻢ ﺑﺎ ﻣﺤﺎﺳﺒﻪ ﺭ ﯾﺎﺿﯽ ﺑﻪ ﺁﻥ ﺑﺮﺳﯿﻢ .ﺍﺯﻧﻈﺮﺷﻬﻮﺩﯼ ﻫﺮﭼﻘﺪﺭﮐﻪ ﭘﯿﺸﺎﻣﺪﯼ ﮐﻪ ﺑﻮﻗﻮﻉ ﭘﯿﻮﺳﺘﻪ ﺍﺳﺖ ﻣﺤﺘﻤﻞ ﺗﺮ ﺑﻮﺩﻩ ﺑﺎﺷﺪ
ﺍﻃﻼﻋﯽ ﮐﻪ ﻣﺎﮐﺴﺐ ﮐﺮﺩﻩ ﺍﯾﻢ ﮐﻤﺘﺮ ﻭﻫﺮﭼﻘﺪﺭﮐﻪ ﺁﻥ ﭘﯿﺸﺎﻣﺪ ﺩﻭﺭﺍﺯﺍﻧﺘﻈﺎﺭﺑﻮﺩﻩ ﺑﺎﺷﺪ ﺗﻌﺠﺐ ﻣﺎﺍﺯ ﻭﻗﻮﻉ ﺁﻥ ﺑﯿﺸﺘﺮ ﻭ ﺍﻃﻼﻋﯽ ﮐﻪ ﻣﺎﮐﺴﺐ
ﮐﺮﺩﻩ ﺍﯾﻢ ﺑﯿﺸﺘﺮ ﺧﻮﺍﻫﺪ ﺑﻮﺩ .ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﮔﺮ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﺧﻮﺩﺍﺯ ﻭﻗﻮﻉ ﭘﯿﺸﺎﻣﺪ xiﺭﺍ ﺑﺎ hiﻧﺸﺎﻥ ﺩﻫﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﮕﻮﯾﯿﻢ ﮐﻪ hiﻣﯽ
۲
ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﺁﺯﻣﺎﯾﺶ ﻣﺮﮐﺐ ﺍﺯ ﺩﻭﻭﺍﻗﻌﻪ ﻣﺴﺘﻘﻞ ) (X, Yﺷﻮﺩ ﮐﻪ ﻧﺘﺎﯾﺞ ﻣﻤﮑﻦ ﺁﻥ ﺭﺍ ﺑﺎ ﺯ ﻭﺝ ﻫﺎﯼ = {(xi , yj ), i
} 1 · · · m, j = 1 · · · nﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ .ﻫﺮﮔﺎﻩ ﺍﺣﺘﻤﺎﻝ ﻭﻗﻮﻉ xiﺭﺍ ﺑﺎ piﻭﺍﺣﺘﻤﺎﻝ ﻭﻗﻮﻉ yjﺭﺍ ﺑﺎ qjﻧﺸﺎﻥ ﺩﻫﯿﻢ ﺍﺣﺘﻤﺎﻝ ﻫﺮ ﭘﯿﺸﺎﻣﺪ
) (xi , yjﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ pi qjﻭﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﯽ ﮐﻪ ﺍﺯ ﻭﻗﻮﻉ ﺍﯾﻦ ﭘﯿﺸﺎﻣﺪ ﮐﺴﺐ ﻣﯽ ﮐﻨﯿﻢ ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ ) .h(pi qjﺍﻧﺘﻈﺎﺭﺩﺍﺭ ﯾﻢ
ﮐﻪ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﻣﺎ ﺩﺭﺍﯾﻦ ﻣﻮﺭﺩ ﮐﻪ ﺩﻭﭘﯿﺸﺎﻣﺪ ﻣﺴﺘﻘﻞ xiﻭ yjﺭﺥ ﺩﺍﺩﻩ ﺍﻧﺪ ﺑﺮﺍﺑﺮﺑﺎ ﻣﺠﻤﻮﻉ ﺍﻃﻼﻋﺎﺗﯽ ﺑﺎﺷﺪ ﮐﻪ ﺍﺯ ﻭﻗﻮﻉ ﭘﯿﺸﺎﻣﺪ xi
ﺗﻨﻬﺎﺗﺎﺑﻌﯽ ﮐﻪ ﺷﺮﻁ ﻓﻮﻕ ﺭﺍﺑﺮﺁﻭﺭﺩﻩ ﮐﻨﺪ ﻭ ﺿﻤﻨﺎً ﻧﺰ ﻭﻟﯽ ﺑﺎﺷﺪ ،ﺗﺎﺑﻊ ﻟﮕﺎﺭ ﯾﺘﻢ ﺍﺳﺖ ﺑﻨﺎﺑﺮﺍﯾﻦ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ:
1
h(pi ) = logα , )(۵
pi
ﮐﻪ ﺩﺭﺁﻥ αﺛﺎﺑﺖ ﺍﺳﺖ .ﺛﺎﺑﺖ αﺭﺍﻣﯽ ﺗﻮﺍﻥ ﺑﺎ ﺷﺮﻁ ﺑﻬﻨﺠﺎﺭﺵ ﺗﻌﯿﯿﻦ ﮐﺮﺩ .ﻗﺮﺍﺭﻣﯽ ﻧﻬﯿﻢ ﮐﻪ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﮐﺴﺐ ﺷﺪﻩ ﻣﺎ ﺍﺯ ﻭﻗﻮﻉ
ﯾﮏ ﭘﺪﯾﺪﻩٔ ﺩﻭﺣﺎﻟﺘﻪ ﻣﺘﺴﺎﻭﯼ ﺍﻻﺣﺘﻤﺎﻝ ﺑﺮﺍﺑﺮﺑﺎﯾﮏ ﺑﺎﺷﺪ ،ﯾﻌﻨﯽ .h(1/2) = 1ﺩﺭﻧﺘﯿﺠﻪ ﻣﯿﺰﺍﻥ ﺛﺎﺑﺖ αﺑﺮﺍﺑﺮﻣﯽ ﺷﻮﺩ ﺑﺎ .۲
ﺍﮔﺮ ﯾﮏ ﺁﺯﻣﺎﯾﺶ Xﺭﺍ Nﺑﺎﺭﺍﻧﺠﺎﻡ ﺩﻫﯿﻢ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ N piﺑﺎﺭﻧﺘﯿﺠﻪ xiﺭﺥ ﺧﻮﺍﻫﺪ ﺩﺍﺩ ﻭ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﻋﯽ ﮐﻪ ﺩﺭﻫﺮﺑﺎﺭﮐﺴﺐ
ﻣﯽ ﮐﻨﯿﻢ ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ ) .log2 ( p1iﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﯽ ﮐﻪ ﻣﺎ ﺑﻪ ﻃﻮﺭﻣﺘﻮﺳﻂ ﺍﺯ ﻭﻗﻮﻉ ﻧﺘﺎﯾﺞ ﺁﺯﻣﺎﯾﺶ ﺗﺼﺎﺩﻓﯽ Xﮐﺴﺐ ﻣﯽ ﮐﻨﯿﻢ
∑ 1 ∑
H(X) = − N p(x) log2 p(x) = − p(x) log2 p(x). )(۶
N x x
nﺗﻤﺮ ﯾﻦ :ﺑﺎ ﻣﺮﺍﺟﻌﻪ ﺑﻪ ﮔﻮﮔﻞ ،ﻓﺮﮐﺎﻧﺲ ﺣﺮ ﻭﻑ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﭘﯿﺪﺍ ﮐﺮﺩﻩ ﻭ ﺳﭙﺲ ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﺭﺍ ﺑﺮﺍﯼ ﺁﻥ ﭘﯿﺪﺍ ﮐﻨﯿﺪ.
۳
ﺍﻃﻼﻋﺎﺕ ﺩﻭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ۲.۲
ﻫﺮﮔﺎﻩ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ) (X, Yﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ ﮐﻪ ﻟﺰ ﻭﻣﺎً ﺍﺯﻫﻢ ﻣﺴﺘﻘﻞ ﻧﺒﺎﺷﻨﺪ ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﯾﺎ ﺍﻃﻼﻋﺎﺕ ﺑﻪ ﻃﻮﺭﻃﺒﯿﻌﯽ ﺑﻪ ﺷﮑﻞ
ﺯﯾﺮﺗﻌﺮ ﯾﻒ ﻣﯽ ﺷﻮﺩ:
∑
H(X, Y ) := − )p(x, y) log2 p(x, y )(۷
x,y
ﺩﺭﺣﺎﻟﺘﯽ ﮐﻪ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ ﯾﻌﻨﯽ ) ،p(x, y) = p(x)q(yﺭﺍﺑﻄﻪ ﺑﺎﻻﺑﺪﺳﺖ ﻣﯽ ﺩﻫﺪ ﮐﻪ H(X, Y ) = H(X) +
) .H(Y
ﺍﯾﻦ ﺗﻌﺮ ﯾﻒ ﺑﻪ ﻫﻤﯿﻦ ﺷﮑﻞ ﺑﻪ ﺑﯿﺶ ﺍﺯ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﺗﻌﻤﯿﻢ ﻣﯽ ﯾﺎﺑﺪ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎ ﮐﻪ ﺗﻌﺮ ﯾﻒ ﻣﯽ ﮐﻨﯿﻢ:
∑
H(X, Y, Z) = − p(x, y, z) log2 p(x, y, z). )(۸
x,y,z
ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ X, Yﮐﻪ ﺑﺎﺗﻮﺯﯾﻊ ﺁﻧﻬﺎﺑﺎ ﺗﺎﺑﻊ ) P (x, yﻣﺸﺨﺺ ﻣﯽ ﺷﻮﺩ ﺩﺭﻧﻈﺮ ﻣﯽ ﮔﯿﺮ ﯾﻢ .ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﻘﺪﺍﺭ ﯾﮑﯽ ﺍﺯ ﻣﺘﻐﯿﺮﻫﺎﯼ
ﺗﺼﺎﺩﻓﯽ ﻣﺜﻞ Yﺭﺍ ﻣﯽ ﺩﺍﻧﯿﻢ ﻭ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ .yﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻮﺯﯾﻊ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ Xﻋﻮﺽ ﺧﻮﺍﻫﺪ ﺷﺪ ﻭﺗﺒﺪﯾﻞ ﺧﻮﺍﻫﺪ
ﺷﺪ ﺑﻪ ﺗﻮﺯﯾﻊ ) P (X|yﮐﻪ ﺩﺭﺁﻥ yﯾﮏ ﭘﺎﺭﺍﻣﺘﺮﺍﺳﺖ ﻭ Xﻣﻘﺎﺩﯾﺮﻣﺘﻐﯿﺮ ﺭﺍ ﺑﺨﻮﺩ ﻣﯽ ﮔﯿﺮﺩ .ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ:
ﺍﮔﺮﺑﺨﻮﺍﻫﯿﻢ ﺑﺪﺍﻧﯿﻢ ﮐﻪ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺩﺍﻧﺴﺘﻦ ﯾﮏ ﻣﻘﺪﺍﺭ ﺍﺯ Yﭼﻪ ﻣﻘﺪﺍﺭ ﺍﻃﻼﻋﺎﺕ ﺩﺭ Xﺑﺎﻗﯽ ﻣﯽ ﮔﺬﺍﺭﺩ ﺑﺎﯾﺪ ﺭ ﻭﯼ ) H(X|yj
۴
∑ ∑ )P (x, y
= − P (x, y) log2 P (x|y) = − P (x, y) log2
x,y x,y
)P (y
= H(X, Y ) − H(Y ). )(۱۱
ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺑﻪ ﻫﻤﺎﻥ ﺩﻟﯿﻠﯽ ﮐﻪ ﺗﺎﺑﻊ ) H(Xﻣﺜﺒﺖ ﺍﺳﺖ ﺗﺎﺑﻊ ) H(X|yﻭﺩﺭﻧﺘﯿﺠﻪ ﺗﺎﺑﻊ ) H(X|Yﻧﯿﺰﻣﺜﺒﺖ ﺧﻮﺍﻫﻨﺪ ﺑﻮﺩ.
) H(X|Yﺭﺍ ﺍﻃﻼﻋﺎﺕ Xﻣﺸﺮ ﻭﻁ ﺑﻪ Yﻣﯽ ﺧﻮﺍﻧﯿﻢ ﻭ ﺍﯾﻦ ﮐﻤﯿﺖ ﺑﯿﺎﻥ ﮐﻨﻨﺪﻩ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﺎﺕ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺩﺭ Xﺍﺳﺖ ﻫﺮﮔﺎﻩ ﻣﺎ ﻣﻘﺎﺩﯾﺮ
Yﺭﺍ ﺩﺍﻧﺴﺘﻪ ﺑﺎﺷﯿﻢ .ﺑﺎﯾﺪ ﺗﻮﺟﻪ ﺩﺍﺷﺖ ﮐﻪ ﺍﯾﻦ ﺗﺎﺑﻊ ﻣﺘﻘﺎﺭﻥ ﻧﯿﺴﺖ ﯾﻌﻨﯽ ).H(X|Y ) ̸= H(Y |X
ﺍﮔﺮ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ X, Yﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ ﺁﻧﮕﺎﻩ ﺩﺍﻧﺴﺘﻦ Yﻫﯿﭻ ﺗﺎﺛﯿﺮﯼ ﺩﺭﺍﻃﻼﻋﺎﺕ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺩﺭ Xﻧﺨﻮﺍﻫﺪ ﺩﺍﺷﺖ ﻭ ﺩﺭﻧﺘﯿﺠﻪ
ﺑﺎﻟﻌﮑﺲ ﻫﺮﮔﺎﻩ Xﻭ Yﮐﺎﻣﻼً ﺑﻪ ﻫﻢ ﻭﺍﺑﺴﺘﻪ ﺑﺎﺷﻨﺪ ﺍﻧﺘﻈﺎﺭﺩﺍﺭ ﯾﻢ ﮐﻪ ﺩﺍﻧﺴﺘﻦ Yﺑﺮﺍﯼ ﺩﺍﻧﺴﺘﻦ Xﻧﯿﺰﮐﻔﺎﯾﺖ ﮐﻨﺪ ﯾﻌﻨﯽ ﻫﯿﭻ ﺍﻃﻼﻋﯽ
ﺩﺭ Xﺑﺎﻗﯽ ﻧﮕﺬﺍﺭﺩ ﯾﻌﻨﯽ H(X|Y ) = 0ﮐﻪ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺭﺍﺑﻄﻪ ) (12ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ) . H(X, Y ) = H(Yﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻧﯿﺰ ﻣﻌﻨﺎﯼ
ﺍﯾﻦ ﮐﻤﯿﺖ ﻧﺴﺒﺖ ﺑﻪ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ Xﻭ Yﻣﺘﻘﺎﺭﻥ ﺍﺳﺖ .ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺭﺍﺑﻄﻪ ) (12ﻣﯽ ﺗﻮﺍﻥ ﺁﻥ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺑﺎﺯﻧﻮﯾﺴﯽ ﮐﺮﺩ:
ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻣﻌﺮﻑ ﭼﻪ ﭼﯿﺰﯼ ﺍﺳﺖ ؟ ﻗﺒﻞ ﺍﺯﺁﻧﮑﻪ ﻣﻘﺪﺍﺭ Yﺭﺍ ﺑﺪﺍﻧﯿﻢ ،ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭ Xﺑﺎ ) H(Xﺳﻨﺠﯿﺪﻩ ﻣﯽ ﺷﺪ .ﺑﺎﺩﺍﻧﺴﺘﻦ
Yﺍﯾﻦ ﺍﻃﻼﻋﺎﺕ ﺑﻪ ) H(X|Yﺗﻘﻠﯿﻞ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ .ﺑﻨﺎﺑﺮﺍﯾﻦ ﺗﻔﺎﻭﺕ ﺍﯾﻦ ﺩﻭ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﯽ ﺍﺳﺖ ﮐﻪ Yﺩﺭﺑﺎﺭﻩ Xﺣﻤﻞ ﻣﯽ ﮐﻨﺪ.
۵
ﺑﻌﺪﺍً ﻧﺸﺎﻥ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺩ ﮐﻪ ) I(X : Yﯾﮏ ﮐﻤﯿﺖ ﻧﺎﻣﻨﻔﯽ ﺍﺳﺖ.
nﻣﺜﺎﻝ :ﻣﻨﺒﻊ
ﺭﺍ ﮐﻪ ﺩﺭﺁﻥ ﺍﻋﺪﺍﺩ ﺩﺍﺧﻞ ﭘﺮﺍﻧﺘﺰ ﺍﺣﺘﻤﺎﻻﺕ ﺭﺷﺘﻪ ﻫﺎ ﺭﺍﻧﺸﺎﻥ ﻣﯽ ﺩﻫﻨﺪ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ .ﺑﺮﺍﯼ ﺍﯾﻦ ﻣﻨﺒﻊ ﺩﺍﺭ ﯾﻢ H(X) = 1ﻣﯽ
ﺩﺭﻫﺮﺩﻭﺻﻮﺭﺕ ﺟﻮﺍﺏ ﺁﺭﯼ ﯾﺎ ﺧﯿﺮ ﻣﺎ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩﻧﻈﺮﯼ ﮐﻪ ﺳﻮﺍﻝ ﮐﻨﻨﺪﻩ ﺩﺭﻧﻈﺮﮔﺮﻓﺘﻪ ﺍﺳﺖ ﭘﯽ ﻣﯽ ﺑﺮ ﯾﻢ .ﯾﻌﻨﯽ ﯾﮏ ﺳﻮﺍﻝ
۶
ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺎ ﺩﻭﺳﻮﺍﻝ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮﻣﯽ ﺭﺳﯿﻢ ﻭ ) H(Xﻧﯿﺰﺑﺮﺍﺑﺮﺑﺎ ۲ﺍﺳﺖ.
ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺍﺯ ﻗﺒﻞ ﮐﺴﯽ ﺑﻪ ﻣﺎ ﮔﻔﺘﻪ ﺍﺳﺖ ﮐﻪ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺍﯾﻦ ﺭﺷﺘﻪ ﺑﺮﺍﺑﺮ ﺑﺎ 1ﺍﺳﺖ .ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺩﺍﻧﯿﻢ
ﮐﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﯾﮑﯽ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎﯼ } {001, 111ﺍﺳﺖ .ﺍﮐﻨﻮﻥ ﺑﺎ ﺩﺍﻧﺴﺘﻦ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﮐﻪ ﺁﻥ ﺭﺍ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ
ﻣﺜﻞ Yﺩﺭ ﻧﻈﺮ ﻣﯽ ﮔﯿﺮ ﯾﻢ ،ﮐﺎﻓﯽ ﺍﺳﺖ ﮐﻪ ﺑﺎ ﭘﺮﺳﯿﺪﻥ ﺗﻨﻬﺎ ﯾﮏ ﺳﻮﺍﻝ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺩﺳﺖ ﭘﯿﺪﺍ ﮐﻨﯿﻢ .ﺩﺭ ﻭﺍﻗﻊ ﺩﺍﺭ ﯾﻢ
ﯾﻌﻨﯽ ﻭﻗﺘﯽ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺗﻌﯿﯿﻦ ﻣﯽ ﺷﻮﺩ ،ﺍﻃﻼﻋﺎﺕ ﻻﺯﻡ )ﺗﻌﺪﺍﺩ ﺳﻮﺍﻝ ﻫﺎﯼ ﻻﺯﻡ( ﺑﺮﺍﯼ ﺭﺳﯿﺪﻥ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺍﺯ ۲
ﺑﻪ ۱ﺗﻘﻠﯿﻞ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ .ﺑﻪ ﺍﯾﻦ ﺩﻟﯿﻞ ﻣﯽ ﮔﻮﯾﯿﻢ ﮐﻪ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ � � ،ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ
ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﺩﺍﻧﺴﺘﻦ ﯾﮏ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ﯾﮏ ﺑﯿﺖ ﺩﺭ ﻣﻮﺭﺩ ﮐﻞ ﺭﺷﺘﻪ ﺑﻪ ﻣﺎ ﺍﻃﻼﻉ ﺩﺍﺩﻩ ﺍﺳﺖ .ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ
ﮐﻪ ﮐﺴﯽ ﺑﻪ ﻣﺎ ﺩﻭ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺭﺍ ﺑﮕﻮﯾﺪ .ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺑﯿﻨﯿﻢ ﮐﻪ ﮐﻞ ﺭﺷﺘﻪ ﺑﻪ ﻃﻮﺭ ﮐﺎﻣﻞ ﺗﻌﯿﯿﻦ ﻣﯽ ﺷﻮﺩ ﻭ ﺳﻮﺍﻟﯽ
)(۱۹
H(X|00) = 0, H(X|01) = 0, H(X|10) = 0, H(X|11) = 0 −→ H(X|Y ) = 0
ﺩﺭ ﺍﯾﻦ ﺟﺎ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺑﯿﻦ ﺩﻭ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﻭ ﮐﻞ ﺭﺷﺘﻪ ﺯﯾﺎﺩ ﻭ ﺑﺮﺍﺑﺮ ﺑﺎ ۲ﺑﯿﺖ ﺍﺳﺖ.
۷
ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺗﻮﺍﺑﻊ ﺍﻃﻼﻋﺎﺕ ۳
ﺩﺭﺍﯾﻦ ﺑﺨﺶ ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺗﻮﺍﺑﻊ ﺍﻃﻼﻋﺎﺕ ﺭﺍ ﺑﺮ ﺭﺳﯽ ﻣﯽ ﮐﻨﯿﻢ .ﺗﻘﺮ ﯾﺒﺎً ﻫﻤﻪ ﺍﯾﻦ ﺧﻮﺍﺹ ﺍﺯ ﯾﮏ ﻗﻀﯿﻪ ﺳﺎﺩﻩ ﻭﻟﯽ ﻣﻬﻢ ﺑﺪﺳﺖ ﻣﯽ
ﺁﯾﻨﺪ.
nﻗﻀﯿﻪ :ﺗﺎﺑﻊ ﺍﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ﺩﺭ ﺭﺍﺑﻄﻪ ﺯﯾﺮ ﺻﺪﻕ ﻣﯽ ﮐﻨﺪ ﮐﻪ ﺩﺭ ﺁﻥ qﻫﺮ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺩﻟﺨﻮﺍﻫﯽ ﺍ ﺳﺖ:
∑
H(X) ≤ − p(x) log2 q(x). )(۲۱
x
ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ ﺩﻭ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﯾﮑﯽ ﺑﺎﺷﻨﺪ.
nﺍﺛﺒﺎﺕ :ﺑﺎﺭﺳﻢ ﮐﺮﺩﻥ ﺗﺎﺑﻊ ﻟﮕﺎﺭ ﯾﺘﻢ ﻭ ﺗﺎﺑﻊ ،x − 1ﻣﯽ ﺗﻮﺍﻥ ﻧﺸﺎﻥ ﺩﺍﺩ ﮐﻪ ﺗﺎﺑﻊ ﻟﮕﺎﺭ ﯾﺘﻢ ﺩﺭﺧﺎﺻﯿﺖ ﺯﯾﺮﺻﺪﻕ ﻣﯽ ﮐﻨﺪ:
)q(x
= xﻭ ﺩﺭﻧﺘﯿﺠﻪ )p(x ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﺑﺮﺍﯼ x = 1ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ .ﺣﺎﻝ ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ
)q(x) q(x
log ln − 1, ∀ x, )(۲۳
)p(x) p(x
ﮐﻪ ﻫﻤﺎﻥ ﻧﺎﻣﺴﺎﻭﯼ ﺍﯼ ﺍﺳﺖ ﮐﻪ ﻣﯽ ﺧﻮﺍﺳﺘﯿﻢ ﺛﺎﺑﺖ ﮐﻨﯿﻢ .ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﻧﺎﻣﺴﺎﻭﯼ ) (۲۲ﻓﻘﻂ ﺑﺮﺍﯼ ) ln(xﺩﺭﺳﺖ ﺍﺳﺖ ﻭ
ﻧﻪ ﺑﺮﺍﯼ ﻟﮕﺎﺭ ﯾﺘﻢ ﺩﺭ ﭘﺎﯾﻪ .۲ﻭﻟﯽ ﭘﺲ ﺍﺯ ﺑﺪﺳﺖ ﺁﻭﺭﺩﻥ ﺭﺍﺑﻄﻪ ) (۲۴ﻣﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻃﺮﻓﯿﻦ ﺁﻥ ﺭﺍ ﺩﺭ ﻫﺮ ﻋﺪﺩﯼ ﺿﺮﺏ ﮐﻨﯿﻢ ﻭ
ﺭﺍﺑﻄﻪ ﺍﯼ ﺑﺪﺳﺖ ﺁﻭﺭ ﯾﻢ ﮐﻪ ﺩﺭ ﻫﺮ ﭘﺎﯾﻪ ﺍﯼ ﺑﺮﺍﯼ ﻟﮕﺎﺭ ﯾﺘﻢ ﺻﺤﯿﺢ ﺍﺳﺖ .ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ
∑ )q(x
p(x) log = 0. )(۲۵
x
)p(x
۸
ﺍﯾﻦ ﺗﺴﺎﻭﯼ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺑﺎﺯﻧﻮﯾﺴﯽ ﻣﯽ ﮐﻨﯿﻢ
ﺣﺎﻝ ﺩﻗﺖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺑﻨﺎﺑﺮﻧﺎﻣﺴﺎﻭﯼ ) (23ﺟﻤﻼﺕ ﺩﺍﺧﻞ ﭘﺮﺍﻧﺘﺰ ﻫﻤﮕﯽ ﮐﻮﭼﮏ ﺗﺮﺍﺯ ﯾﺎ ﻣﺴﺎﻭﯼ ﺑﺎﺻﻔﺮ ﻫﺴﺘﻨﺪ .ﺻﻔﺮﺷﺪﻥ
ﺍﯾﻦ ﺟﻤﻊ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﻫﻤﻪ ﺍﯾﻦ ﺟﻤﻼﺕ ﺑﺮﺍﺑﺮﺑﺎﺻﻔﺮﻫﺴﺘﻨﺪ ﮐﻪ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﻧﺎﻣﺴﺎﻭﯼ ) (22ﺑﻪ ﻣﻌﻨﺎﯼ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺑﺮﺍﯼ
∑M
= Hﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ log Mﻭﺍﯾﻦ ﻣﻘﺪﺍﺭﺑﯿﺸﯿﻨﻪ ﻓﻘﻂ ﺑﺮﺍﯼ ﺗﻮﺯﯾﻊ x=1 p(x) log 1
)p(x nﻧﺘﯿﺠﻪ : ۱ﻣﻘﺪﺍﺭ ﺑﯿﺸﯿﻨﻪ ﺗﺎﺑﻊ ﺍﻃﻼﻋﺎﺕ
∑
M 1
p(x) log M
= H − log M ≤ 0, )(۲۷
x=1
px
1
= ).p(x M ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ
ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ X, Yﻣﺘﻐﯿﺮﻫﺎﯼ ﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ.
nﺍﺛﺒﺎﺕ :ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺩﻭﻣﺘﻐﯿﺮ ﺭﺍ ﺑﺎ ) p(x, yﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ .ﺩﺭﻧﺘﯿﺠﻪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ:
∑ ∑
=p1 (x) : p(x, y), =p2 (y) : p(x, y). )(۲۹
y x
۹
ﺣﺎﻝ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ) q(x, y) := p1 (x)p2 (yﺭﺍﺩﺭﻧﻈﺮﻣﯽ ﮔﯿﺮ ﯾﻢ ﻭﺍﺯ ﻗﻀﯿﻪ ﺍﯼ ﮐﻪ ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ :
ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ ) .p(x, y) = q(x, y) = p1 (x)p2 (yﺍﻣﺎ ﻧﺎﻣﺴﺎﻭﯼ ﺑﺎﻻ ﺭﺍﻭﻗﺘﯽ ﺑﺎﺯﻧﻮﯾﺴﯽ ﮐﻨﯿﻢ
ﺍﯾﻦ ﻧﺎﻣﺴﺎﻭﯼ ﺩﺭ ﻭﺍﻗﻊ ﺑﯿﺎﻥ ﻣﯽ ﮐﻨﺪ ﮐﻪ ﺩﺍﻧﺴﺘﻦ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺩﯾﮕﺮ ﻣﺜﻞ Yﻫﻤﻮﺍﺭﻩ ﺍﺯ ﺍﻧﺘﺮ ﻭﭘﯽ ﻣﻮﺟﻮﺩ ﺩﺭ ﻣﺘﻐﯿﺮ Xﮐﻢ ﻣﯽ ﮐﻨﺪ
) ﭼﯿﺰﯼ ﺩﺭ ﺑﺎﺭﻩ ﺁﻥ ﺑﻪ ﻣﺎ ﻣﯽ ﮔﻮﯾﺪ ﻭ ﺍﻃﻼﻋﺎﺕ ﻣﺎ ﺭﺍ ﺁﻓﺰﺍﯾﺶ ﻣﯽ ﺩﻫﺪ( .ﺍﮔﺮ ﺑﺨﻮﺍﻫﯿﻢ ﺍﺯ ﺯﺑﺎﻥ ﺯﻧﺪﮔﯽ ﺭ ﻭﺯﻣﺮﻩ ﮐﻤﮏ ﺑﮕﯿﺮ ﯾﻢ ﻣﯽ
ﺗﻮﺍﻧﯿﻢ ﺑﮕﻮﯾﯿﻢ ﮐﻪ ﻣﻌﻨﺎﯼ ﻧﺎﻣﺴﺎﻭﯼ ) (۳۱ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ :ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭﺟﻤﻠﻪ » ﻓﺮﺩﺍ ﻫﻮﺍﺍﺑﺮﯼ ﺍﺳﺖ ﻭﺑﺎﺭﺍﻥ ﻣﯽ
ﺑﺎﺭﺩ« ﮐﻤﺘﺮﺍﺯﻣﺠﻤﻮﻉ ﺍﻃﻼﻋﺎﺗﯽ ﺍﺳﺖ ﮐﻪ ﺩﺭﺩﻭﺟﻤﻠﻪ » ﻓﺮﺩﺍﻫﻮﺍ ﺍﺑﺮﯼ ﺍﺳﺖ« ﻭ » ﻓﺮﺩﺍ ﻫﻮﺍﺑﺎﺭﺍﻧﯽ ﺍﺳﺖ « ﻣﯽ ﺑﺎﺷﺪ .ﺩﻟﯿﻞ ﺍﯾﻦ ﺍﻣﺮ ﺁﻥ
ﺍﺳﺖ ﮐﻪ ﻣﻌﻤﻮﻻً ﺑﯿﻦ ﺍﺑﺮﯼ ﺑﻮﺩﻥ ﻫﻮﺍ ﻭ ﺑﺎﺭﺍﻧﯽ ﺑﻮﺩﻥ ﺁﻥ ﯾﮏ ﻫﻤﺒﺴﺘﮕﯽ ﻭﺟﻮﺩ ﺩﺍﺭﺩ ﮐﻪ ﺑﻪ ﻣﺎ ﺍﺟﺎﺯﻩ ﻣﯽ ﺩﻫﺪ ﺍﺯ ﺍﻭﻟﯽ ﺑﺘﻮﺍﻧﯿﻢ ﻭﺟﻮﺩ
ﺩﻭﻣﯽ ﺭﺍ ﺣﺪﺱ ﺑﺰﻧﯿﻢ .ﺑﻨﺎﺑﺮﺍﯾﻦ ﮐﺴﯽ ﮐﻪ ﻫﺮ ﺩﻭ ﺟﻤﻠﻪ ﺭﺍ ﺑﻪ ﻣﺎ ﻣﯽ ﮔﻮﯾﺪ ﺩﻭﺑﺮﺍﺑﺮﮐﺴﯽ ﮐﻪ ﻓﻘﻂ ﯾﮑﯽ ﺍﺯﺟﻤﻼﺕ ﺭﺍ ﺑﻪ ﻣﺎ ﻣﯽ ﮔﻮﯾﺪ ﺑﻪ
ﻣﺎ ﺍﻃﻼﻉ ﻧﻤﯽ ﺩﻫﺪ .ﺍﯾﻦ ﻣﺜﺎﻝ ﻃﺒﯿﻌﺘﺎ ﯾﮏ ﻣﺜﺎﻝ ﮐﻼﻣﯽ ﺍﺳﺖ ﻭ ﮐﻤﯽ ﻧﯿﺴﺖ.
nﻧﺘﯿﺠﻪ :۳ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﯾﮏ ﮐﻤﯿﺖ ﻧﺎﻣﻨﻔﯽ ﺍﺳﺖ .ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﺍﺯﺗﻌﺮ ﯾﻒ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﻭ ﻧﺘﯿﺠﻪ ۲ﺑﺪﺳﺖ ﻣﯽ ﺁﯾﺪ.
nﺗﻤﺮ ﯾﻦ :ﺍﺣﺘﻤﺎﻻﺕ ﻧﺴﺒﯽ ﺩﻭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﻣﻄﺎﺑﻖ ﺑﺎ ﺟﺪﻭﻝ ﺯﯾﺮ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ :ﻣﻨﻈﻮﺭ ﺍﺯ ﺍﺣﺘﻤﺎﻝ ﻧﺴﺒﯽ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺑﺮﺍﯼ
ﺑﺪﺳﺖ ﺁﻭﺭﺩﻥ ﺍﺣﺘﻤﺎﻝ ﻣﯽ ﺑﺎﯾﺴﺖ ﺍﻋﺪﺍﺩ ﺩﺭ ﻭﻥ ﺟﺪﻭﻝ ﺭﺍ ﺑﻬﻨﺠﺎﺭ ﮐﻨﯿﺪ ﻃﻮﺭﯼ ﮐﻪ ﻣﺠﻤﻮﻉ ﺗﻤﺎﻡ ﺍﺣﺘﻤﺎﻻﺕ ﺑﺮﺍﺑﺮ ﺑﺎ ﯾﮏ ﺷﻮﺩ.
۱۰
)p(x, y y1 y2 y3 y4 y5 y6
ﺏ :ﺗﺎﺑﻊ ﻫﺎﯼ ﺁﻧﺘﺮ ﻭﭘﯽ ) H(X|Y ) ،H(Y )، H(Xﻭ ) H(Y |Xﺭﺍ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ.
nﺗﻤﺮ ﯾﻦ :ﻣﺜﺎﻟﯽ ﺍﺯ ﯾﮏ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ) P (x, yﺍﺭﺍﺋﻪ ﺩﻫﯿﺪ ﮐﻪ ﺑﺮﺍﯼ ﺑﻌﻀﯽ ﺍﺯ ﻣﻘﺎﺩﯾﺮ ﻣﺘﻐﯿﺮﻫﺎ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢP (x | y) ≤ :
nﻗﻀﯿﻪ :ﺍﻃﻼﻋﺎﺕ ﺗﺎﺑﻊ ﻣﺤﺪﺑﯽ ﺍﺯ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺍﺳﺖ .ﺑﻪ ﻋﺒﺎﺭﺕ ﺩﯾﮕﺮ ﺍﮔﺮ P1ﻭ P2ﺩﻭﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﻭ = )P0 (x
) λP1 (x) + (1 − λ)P2 (xﺗﺮﮐﯿﺐ ﺧﻄﯽ ﻣﺤﺪﺏ ﺁﻧﻬﺎ ﺑﺎﺷﺪ ﺁﻧﮕﺎﻩ
ﺑﻪ ﺍﺻﻄﻼﺡ ﻣﯽ ﮔﻮﯾﯿﻢ ﮐﻪ ﺍﻃﻼﻋﺎﺕ ﯾﮏ ﺗﺎﺑﻊ ﻣﺤﺪﺏ ﺭ ﻭﺑﻪ ﭘﺎﯾﯿﻦ ﺍﺳﺖ ﮐﻪ ﺑﻪ ﯾﺎﺩﻣﺎﻧﺪﻥ ﺷﮑﻞ ﺁﻥ ﺭﺍ ﻧﯿﺰﺩﺭﺫﻫﻦ ﺁﺳﺎﻥ ﻣﯽ
ﮐﻨﺪ.
nﺍﺛﺒﺎﺕ :ﺑﺎﺯﻫﻢ ﺍﺯﻧﺎﻣﺴﺎﻭﯼ ﺍﺳﺎﺳﯽ ﺍﯼ ﮐﻪ ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ .ﺑﺎﮐﻤﯽ ﺧﻼﺻﻪ ﻧﻮﯾﺴﯽ ﺩﺭﻧﻤﺎﺩﻫﺎ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ:
۱۱
∑ 1 ∑ 1 ∑ 1
= p0 log −λ p1 log )− (1 − λ p2 log
p0 p1 p2
nﺗﻤﺮ ﯾﻦ :ﺑﺮﺍﯼ ﯾﮏ ﺳﮑﻪ ﮐﻪ ﺩﻭ ﺭ ﻭﯼ ﺁﻥ ﺑﺎ ﺍﻋﺪﺍﺩ 0ﻭ 1ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﻣﯽ ﺷﻮﻧﺪ ،ﺩﻭ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﺩﺭ ﻧﻈﺮ
ﺑﮕﯿﺮ ﯾﺪ:
{P (0) = 1/2, P (1) = 1/2}, , {Q(0) = 1/3, Q(1) = 2/3}. )(۳۵
ﺣﺎﻝ ﺩﺭﺳﺘﯽ ﺭﺍﺑﻄﻪ ﺗﺤﺪﺏ ﺭﺍ ﺑﺮﺍﯼ ﺁﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ﺗﺤﻘﯿﻖ ﮐﻨﯿﺪ.
ﻣﻨﻈﻮﺭﺍﺯ ﯾﮏ ﮐﺎﻧﺎﻝ ﮐﻼﺳﯿﮏ ﻋﻤﻠﮕﺮﯼ ﺍﺳﺖ ﮐﻪ ﯾﮏ ﺁﻧﺰﺍﻣﺒﻞ ﺗﺼﺎﺩﻓﯽ Xﺭﺍ ﺑﻪ ﺁﻧﺰﺍﻣﺒﻞ ﺗﺼﺎﺩﻓﯽ Yﺗﺒﺪﯾﻞ ﻣﯽ ﮐﻨﺪ .ﺑﻬﺘﺮ ﯾﻦ ﻣﺜﺎﻝ
ﺁﻥ ﻫﺮﻧﻮﻉ ﮐﺎﻧﺎﻝ ﻣﺨﺎﺑﺮﺍﺗﯽ ﮐﻼﺳﯿﮏ ﺍﺳﺖ X .ﺭﺍ ﻭﺭ ﻭﺩﯼ ﮐﺎﻧﺎﻝ ﻭ Yﺭﺍﺧﺮ ﻭﺟﯽ ﺁﻥ ﻣﯽ ﻧﺎﻣﯿﻢ .ﯾﮏ ﮐﺎﻧﺎﻝ ﺑﺪﻭﻥ ﻧﻮﻓﻪ ﮐﺎﻧﺎﻟﯽ ﺍﺳﺖ
ﮐﻪ ﺧﺮ ﻭﺟﯽ ﺁﻥ ﺩﻗﯿﻘﺎً ﺑﺎﻭﺭ ﻭﺩﯼ ﺁﻥ ﺑﺮﺍﺑﺮﺍﺳﺖ .ﺑﺠﺰﺍﯾﻦ ﮐﺎﻧﺎﻝ ﺍﯾﺪﻩ ﺁﻝ ﻫﺮﮐﺎﻧﺎﻝ ﺩﯾﮕﺮﯼ ﻋﻼﺋﻢ ﻭﺭ ﻭﺩﯼ xi ∈ Xﺭﺍ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ ﻣﻌﯿﻦ
ِ ) P (yj |xiﺑﻪ ﻋﻼﺋﻢ ﺧﺮ ﻭﺟﯽ yj ∈ Yﺗﺒﺪﯾﻞ ﻣﯽ ﮐﻨﺪ .ﻫﺮﮔﺎﻩﺩﺭﺧﺮ ﻭﺟﯽ ﮐﺎﻧﺎﻝ ﻋﻼﻣﺖ yjﺭﺍﺩﺭ ﯾﺎﻓﺖ ﮐﻨﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺣﺘﻤﺎﻝ ﺷﺮﻃﯽ
ﺍﯾﻦ ﮐﻪ ﭼﻪ ﻋﻼﻣﺖ xiﺍﯼ ﻣﻨﺠﺮﺑﻪ ﺍﯾﻦ ﻋﻼﻣﺖ ﺩﺭﺧﺮ ﻭﺟﯽ ﺷﺪﻩ ﺍﺳﺖ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﻢ .ﺩﺭ ﻭﺍﻗﻊ ﺩﺍﺭ ﯾﻢ:
۱۲
ﺩﺭﺁﺧﺮ ﯾﻦ ﻋﺒﺎﺭﺕ ) P (xiﻣﺸﺨﺼﻪ ﻣﻨﺒﻊ Xﻭ ) P (yj |xiﻣﺸﺨﺼﻪ ﮐﺎﻧﺎﻝ ﺍﺳﺖ ﻭﻫﺮﺩﻭﻣﻌﻠﻮﻡ ﻫﺴﺘﻨﺪ.
nﺗﻤﺮ ﯾﻦ :ﯾﮏ ﮐﺎﻧﺎﻝ ﮐﻼﺳﯿﮏ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﺷﺮﻃﯽ ﺯﯾﺮ ﺗﻮﺻﯿﻒ ﻣﯽ ﺷﻮﺩ:
ﺁﻧﺰﺍﻣﺒﻞ ﺧﺮ ﻭﺟﯽ ﺭﺍ ﭘﯿﺪﺍ ﮐﻨﯿﺪ .ﺳﭙﺲ ﮐﻤﯿﺖ ﻫﺎﯼ ﺯﯾﺮ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﺪ:
H(X), H(Y ), H(X|Y ), H(Y |X), I(Y : X), I(X : Y ). )(۳۹
nﻗﻀﯿﻪ :ﺍﻃﻼﻋﺎﺕ ﭘﺮﺩﺍﺯﺵ ﺷﺪﻩ ﺩﺭ ﯾﮏ ﮐﺎﻧﺎﻝ ) I(X; Yﺗﺎﺑﻊ ﻣﺤﺪﺑﯽ ﺍﺯ ﺍﺣﺘﻤﺎﻻﺕ ﻭﺭ ﻭﺩﯼ ِ Xﺍﺳﺖ.
ﺩﺭ ﯾﮏ ﮐﺎﻧﺎﻝ ﺁﻧﺰﺍﻣﺒﻞ ﻭﺭ ﻭﺩﯼ ﺭﺍ ﺑﺎ Xﻭﺁﻧﺰﺍﻣﺒﻞ ﺧﺮ ﻭﺟﯽ ﺭﺍ ﺑﺎ Yﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ .ﺍﺣﺘﻤﺎﻻﺕ ﺷﺮﻃﯽ ) P (y|xﺩﺭ ﻭﺍﻗﻊ
ﻣﺸﺨﺼﻪ ﮐﺎﻧﺎﻝ ﻫﺴﺘﻨﺪ ﻭ ﺍﺣﺘﻤﺎﻝ ﺗﺒﺪﯾﻞ ﭘﯿﺎﻡ xﺑﻪ yﺭﺍ ﺩﺭﻃﻮﻝ ﮐﺎﻧﺎﻝ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﻨﺪ ﻭﺭﺑﻄﯽ ﺑﻪ ﺍﺣﺘﻤﺎﻝ ﭘﯿﺎﻡ ﻫﺎﯼ ﻭﺭ ﻭﺩﯼ
ﻧﺪﺍﺭﻧﺪ .ﺣﺎﻝ ﻫﺮﮔﺎﻩ ﺑﺮﺍﯼ ﺁﻧﺰﺍﻣﺒﻞ ﻭﺭ ﻭﺩﯼ ﺩﻭ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ) P1 (xﻭ ) P2 (xﻭ ﺟﻤﻊ ﻣﺤﺪﺏ ﺁﻧﻬﺎ ﯾﻌﻨﯽ = )P0 (x
) λP1 (x) + (1 − λ)P2 (xﺭﺍ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﻢ ﺁﻧﮕﺎﻩ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺗﻌﺎﺭ ﯾﻒ ﺯﯾﺮ:
∑
= )P (y P (y|x)P (x),
x
= )P (x, y P (y|x)P (x), )(۴۰
ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ
ﺑﺎﺗﺮﮐﯿﺐ ﺍﯾﻦ ﺭ ﻭﺍﺑﻂ ﺑﺎ ﺗﻌﺮ ﯾﻒ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﻭ ﻫﻢ ﭼﻨﯿﻦ ﻣﺤﺪﺏ ﺑﻮﺩﻥ ﺗﺎﺑﻊ ﺍﻃﻼﻋﺎﺕ ﺍﺛﺒﺎﺕ ﻗﻀﯿﻪ ﮐﺎﻣﻞ ﻣﯽ ﺷﻮﺩ.
۱۳
nﺗﻤﺮ ﯾﻦ :ﺍﯾﻦ ﺍﺛﺒﺎﺕ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﮐﺎﻣﻞ ﺑﻨﻮﯾﺴﯿﺪ.
nﺗﻤﺮ ﯾﻦ :ﯾﮏ ﮐﺎﻧﺎﻝ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ ﮐﻪ ﺑﻪ ﺻﻮﺭﺕ ﺯﯾﺮ ﻋﻤﻞ ﻣﯽ ﮐﻨﺪ:
X0 := {P (0) = 1/2, P (1) = 1/2}, , X1 := {Q(0) = 1/3, Q(1) = 2/3}. )(۴۳
ﺏ :ﻫﺮﮔﺎﻩ ﮐﻪ ﺩﺭ ﻣﻘﺼﺪ ،ﮔﯿﺮﻧﺪﻩ ﺭﺷﺘﻪ ﺧﺮ ﻭﺟﯽ 000ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ ﮐﻨﺪ ﺣﺴﺎﺏ ﮐﻨﯿﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺩﺭ ﻣﺒﺪﺍء ﻫﺮﮐﺪﺍﻡ ﺍﺯ ﺭﺷﺘﻪ
nﺗﻤﺮ ﯾﻦ :ﺟﻔﺖ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ) (X, Yﺭﺍ ﻣﻄﺎﺑﻖ ﺟﺪﻭﻝ ﺯﯾﺮ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﺪ Y :ﻧﺎﺷﯽ ﺍﺯ ﺍﻧﺪﺍﺧﺘﻦ ﯾﮏ ﻃﺎﺱ ﺍﺳﺖ ﮐﻪ ﻣﻘﺎﺩﯾﺮ
۱ﺗﺎ ۶ﺭﺍ ﺑﻪ ﺧﻮﺩ ﻣﯽ ﮔﯿﺮﺩ ﻭ Xﻧﯿﺰ ﺩﻭﻣﻘﺪﺍﺭﻣﺘﻔﺎﻭﺕ ﯾﮏ ﺳﮑﻪ ﺍﺳﺖ ﮐﻪ ﻣﻘﺎﺩﯾﺮ aﯾﺎ bﺭﺍ ﺍﺧﺘﯿﺎﺭﻣﯽ ﮐﻨﺪ.
ﮐﻤﯿﺖ ﻫﺎﯼ ﺯﯾﺮ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﺪ :ﺍﻟﻒ H(Y |X) ، H(X|Y ) ، H(X, Y ) ، H(Y ) ، H(X) :ﻭ ) .I(X; Y
۱۴
ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺍﻃﻼﻋﺎﺕ ﺩﺭﻏﯿﺎﺏ ﻧﻮﻓﻪ ۴
ﺑﻬﺘﺮ ﯾﻦ ﮐﺎﺭﺑﺮﺍﯼ ﻓﻬﻢ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺍﻃﻼﻋﺎﺕ ﻣﻄﺎﻟﻌﻪ ﯾﮏ ﻣﺜﺎﻝ ﺳﺎﺩﻩ ﺍﺳﺖ .ﻓﺮﺽ ﮐﻨﯿﺪﮐﻪ ﻫﺪﻑ ﻣﺎ ﺍﺭﺳﺎﻝ ﻣﺘﻦ ﻫﺎﯾﯽ ﺍﺳﺖ ﮐﻪ
ﺗﻨﻬﺎﺍﺯﭼﻬﺎﺭﺣﺮﻑ ﺍﻟﻔﺒﺎ ﺑﻪ ﻧﺎﻡ ﻫﺎﯼ C, B, Aﻭ Dﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ.ﯾﮏ ﺭ ﻭﺵ ﺑﺮﺍﯼ ﺍﺭﺳﺎﻝ ﺍﯾﻦ ﻣﺘﻦ ﻫﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺣﺮﻑ ﻫﺎﯼ
ﭼﻬﺎﺭﮔﺎﻧﻪ ﻓﻮﻕ ﺭﺍ ﺑﺎ ﺑﯿﺖ ﻫﺎﯼ 0ﻭ 1ﮐﻪ ﺩﺭﻣﺨﺎﺑﺮﺍﺕ ﺩﯾﺠﯿﺘﺎﻝ ﻣﻌﻤﻮﻝ ﺍﺳﺖ ،ﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮ ﮐﺪﮐﻨﯿﻢ .
A −→ 00
B −→ 01
C −→ 10
ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﺣﺮﻑ ﺩﻭﺑﯿﺖ ﻣﺨﺎﺑﺮﻩ ﮐﺮﺩﻩ ﺍﯾﻢ .ﺣﺎﻝ ﺳﻮﺍﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺁﯾﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﯾﮏ ﺭ ﻭﺵ ﮐﺪ ﮐﺮﺩﻥ ﺑﻪ ﮐﺎﺭﺑﺒﺮ ﯾﻢ
ﮐﻪ ﺩﺭﺁﻥ ﻃﻮﻝ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﺣﺮﻑ ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯾﯽ ﮐﻪ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﻣﺨﺎﺑﺮﻩ ﻣﯽ ﮐﻨﯿﻢ ﮐﻤﺘﺮﺍﺯ 2ﺑﺎﺷﺪ؟
ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﺣﺮ ﻭﻑ ﺩﺭﻣﺘﻦ ﻫﺎﯼ ﯾﺎﺩﺷﺪﻩ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ ﺯﯾﺮ ﻇﺎﻫﺮﻣﯽ ﺷﻮﻧﺪ:
D −→ 0
C −→ 10
B −→ 110
ﺩﺭﺍﯾﻦ ﺭ ﻭﺵ ﮐﺪﮔﺬﺍﺭﯼ ﺑﺮﺍﯼ ﺑﻌﻀﯽ ﺍﺯﺣﺮ ﻭﻑ ﺑﯿﺶ ﺍﺯ ﺩﻭﺑﯿﺖ ﺑﻪ ﮐﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ ﻭﻟﯽ ﺍﮔﺮ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﺪﻫﺎﯾﯽ ﺭﺍ ﮐﻪ ﺑﺮﺍﯼ ﺣﺮ ﻭﻑ
ﺑﻪ ﮐﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﻢ ﻧﺘﯿﺠﻪ ﺟﺎﻟﺐ ﺗﻮﺟﻪ ﺧﻮﺍﻫﺪ ﺑﻮﺩ .ﺍﯾﻦ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ:
∑
4
1 1 1 1 7
= ⟩⟨l × li × pi = 1 +2× +3× +3× = . )(۴۸
i=1
2 4 8 8 4
۱۵
ﺑﻨﺎﺑﺮﺍﯾﻦ ﺑﺎ ﯾﮏ ﮐﺪﮔﺬﺍﺭﯼ ﻣﻨﺎﺳﺐ ﺗﻮﺍﻧﺴﺘﻪ ﺍﯾﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺭﺷﺘﻪ ﺑﯿﺖ ﻫﺎﯾﯽ ﺭﺍ ﮐﻪ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﭘﯿﺎﻡ ﺑﮑﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ ﺍﺯ ۲ﺑﻪ ۴/۷
ﺗﻘﻠﯿﻞ ﺩﻫﯿﻢ .ﺿﻤﻨﺎً ﺑﺎﯾﺪ ﺩﻗﺖ ﮐﻨﯿﻢ ﮐﻪ ﺍﯾﻦ ﻧﺤﻮﻩ ﮐﺪﮔﺬﺍﺭﯼ ﻫﯿﭻ ﻧﻮﻉ ﺍﺑﻬﺎﻣﯽ ﺩﺭﺑﺎﺭﻩ ﻣﺘﻨﯽ ﮐﻪ ﻣﺨﺎﺑﺮﻩ ﺷﺪﻩ ﺍﺳﺖ ﺩﺭﺑﺮﻧﺪﺍﺭﺩ ﻭﻫﺮ ﺭﺷﺘﻪ
ﺍﯼ ﺍﺯﺑﯿﺖ ﻫﺎ ﺑﻪ ﻃﻮﺭ ﯾﮑﺘﺎ ﺑﻪ ﻣﺘﻦ ﺍﻭﻟﯿﻪ ﺑﺎﺯﮔﺸﺎﯾﯽ ﻣﯽ ﺷﻮﺩ .ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺭﺷﺘﻪ ﺯﯾﺮ
ﺑﺪﻭﻥ ﺍﺑﻬﺎﻡ ﺑﻪ ﻣﺘﻦ ﺯﯾﺮﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ ﻭﻣﺘﻦ ﺩﯾﮕﺮﯼ ﺑﺮﺍﯼ ﺑﺎﺯﮔﺸﺎﯾﯽ ﺁﻥ ﻗﺎﺑﻞ ﺗﺼﻮﺭ ﻧﯿﺴﺖ
ﺍﯾﻦ ﮐﻪ ﭼﻪ ﻧﻮﻉ ﮐﺪ ﻫﺎﯾﯽ ﯾﮑﺘﺎﮔﺸﺎﻫﺴﺘﻨﺪ ﻣﻮﺿﻮﻋﯽ ﺍﺳﺖ ﮐﻪ ﻣﺎﺩﺭﺩﺭﺳﻬﺎﯼ ﺁﯾﻨﺪﻩ ﺑﻪ ﺁﻥ ﺧﻮﺍﻫﯿﻢ ﭘﺮﺩﺍﺧﺖ ﻭﻓﻌﻼً ﻣﻮﺿﻮﻉ ﺑﺤﺚ
ﻣﺎﻧﯿﺴﺖ .ﻭﻟﯽ ﯾﮏ ﻧﮑﺘﻪﻣﻬﻢ ﺭﺍﺑﺎﯾﺪ ﺫﮐﺮﮐﻨﯿﻢ :ﻫﺮﮔﺎﻩ ﺁﻧﺘﺮ ﻭﭘﯽ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ } X = {A, B, C, Dﺭﺍ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ ﺫﮐﺮﺷﺪﻩ ﺣﺴﺎﺏ
∑
4
1 1 1 1 1
= )H(X )) = × log2 (2) + × log2 (4) + × log2 (8) + × log2 (8
( pi log2
i=1
pi 2 4 8 8
1 1 1 1 7
= ×1+ ×2+ ×3+ ×3= . )(۵۱
2 4 8 8 4
ﺑﻨﺎﺑﺮﺍﯾﻦ ﺩﺭﺍﯾﻦ ﻣﺜﺎﻝ ﺧﺎﺹ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﺪﮔﺰﺍﺭﯼ ﺍﯼ ﮐﻪ ﺑﻪ ﮐﺎﺭﺑﺮﺩﯾﻢ ﺑﺎ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭﻣﺘﻦ ﺑﺮﺍﺑﺮﺍﺳﺖ .ﺁﯾﺎ ﺍﯾﻦ ﯾﮏ
ﺧﺼﻠﺖ ﻋﻤﻮﻣﯽ ﺍﺳﺖ؟ ﺍﺩﺍﻣﻪ ﺍﯾﻦ ﺩﺭﺱ ﻭ ﺿﻤﯿﻤﻪ ﺁﻥ ﭘﺎﺳﺨﯽ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍﻝ ﺭﺍ ﺩﺭ ﺑﺮ ﺩﺍﺭﺩ.
nﺗﻤﺮ ﯾﻦ :ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﺘﻨﯽ ﮐﻪ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺫﺧﯿﺮﻩ ﮐﻨﯿﻢ ﺍﺯ ﻫﻤﺎﻥ ﺍﻟﻔﺒﺎﯼ ﺳﺎﺩﻩ ﭼﻬﺎﺭﺣﺮﻓﯽ ﺑﺎ ﻫﻤﺎﻥ ﺍﺣﺘﻤﺎﻻﺕ ﺗﺸﮑﯿﻞ ﺷﺪﻩ
ﺍﺳﺖ ﺍﻣﺎ ﺍﯾﻦ ﺑﺎﺭ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺣﺮ ﻭﻑ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﺩﻭﺗﺎﯾﯽ ﮐﺪ ﮐﻨﯿﻢ .ﺿﻤﻨﺎ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﺑﯿﻦ ﺣﺮ ﻭﻑ ﯾﮏ ﻫﻤﺒﺴﺘﮕﯽ ﻭﺟﻮﺩ
ﺏ :ﺣﺎﻝ ﺣﺮ ﻭﻑ ﺩﻭﺗﺎﯾﯽ ﺭﺍ ﻃﻮﺭﯼ ﮐﺪ ﮐﻨﯿﺪ ﮐﻪ ﺑﯿﺸﺘﺮ ﯾﻦ ﻓﺸﺮﺩﮔﯽ ﺣﺎﺻﻞ ﺷﻮﺩ .ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯼ ﻻﺯﻡ ﺑﺮﺍﯼ ﺫﺧﯿﺮﻩ ﻫﺮ ﺣﺮﻑ
۱۶
ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﺍﮔﺮ ﺍﯾﻦ ﻫﻤﺒﺴﺘﮕﯽ ﻭﺟﻮﺩ ﻧﺪﺍﺷﺖ ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯼ ﻻﺯﻡ ﺑﺮﺍﯼ ﺫﺧﯿﺮﻩ ﻫﺮ ﺣﺮﻑ ﭼﻘﺪﺭ ﻣﯽ ﺷﺪ؟
ﺝ :ﺍﺣﺘﻤﺎﻻﺕ ﻣﺮﺑﻮﻁ ﺑﻪ ﺗﻤﺎﻡ ﺣﺮ ﻭﻑ ﺳﻪ ﺗﺎﯾﯽ ﺭﺍ ﺑﺪﺳﺖ ﺑﯿﺎﻭﺭ ﯾﺪ .ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻫﻤﺒﺴﺘﮕﯽ ﻫﺎ ﻓﻘﻂ ﺩﻭﺗﺎﯾﯽ ﺍﺳﺖ .
nﺗﻤﺮ ﯾﻦ :ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻦ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻮﺷﺘﻪ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ .ﯾﮏ ﮐﺪ ﺑﻬﯿﻨﻪ ﺑﺮﺍﯼ ﺍﯾﻦ ﺣﺮ ﻭﻑ
ﺑﻨﻮﯾﺴﯿﺪ ﺑﻪ ﻧﺤﻮﯼ ﮐﻪ ﻫﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﭘﺎﯾﯿﻦ ﺑﺎﺷﺪ ﻭ ﻫﻢ ﺭﺷﺘﻪ ﺍﯼ ﺻﻔﺮ ﻭ ﯾﮏ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﺑﻪ ﺣﺮ ﻭﻑ ﻧﮕﺎﺷﺘﻪ ﺷﻮﺩ.
nﺗﻤﺮ ﯾﻦ :ﺗﻤﺮ ﯾﻦ :ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻦ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻮﺷﺘﻪ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ .ﯾﮏ ﮐﺪ ﺑﻬﯿﻨﻪ ﺑﺮﺍﯼ ﺍﯾﻦ
ﺣﺮ ﻭﻑ ﺑﻨﻮﯾﺴﯿﺪ ﺑﻪ ﻧﺤﻮﯼ ﮐﻪ ﻫﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﭘﺎﯾﯿﻦ ﺑﺎﺷﺪ ﻭ ﻫﻢ ﺭﺷﺘﻪ ﺍﯼ ﺻﻔﺮ ﻭ ﯾﮏ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﺑﻪ ﺣﺮ ﻭﻑ ﻧﮕﺎﺷﺘﻪ
ﺷﻮﺩ.
nﺗﻤﺮ ﯾﻦ :ﺗﻤﺮ ﯾﻦ :ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻦ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻮﺷﺘﻪ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ .ﯾﮏ ﮐﺪ ﺑﻬﯿﻨﻪ ﺑﺮﺍﯼ ﺍﯾﻦ
ﺣﺮ ﻭﻑ ﺑﻨﻮﯾﺴﯿﺪ ﺑﻪ ﻧﺤﻮﯼ ﮐﻪ ﻫﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﭘﺎﯾﯿﻦ ﺑﺎﺷﺪ ﻭ ﻫﻢ ﺭﺷﺘﻪ ﺍﯼ ﺻﻔﺮ ﻭ ﯾﮏ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﺑﻪ ﺣﺮ ﻭﻑ ﻧﮕﺎﺷﺘﻪ
ﺷﻮﺩ.
ﺑﻌﺪﺍﺯﺫﮐﺮﺍﯾﻦ ﻣﺜﺎﻝ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺑﻔﻬﻤﯿﻢ ﮐﻪ ﺩﺭﺣﺎﻟﺖ ﮐﻠﯽ ﭼﮕﻮﻧﻪ ﻣﯽ ﺗﻮﺍﻥ ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭ ﯾﮏ ﻣﻨﺒﻊ Xﺭﺍ ﻓﺸﺮﺩﻩ ﮐﺮﺩ .ﻓﺮﺽ
ﮐﻨﯿﺪ ﮐﻪ ﻣﻨﺒﻊ ﻣﺘﻦ ﻫﺎﯾﯽ ﺗﻮﻟﯿﺪ ﻣﯽ ﮐﻨﺪ ﮐﻪ ﺍﯾﻦ ﻣﺘﻦ ﻫﺎﺍﺯﺍﻟﻔﺒﺎﯼ } A = {x1 , x2 , · · · xNﺗﺸﮑﯿﻞ ﺷﺪﻩﺍﻧﺪ ﻭ ﺍﺣﺘﻤﺎﻝ ﻇﺎﻫﺮﺷﺪﻥ ﻫﺮﺣﺮﻑ
ﻣﺜﻞ xiﺩﺭﺍﯾﻦ ﻣﺘﻦ ﻫﺎ ﺑﺎ piﺩﺍﺩﻩ ﻣﯽ ﺷﻮﺩ .ﺑﻨﺎﺑﺮﺍﯾﻦ ﯾﮏ ﻣﻨﺒﻊ ﺭﺍﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﻋﻨﻮﺍﻥ ﯾﮏ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﺑﺎ ﺍﻃﻼﻋﺎﺕ ﻣﻌﯿﻦ )H(X
ﺩﺭﻧﻈﺮﮔﺮﻓﺖ .ﺑﺮﺍﯼ ﺳﺎﺩﮔﯽ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ Nﺗﻮﺍﻧﯽ ﺍﺯ 2ﺍﺳﺖ ﯾﻌﻨﯽ .N = 2nﺣﺎﻝ ﺍﮔﺮﺑﺪﻭﻥ ﺗﻮﺟﻪ ﺑﻪ ﺍﺣﺘﻤﺎﻻﺕ ﻇﺎﻫﺮﺷﺪﻥ ﺣﺮ ﻭﻑ
۱۷
ﻣﺨﺘﻠﻒ ﺑﺨﻮﺍﻫﯿﻢ ﻣﺘﻦ ﻫﺎﺭﺍﻣﺨﺎﺑﺮﻩ ﮐﻨﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻫﺮﺣﺮﻑ ﺍﻟﻔﺒﺎﯼ Aﺭﺍ ﺑﺎﯾﮏ ﺭﺷﺘﻪ nﺗﺎﯼ ﺍﺯ ﺑﯿﺖ ﻫﺎﯼ 0ﻭ 1ﮐﺪﮔﺬﺍﺭﯼ ﮐﻨﯿﻢ.
ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺮﺍﯼ ﻫﺮ ﻣﺘﻦ ﮐﻪ ﺷﺎﻣﻞ Mﺣﺮﻑ ﺍﺳﺖ ﺗﻌﺪﺍﺩ M nﺑﯿﺖ ﻣﺼﺮﻑ ﻣﯽ ﮐﻨﯿﻢ ﯾﺎﺑﻪ ﻋﺒﺎﺭﺕ ﺩﯾﮕﺮ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﺣﺮﻑ ﺍﻟﻔﺒﺎ n
ﺑﯿﺖ ﻣﺼﺮﻑ ﻣﯽ ﮐﻨﯿﻢ .ﻭﻟﯽ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺭ ﻭﺵ ﮐﺪﮔﺬﺍﺭﯼ ﺑﻬﺘﺮﯼ ﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮﺑﮑﺎﺭﺑﺒﺮ ﯾﻢ.
ﺑﻪ ﺟﺎﯼ ﺍﯾﻨﮑﻪ ﺗﮏ ﺗﮏ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎ ﺭﺍ ﮐﺪﮔﺬﺍﺭﯼ ﮐﻨﯿﻢ ،ﺳﻌﯽ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺭﺷﺘﻪ Mﺗﺎﯾﯽ ﺭﺍ ﺑﻪ Kﺭﺷﺘﻪ ﮐﻮﭼﮑﺘﺮ ﯾﻌﻨﯽ ﺭﺷﺘﻪ
M = Km.
ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ mﻧﯿﺰ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ﮐﺎﻓﯽ ﺑﺰ ﺭﮒ ﺍﺳﺖ .ﺗﻌﺪﺍﺩ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ mﺣﺮﻓﯽ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ . N mﻭﻟﯽ ﻧﮑﺘﻪ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ
ﻣﺎ ﺗﻨﻬﺎ ﻣﯽ ﺑﺎﯾﺴﺖ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ ﮐﺪ ﮐﻨﯿﻢ .ﺑﻌﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺩﺭﺳﺖ ﺍﺳﺖ ﮐﻪ ﻫﺮﺣﺮﻑ ﺍﺯ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺑﺎ ﯾﮏ ﻓﺮﮐﺎﻧﺲ
ﻣﺸﺨﺺ ﺩﺭ ﻧﻮﺷﺘﺎﺭﻫﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﻇﺎﻫﺮ ﻣﯽ ﺷﻮﺩ ﺍﻣﺎ ﺭﺷﺘﻪ ﻫﺎﯾﯽ mﺣﺮﻓﯽ ﻣﺜﻞ
AAAAAAAAAAAAAAAAAAA
ﯾﺎ
AAABBBBAAABBBAAABBB
ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﻫﺴﺘﻨﺪ ﮐﻪ ﺑﻪ ﻧﺪﺭﺕ ﻇﺎﻫﺮ ﻣﯽ ﺷﻮﻧﺪ .ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﻓﻌﻼ ﮐﺎﺭﯼ ﺑﻪ ﻣﻌﻨﺎﯼ ﺟﻤﻼﺕ ﻧﺪﺍﺭ ﯾﻢ ﺑﻠﮑﻪ ﺗﻨﻬﺎ ﺑﻪ ﻓﺮﮐﺎﻧﺲ
ﻇﺎﻫﺮﺷﺪﻥ ﺣﺮ ﻭﻑ ﺗﻮﺟﻪ ﺩﺍﺭ ﯾﻢ .ﺩﺭ ﺩﻭ ﻣﺜﺎﻝ ﺑﺎﻻ ﻣﻨﻈﻮﺭ ﻣﺎ ﺍﯾﻦ ﻧﯿﺴﺖ ﮐﻪ ﭼﻨﯿﻦ ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﺍﺯ ﻧﻈﺮ ﻣﻌﻨﺎﯾﯽ ﻧﺎﺩﺭ ﻫﺴﺘﻨﺪ ﺑﻠﮑﻪ ﻣﻨﻈﻮﺭﻣﺎ
ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺍﺯ ﻧﻈﺮ ﻓﺮﺍﻭﺍﻧﯽ ﺣﺮ ﻭﻑ ﻇﺎﻫﺮﺷﺪﻩ ﻧﺎﯾﺎﺏ ﻫﺴﺘﻨﺪ .ﺩﺭ ﻋﻮﺽ ﺭﺷﺘﻪ ﺍﯼ ﻣﺜﻞ
ﺍﺯ ﻧﻈﺮ ﻓﺮﺍﻭﺍﻧﯽ ﺣﺮ ﻭﻑ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺍﺳﺖ .ﯾﻌﻨﯽ ﺍﯾﻨﮑﻪ ﺍﮔﺮ ﯾﮏ ﺭﺷﺘﻪ ﺑﻠﻨﺪ ﺍﺯ ﯾﮏ ﻣﺘﻦ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﻭ ﻓﺮﺍﻭﺍﻧﯽ
ﺣﺮ ﻭﻑ ﺁﻥ ﺭﺍ ﺑﺎ ﺭﺷﺘﻪ ﺑﺎﻻ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﻢ ﺍﺧﺘﻼﻑ ﭼﻨﺪﺍﻧﯽ ﻣﺸﺎﻫﺪﻩ ﻧﻤﯽ ﮐﻨﯿﻢ.
ﺍﮔﺮ ﺗﻌﺪﺍﺩ ﺣﺮ ﻭﻑ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﻫﻤﺮﺍﻩ ﺑﺎ ﺣﺮ ﻭﻑ ﺍﺿﺎﻓﻪ ﻭ ﻓﺎﺻﻠﻪ ﻫﺎ ﺗﻌﺪﺍﺩ 32ﺗﺎ ﺑﮕﯿﺮ ﯾﻢ ﺁﻧﮕﺎﻩ ﻫﺮ ﮐﺪﺍﻡ ﺍﺯ ﺣﺮ ﻭﻑ ﺭﺍ ﺑﺎ 5ﺑﯿﺖ ﻣﯽ
ﺗﻮﺍﻧﯿﻢ ﮐﺪ ﮐﻨﯿﻢ .ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﯾﮏ ﺭﺷﺘﻪ ﺑﺎ ﻃﻮﻝ Nﻣﯽ ﺑﺎﯾﺴﺖ ﺑﺎ 5Nﺑﯿﺖ ﮐﺪ ﮐﻨﯿﻢ.
۱۸
ABCDEIOQUANUPNQPOURUOUQOJNNKLPQOIUTUQCITANQWERUPOURQRIZQAGUEZNBPO
{
1 2 3 K
ﺷﮑﻞ :۱ﯾﮏ ﺭﺷﺘﻪ ﺑﻠﻨﺪ ﺭﺍ ﺑﻪ ﺭﺷﺘﻪ ﻫﺎﯼ ﺑﺎ ﻃﻮﻝ mﺗﻘﺴﯿﻢ ﻭ ﺳﭙﺲ ﻫﺮﮐﺪﺍﻡ ﺭﺍ ﺑﻪ ﻋﻨﻮﺍﻥ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﮐﺪ ﻣﯽ ﮐﻨﯿﻢ.
ﺣﺎﻝ ﺩﻗﺖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﻇﺎﻫﺮﺷﺪﻥ ﺑﺴﯿﺎﺭﯼ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎﺁﻧﻘﺪﺭ ﻧﺎﭼﯿﺰﺍﺳﺖ ﮐﻪ ﻧﯿﺎﺯﯼ ﺑﻪ ﮐﺪﮐﺮﺩﻥ ﺁﻧﻬﺎﻧﯿﺴﺖ ﻭﺑﺎﮐﺪﮐﺮﺩﻥ
ﺗﻨﻬﺎ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ )ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﮐﻪ ﺯﯾﺎﺩ ﻇﺎﻫﺮﻣﯽ ﺷﻮﻧﺪ( ﭼﯿﺰﯼ ﺍﺯﺩﺳﺖ ﻧﻤﯽ ﺩﻫﯿﻢ .ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﯾﻌﻨﯽ ﺑﺎﮐﺪﮐﺮﺩﻥ ﺗﻨﻬﺎﺭﺷﺘﻪ
ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﻣﺎﻗﺎﺩﺭﻣﯽ ﺷﻮﯾﻢ ﮐﻪ ﺑﯿﺖ ﻫﺎﯼ ﮐﻤﺘﺮﯼ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﻣﺘﻦ ﻫﺎﯼ ﻣﻨﺒﻊ Xﻣﺼﺮﻑ ﮐﻨﯿﻢ .ﺍﻣﺎ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﮐﺪﺍﻡ
ﻫﺎﻫﺴﺘﻨﺪ؟ ﻭ ﮐﺪﮐﺮﺩﻥ ﺁﻧﻬﺎ ﭼﻘﺪﺭﺑﺎﻋﺚ ﻓﺸﺮﺩﻩ ﺷﺪﻥ ﭘﯿﺎﻡ ﻫﺎﻣﯽ ﺷﻮﺩ .ﺩﺭ ﻫﺮ ﺭﺷﺘﻪ mﺣﺮﻓﯽ ﺑﻪ ﺷﺮﻃﯽ ﮐﻪ mﺑﻪ ﺍﻧﺪﺍﺯﻩ ﮐﺎﻓﯽ ﺑﺰ ﺭﮒ
ﺑﺎﺷﺪ ﺑﻪ ﺗﻘﺮ ﯾﺐ ﺗﻌﺪﺍﺩ mp1ﺣﺮﻑ ﺁﻥ mp2 ،x1ﺣﺮﻑ ﺁﻥ x2ﻭ mpNﺗﺎ ﺣﺮﻑ ﺁﻥ xNﺧﻮﺍﻫﺪﺑﻮﺩ .ﻫﺮ ﻗﺪﺭ ﮐﻪ ﻃﻮﻝ ﺭﺷﺘﻪ ﯾﻌﻨﯽ m
ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ ،ﺍﻓﺖ ﻭ ﺧﯿﺰ ﺗﻌﺪﺍﺩ ﻭﺍﻗﻌﯽ ﺣﺮﻑ ﻫﺎ ﺣﻮﻝ ﺍﯾﻦ ﻣﻘﺎﺩﯾﺮ ﻣﺘﻮﺳﻂ ﮐﻤﺘﺮ ﺧﻮﺍﻫﺪ ﺑﻮﺩ .ﺣﺎﻝ ﺳﻮﺍﻝ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﭼﻪ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ
ﻣﺘﻌﺎﺭﻑ ﺑﺎ ﻃﻮﻝ mﻭﺟﻮﺩ ﺩﺍﺭﺩ .ﺍﮔﺮ ﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺭﺍ ﺑﺎ Qmﻧﺸﺎﻥ ﺩﻫﯿﻢ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ
!m
= Qm )(۵۷
!) (mp1 )!(mp2 )! · · · (mpN
۱۹
ﮐﻪ ﺩﺭﺁﻥ ﺗﺎﺑﻊ ) H(Xﺑﻪ ﺻﻮﺭﺕ ﺯﯾﺮﺗﻌﺮ ﯾﻒ ﺷﺪﻩ ﺍﺳﺖ:
∑
N
1
=H(X) : ( pi log2 ) )(۵۹
i=1
pi
ﺑﻨﺎﺑﺮﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺟﻤﻼﺕ ﻣﺘﻌﺎﺭﻑ ﺑﺎ ﻃﻮﻝ mﺑﺎﺗﻘﺮ ﯾﺐ ﺑﺴﯿﺎﺭﺧﻮﺏ ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ
ﺣﺎﻝ ﺍﮔﺮ ﺗﻌﺪﺍﺩ ﺟﻤﻼﺕ ﻣﺘﻌﺎﺭﻑ ﺑﺮﺍﺑﺮﺑﺎﺷﺪﺑﺎ ﻣﻘﺪﺍﺭﻓﻮﻕ ،ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻫﺮﮐﺪﺍﻡ ﺍﺯ ﺍﯾﻦ ﺟﻤﻼﺕ ﺭﺍ ﺑﺎ ﯾﮏ ﺭﺷﺘﻪ ﺑﯿﺖ ﻫﺎﯼ 0ﻭ 1ﮐﺪﮔﺬﺍﺭﯼ
ﮐﻨﯿﻢ ﻭ ﻣﺴﻠﻢ ﺍﺳﺖ ﮐﻪ ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯾﯽ ﮐﻪ ﺑﺮﺍﯼ ﺍﯾﻦ ﮐﺎﺭﺍﺣﺘﯿﺎﺝ ﺩﺍﺭ ﯾﻢ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ) .mH(Xﺍﺯﺁﻧﺠﺎ ﮐﻪ ﻫﺮ ﺭﺷﺘﻪ ﺩﺍﺭﺍﯼ mﺣﺮﻑ
ﺑﻮﺩﻩ ﺍﺳﺖ ﻣﺜﻞ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺩﺭﻋﻤﻞ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﻫﺮﺣﺮﻑ ) k := H(Xﺑﯿﺖ ﺑﮑﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ .ﺍﺯﺁﻧﺠﺎ ﮐﻪ H(X) ≤ log2 N = n
ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ ﺩﺭ ﺍﺭﺳﺎﻝ ﺑﯿﺖ ﻫﺎ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﭘﯿﺎﻡ ﺻﺮﻓﻪ ﺟﻮﯾﯽ ﻣﻬﻤﯽ ﺍﻧﺠﺎﻡ ﺩﺍﺩﻩ ﺍﯾﻢ ﺯﯾﺮﺍ ﺑﺎﺍﯾﻦ ﺭ ﻭﺵ ﮐﺪﮐﺮﺩﻥ ﮐﻪ ﺁﻥ ﺭﺍ
Block codingﻣﯽ ﮔﻮﯾﯿﻢ ﺑﺮﺍﯼ ﻫﺮﺣﺮﻑ ﺑﻪ ﺟﺎﯼ nﺑﯿﺖ ) H(Xﺑﯿﺖ ﻣﺼﺮﻑ ﮐﺮﺩﻩ ﺍﯾﻢ ﮐﻪ ﺍﺯ nﮐﻤﺘﺮﺍﺳﺖ.
ﺁﻧﭽﻪ ﮐﻪ ﺩﺭﺑﺎﻻﮔﻔﺘﻪ ﺷﺪ ﻣﺤﺘﻮﺍﯼ ﮐﻠﯽ ﻗﻀﯿﻪ ﺷﺎﻧﻮﻥ ﺩﺭﻣﻮﺭﺩ ﮐﺪﮔﺬﺍﺭﯼ ﺑﺪﻭﻥ ﻧﻮﻓﻪ ﺑﻮﺩ .ﻭﻟﯽ ﭼﮕﻮﻧﻪ ﻣﯽ ﺗﻮﺍﻥ ﺍﯾﻦ ﺣﺮﻑ ﺭﺍ ﺩﻗﯿﻖ ﮐﺮﺩ؟
ﭼﮕﻮﻧﻪ ﻣﯽ ﺗﻮﺍﻥ ﺗﻌﺮ ﯾﻒ ﺩﻗﯿﻘﯽ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﺑﺪﺳﺖ ﺩﺍﺩ؟ ﺑﺎ ﮐﺪ ﻧﮑﺮﺩﻥ ﺭﺷﺘﻪ ﻫﺎﯼ ﻏﯿﺮﻣﺘﻌﺎﺭﻑ ﭼﻪ ﻣﻘﺪﺍﺭﻣﺮﺗﮑﺐ ﺧﻄﺎﻣﯽ
ﺷﻮﯾﻢ؟ ﺁﯾﺎ ﺑﯿﺶ ﺍﺯ ﺍﯾﻦ ﻫﻢ ﻣﯽ ﺗﻮﺍﻥ ﭘﯿﺎﻡ ﻫﺎﯼ ﻣﻨﺒﻊ Xﺭﺍ ﻓﺸﺮﺩﻩ ﮐﺮﺩ؟ ﺑﺮﺍﯼ ﭘﺎﺳﺦ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍﻻﺕ ﺳﻌﯽ ﻣﯽ ﮐﻨﯿﻢ ﺍﺑﺘﺪﺍﺗﻌﺎﺭ ﯾﻒ
nﺗﻤﺮ ﯾﻦ :ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺍﻟﻔﺒﺎﯼ ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﺷﻤﺎ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﻓﺮﮐﺎﻧﺲ ﻫﺎﯼ ﺩﺍﺩﻩ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ:
a b c d e f g h g k
)(۶۱
)P (x 1/4 1/4 1/8 1/8 1/16 1/16 1/32 1/32 1/32 1/32
ﺗﺎ ﮐﻨﻮﻥ ﺑﺤﺚ ﻣﺎ ﺩﺭ ﺑﺎﺭﻩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﯾﺎ ﻣﺘﻌﺎﺭﻑ ﯾﮏ ﺑﺤﺚ ﺗﻘﺮ ﯾﺒﯽ ﺑﻮﺩ .ﺣﺎﻻ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺍﯾﻦ ﺗﻌﺮ ﯾﻒ ﻭ ﻧﺘﺎﯾﺞ ﻧﺎﺷﯽ ﺍﺯ ﺁﻥ ﺭﺍ
۲۰
ﺑﻪ ﻃﻮﺭ ﺩﻗﯿﻖ ﺗﺮ ﺑﺮ ﺭﺳﯽ ﮐﻨﯿﻢ.
ﺑﻌﺪﺍﺯﻓﻬﻢ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﻭﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻧﮕﺎﻫﯽ ﺩﻭﺑﺎﺭﻩ ﺑﻪ ﺍﻃﻼﻋﺎﺕ ﺷﺮﻃﯽ ﻭﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺑﯿﻨﺪﺍﺯﯾﻢ .ﺍﺯﺍﯾﻦ ﺯﺍﻭﯾﻪ
ﺟﺪﯾﺪ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺗﻌﺮ ﯾﻒ ﻣﺘﻔﺎﻭﺗﯽ ﺑﺮﺍﯼ ﺗﺎﺑﻊ ) H(Xﭘﯿﺪﺍﮐﻨﯿﻢ .ﯾﺎﺩﮔﺮﻓﺘﯿﻢ ﮐﻪ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ mﺣﺮﻓﯽ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ).2mH(X
ﺍﯾﻦ ﺣﺮﻑ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﺍﮔﺮﮐﺴﯽ ﯾﮏ ﺭﺷﺘﻪ ﻣﻌﯿﻦ ﺭﺍ ﺑﻪ ﻋﻨﻮﺍﻥ ﺳﻮﺍﻝ ﺑﺮﺍﯼ ﻣﺎﺩﺭﻧﻈﺮﮔﺮﻓﺘﻪ ﺑﺎﺷﺪ ﻭ ﺍﺯﻣﺎﺑﺨﻮﺍﻫﺪ ﺩﺭ ﯾﮏ ﻣﺴﺎﺑﻘﻪ ﺑﻪ
ﺍﺻﻄﻼﺡ » ﺑﯿﺴﺖ ﺳﻮﺍﻟﯽ« ﺑﺎﭘﺮﺳﯿﺪﻥ ﺳﻮﺍﻝ ﻫﺎﯾﯽ ﮐﻪ ﭘﺎﺳﺦ ﺁﻧﻬﺎﺗﻨﻬﺎ ﺁﺭﯼ ﯾﺎ ﺧﯿﺮﺍﺳﺖ ﺑﻪ ﺁﻥ ﺭﺷﺘﻪ ﻣﻌﯿﻦ ﺩﺳﺖ ﭘﯿﺪﺍﮐﻨﯿﻢ ﺩﺭﺑﻬﺘﺮ ﯾﻦ
ﺣﺎﻟﺖ ﻣﯽ ﺑﺎﯾﺴﺖ ﺗﻌﺪﺍﺩ ) mH(Xﺑﺎﺭﺳﻮﺍﻝ ﮐﻨﯿﻢ .ﺯﯾﺮﺍﺑﻬﺘﺮ ﯾﻦ ﻧﺤﻮﻩ ﺳﻮﺍﻝ ﮐﺮﺩﻥ ﻧﺤﻮﻩ ﺍﯼ ﺍﺳﺖ ﮐﻪ ﺩﺭﺍﻥ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺭﺍ
ﺑﻪ ﻧﺼﻒ ﻣﻘﺪﺍﺭﻗﺒﻠﯽ ﮐﺎﻫﺶ ﻣﯽ ﺩﻫﺪ ﻭ ) 2mH(Xﺭﺍ ﺑﻪ 2mH(X)−2 ،2mH(X)−1ﻭﺳﺮﺍﻧﺠﺎﻡ ﺑﻪ ۱ﺗﻘﻠﯿﻞ ﻣﯽ ﺩﻫﺪ .ﻣﻄﺎﻟﺐ ﺑﺎﻻ ﺭﺍ ﻣﯽ
ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﺗﻌﻤﯿﻢ ﺩﻫﯿﻢ .ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺑﺎ ﺁﻧﺘﺮ ﻭﭘﯽ ) H(Xﺩﺍﺭ ﯾﻢ .ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﻃﻮﻻﻧﯽ ﺑﺎ ﻃﻮﻝ mﺩﺭ ﻧﻈﺮ
ﻣﯽ ﮔﯿﺮ ﯾﻢ .ﻣﺠﻤﻮﻋﻪ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ ) .2mH(Xﻣﺎ ﺑﺎ ﭘﺮﺳﯿﺪﻥ ) mH(Xﺳﻮﺍﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﯾﮏ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺑﺮﺳﯿﻢ.
ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﺴﯽ ﺍﻃﻼﻋﯽ ﺍﺯ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺩﯾﮕﺮ ﻣﺜﻞ � ﺑﻪ ﻣﺎ ﺩﺍﺩﻩ ﺑﺎﺷﺪ .ﺍﯾﻦ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺩﯾﮕﺮ ﻣﯽ ﺗﻮﺍﻧﺪ
ﯾﮏ ﭼﯿﺰ ﺑﺎ ﺭﺑﻂ ﻣﺜﻞ ﺭﻗﻢ ﻫﺎﯼ ﺳﻤﺖ ﺭﺍﺳﺖ ﺍﯾﻦ ﺭﺷﺘﻪ ﯾﺎ ﺗﻌﺪﺍﺩ ﺻﻔﺮﻫﺎﯼ ﺭﺷﺘﻪ ﻭ ﻧﻈﺎﯾﺮ ﺁﻥ ﯾﺎ ﯾﮏ ﭼﯿﺰ ﺑﯽ ﺭﺑﻂ ﻣﺜﻞ ﻭﺿﻊ ﻫﻮﺍﯼ
ﺍﻣﺮ ﻭﺯ ﺑﺎﺷﺪ .ﺩﺭ ﻫﺮ ﺻﻮﺭﺕ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺭﺷﺘﻪ ﻫﺎ ﺍﺯ ) P (Xﺑﻪ ) P (X| | yﺗﻐﯿﯿﺮ ﻣﯽ ﮐﻨﺪ .ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﮐﻪ ﻣﯽ
ﺑﺎﯾﺴﺖ ﺟﺴﺘﺠﻮ ﮐﻨﯿﻢ ﺑﻪ ) 2mH(X|yﺗﻘﻠﯿﻞ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ .ﺩﺭ ﻧﺘﯿﺠﻪ ﺑﺎ ﭘﺮﺳﯿﺪﻥ ��) mH(X|yﺳﻮﺍﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺑﺮﺳﯿﻢ.
ﺑﻨﺎﺑﺮﺍﯾﻦ ﺩﺍﻧﺴﺘﻦ ﻣﻘﺪﺍﺭ yﺗﻌﺪﺍﺩ ﺳﻮﺍﻻﺕ ﻻﺯﻡ ﺑﺮﺍﯼ ﺭﺳﯿﺪﻥ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ xﺭﺍ ﺍﺯ ) mH(Xﺑﻪ ) mH(X|yﮐﺎﻫﺶ ﺩﺍﺩﻩ ﺍﺳﺖ.
ﯾﻌﻨﯽ ﺍﯾﻨﮑﻪ ﺩﺍﻧﺴﺘﻦ yﺑﻪ ﺍﻧﺪﺍﺯﻩ ) mH(X) − mH(X|yﺑﯿﺖ ﺑﻪ ﻣﺎ ﺍﻃﻼﻉ ﺩﺍﺩﻩ ﺍﺳﺖ .ﺍﮔﺮ ﺭ ﻭﯼ yﻣﺘﻮﺳﻂ ﺑﮕﯿﺮ ﯾﻢ ،ﻭ ﺑﺮ mﺗﻘﺴﯿﻢ
۲۱
ﻫﻤﺎﻥ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺍﺳﺖ.
ﺩﺭ ﻭﺍﻗﻊ ﻣﻬﻤﺘﺮ ﯾﻦ ﻣﺜﺎﻝ ﻣﺸﺨﺺ ﺍﺯ ﺍﯼ ﻧﻮﻉ ﻭﻗﺘﯽ ﺍﺳﺖ ﮐﻪ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ Xﺭﺷﺘﻪ ﻫﺎﯼ ﻭﺭ ﻭﺩﯼ ﯾﮏ ﮐﺎﻧﺎﻝ ﮐﻼﺳﯿﮏ ﻭ ﻣﺘﻐﯿﺮ
ﺗﺼﺎﺩﻓﯽ Yﺭﺷﺘﻪ ﻫﺎﯼ ﺧﺮ ﻭﺟﯽ ﻫﻤﺎﻥ ﮐﺎﻧﺎﻝ ﺭﺍ ﺗﻌﯿﯿﻦ ﻣﯽ ﮐﻨﺪ .ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ) P (x, yﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺭﺷﺘﻪ xﻓﺮﺳﺘﺎﺩﻩ ﻭ ﺭﺷﺘﻪ
yﺩﺭ ﯾﺎﻓﺖ ﺷﻮﺩ .ﺣﺎﻝ ﺳﻮﺍﻝ ﻣﯽ ﮐﻨﯿﻢ ﺍﮔﺮ ﺭﺷﺘﻪ yﺩﺭ ﯾﺎﻓﺖ ﺷﺪﻩ ﺑﺎﺷﺪ ،ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﭼﻪ ﻣﻘﺪﺍﺭ ﺍﻃﻼﻋﺎﺕ ﺩﺭ ﻣﻮﺭﺩ ﺭﺷﺘﻪ ﺍﺭﺳﺎﻝ ﺷﺪﻩ
ﺩﺍﺭ ﯾﻢ؟ ﯾﺎ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺑﺎ ﭼﻪ ﺗﻌﺪﺍﺩ ﺳﻮﺍﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺭﺷﺘﻪ ﻭﺭ ﻭﺩﯼ ﺭﺍ ﺑﻔﻬﻤﯿﻢ .ﻣﻌﻤﻮﻻ ﯾﮏ ﮐﺎﻧﺎﻝ ﺩﺍﺭﺍﯼ ﺧﻄﺎﺳﺖ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﯽ
ﮐﻪ ﻭﻗﺘﯽ ﺭﺷﺘﻪ ﺍﯼ ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ ﻣﯽ ﮐﻨﯿﻢ ،ﺍﺣﺘﻤﺎﻝ ﺩﺍﺭﺩ ﮐﻪ ﺭﺷﺘﻪ ﺍﯼ ﮐﻪ ﻓﺮﺳﺘﺎﺩﻩ ﺷﺪﻩ ﻫﻤﯿﻦ ﺭﺷﺘﻪ ﻧﺒﺎﺷﺪ ﺑﻠﮑﻪ ﺩﺭ ﺍﺛﺮ ﺧﻄﺎﯼ ﮐﺎﻧﺎﻝ،
ﺭﺷﺘﻪ xﺑﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﺗﺒﺪﯾﻞ ﺷﺪﻩ ﺍﺳﺖ .ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺗﻌﺪﺍﺩ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ ) .2mH(X|Yﻫﺪﻑ ﻣﺎ ﯾﺎﻓﺘﻦ ﺭﺷﺘﻪ xﺍﺯ
ﺭ ﻭﯼ ﺭﺷﺘﻪ ﺩﺭ ﯾﺎﻓﺖ ﺷﺪﻩ ﺍﺳﺖ .ﺗﻤﺎﻡ ﺁﻧﭽﻪ ﮐﻪ ﺩﺭ ﺑﺎﻻ ﮔﻔﺘﯿﻢ ،ﺩﺭ ﺍﯾﻦ ﺟﺎ ﻣﻌﻨﺎ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎ ﮐﻪ ﺍﺯ ﺭ ﻭﯼ ﺭﺍﺑﻄﻪ ) (۶۲ﻣﯽ
ﻓﻬﻤﯿﻢ ﮐﻪ ﺍﮔﺮ ﮐﺎﻧﺎﻝ ﺩﺍﺭﺍﯼ ﻫﯿﭻ ﻧﻮﻉ ﺧﻄﺎﯾﯽ ﻧﺒﺎﺷﺪ ،ﺁﻧﮕﺎﻩ ﺩﺍﻧﺴﺘﻦ ﺭﺷﺘﻪ ﺧﺮ ﻭﺟﯽ ﺩﻗﯿﻘﺎ ﺭﺷﺘﻪ ﻭﺭ ﻭﺩﯼ ﺭﺍ ﺗﻌﯿﯿﻦ ﻣﯽ ﮐﻨﺪ ﻭ ﺩﺭ ﻧﺘﯿﺠﻪ
ﻫﺮ ﭼﻪ ﮐﻪ ﺧﻄﺎﯼ ﮐﺎﻧﺎﻝ ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ ،ﺍﺳﺘﻘﻼﻝ ﺭﺷﺘﻪ ﻫﺎﯼ ﻭﺭ ﻭﺩﯼ ﻭ ﺧﺮ ﻭﺟﯽ ﺍﺯ ﻫﻢ ﺑﯿﺸﺘﺮ ﺷﺪﻩ ﻭ ﺩﺭ ﻧﻬﺎﯾﺖ ﻭﻗﺘﯽ ﮐﻪ ﺧﻄﺎﯼ ﮐﺎﻧﺎﻝ
۱
ﺭﺍ ﺑﻪ ﻃﻮﺭ ﺷﻬﻮﺩﯼ ﺗﻌﺮ ﯾﻒ ﮐﺮﺩﻩ ﺍﯾﻢ ﻭ ﮔﻔﺘﻪ ﺍﯾﻢ ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﻫﺴﺘﻨﺪ ﮐﻪ ﺗﻌﺪﺍﺩ ﺗﺎ ﮐﻨﻮﻥ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﯾﺎ ﺭﺷﺘﻪ ﻣﺘﻌﺎﺭﻑ
ﺣﺮ ﻭﻑ xiﺩﺭ ﺁﻧﻬﺎ ﺑﺮﺍﺑﺮ ﺑﺎ mpiﺑﺎﺷﺪ .ﺍﻣﺎ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﺗﻌﺪﺍﺩ xiﻫﯿﭽﮕﺎﻩ ﺩﻗﯿﻘﺎ ﺑﺮﺍﺑﺮ ﺑﺎ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﻧﯿﺴﺖ ﺑﻠﮑﻪ ﻫﻤﻮﺍﺭﻩ ﯾﮏ ﺍﻓﺖ ﻭ
ﺧﯿﺰ ﺣﻮﻝ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﻣﯿﺎﻧﮕﯿﻦ ﻭﺟﻮﺩ ﺩﺍﺭﺩ .ﺍﮔﺮ ﺩﺭ ﻫﺮ ﻣﮑﺎﻥ ﺍﺯ ﯾﮏ ﺭﺷﺘﻪ mﺗﺎﯾﯽ ،ﻭﺟﻮﺩ ﯾﮏ ﻣﺘﻐﯿﺮ ﻣﺜﻞ xiﺭﺍ ﺑﺎ ﺍﺣﺘﻤﺎﻝ piﻭ ﻧﺒﻮﺩ
� �۱
۲۲
ﺷﮑﻞ :۲ﺗﻌﺪﺍﺩ ﺣﺮﻑ ﻫﺎﯼ xiﺩﺭ ﯾﮏ ﺭﺷﺘﻪ ﻣﺜﻞ aﺍﺯ ﯾﮏ ﺗﺎﺑﻊ ﺍﺣﺘﻤﺎﻝ ﮔﺎﻭﻭﺳﯽ ﺗﺒﻌﯿﺖ ﻣﯽ ﮐﻨﺪ ﻭ ﺑﻨﺎﺑﺮﺍﯾﻦ ﻣﺘﻮﺳﻂ ﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺑﺮﺍﺑﺮ
√
ﺑﺎ mpiﺍﺳﺖ ﻭﻟﯽ ﺍﯾﻦ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﯾﮏ ﭘﻬﻨﺎ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ) σi = mpi (1 − piﺩﺍﺭﺩ ﮐﻪ ﻧﺸﺎﻥ ﺩﻫﻨﺪﻩ ﺍﯾﻦ ﺍﺳﺖ ﺩﺭ ﺧﯿﻠﯽ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎ
ﺗﻌﺪﺍﺩ xiﺑﺎ ﻣﻘﺪﺍﺭ ﻣﺘﻮﺳﻂ mpiﻣﺘﻔﺎﻭﺕ ﺍﺳﺖ .ﺩﺭ ﺍﯾﻦ ﻧﻤﻮﺩﺍﺭ ) pi (aﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﺩﺍﺭﺍﯼ ﯾﮏ ﺗﻌﺪﺍﺩ ﻣﻌﯿﻦ xi
ﺑﺎﺷﺪ.
ﺁﻥ ﺭﺍ ﺑﺎ ﺍﺣﺘﻤﺎﻝ 1 − piﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﻢ ،ﺁﻧﮕﺎﻩ ﺑﺎ ﯾﮏ ﺗﺎﺑﻊ ﺍﺣﺘﻤﺎﻝ ﺩﻭﺟﻤﻠﻪ ﺍﯼ )ﻭ ﺩﺭ ﺣﺪ mﻫﺎﯼ ﺑﺰ ﺭﮒ ﺑﺎ ﯾﮏ ﺗﺎﺑﻊ ﮔﺎﻭﻭﺳﯽ(
√
ﺭ ﻭﺑﺮ ﻭ ﻫﺴﺘﯿﻢ ﮐﻪ ﺗﻌﺪﺍﺩ ﻣﺘﻮﺳﻂ xiﺭﺍ ﺑﺮﺍﺑﺮ ﺑﺎ mpiﻭ ﻭﺍﺭ ﯾﺎﻧﺲ ﺁﻥ ﺭﺍ ﺑﺮﺍﺑﺮ ﺑﺎ ) σi = mpi (1 − piﺑﺪﺳﺖ ﻣﯽ ﺩﻫﺪ) ،ﺷﮑﻞ )؟؟(
(.
ﺍﺯ ﺭ ﻭﯼ ﻫﻤﯿﻦ ﺷﮑﻞ ﻭﺍﺿﺢ ﺍﺳﺖ ﮐﻪ ﻣﯽ ﺑﺎﯾﺴﺖ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﯾﺎ ﻣﺘﻌﺎﺭﻑ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺑﻬﺘﺮﯼ ﺗﻌﺮ ﯾﻒ ﮐﻨﯿﻢ .ﺑﻨﺎﺑﺮﺍﯾﻦ
ﺍﺯ ﺧﻮﺩ ﻣﯽ ﭘﺮﺳﯿﻢ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻣﺘﻌﺎﺭﻑ ﺩﻗﯿﻘﺎ ﭼﻪ ﺭﺷﺘﻪ ﺍﯼ ﺍﺳﺖ؟ ﺩﺭ ﺍﯾﻦ ﺗﻌﺮ ﯾﻒ ﺣﺘﻤﺎ ﻣﯽ ﺑﺎﯾﺴﺖ ﯾﮏ ﺣﺪ ﻭ ﺍﻧﺪﺍﺯﻩ ﻭﺟﻮﺩ
ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﺪ .ﺑﺪﻭﻥ ﺍﯾﻦ ﺣﺪ ﻭ ﺍﻧﺪﺍﺯﻩ ﯾﺎ ﻣﻌﯿﺎﺭ ﻧﻤﯽ ﺗﻮﺍﻥ ﺩﻗﯿﻘﺎ ﮔﻔﺖ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻣﺜﻞ ﺁﯾﺎ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺍﺳﺖ ﯾﺎ ﺧﯿﺮ؟
ﺭﺷﺘﻪ α = α1 α2 α3 · · · αmﺭﺍ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﺪ .ﺗﻌﺪﺍﺩ ﺣﺮ ﻭﻑ xjﺩﺭﺍﯾﻦ ﺭﺷﺘﻪ ﺭﺍ ﺑﺎ ) fj (αﻧﺸﺎﻥ ﺩﻫﯿﺪ .ﺗﻌﺪﺍﺩ ﺣﺮ ﻭﻑ xj
ﺩﺭ ﺭﺷﺘﻪ ﻫﺎﯼ ﺑﻪ ﻃﻮﻝ mﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ mpjﻭﻭﺍﺭ ﯾﺎﻧﺲ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺣﻮﻝ ﺍﯾﻦ ﻣﻘﺪﺍﺭﻣﺘﻮﺳﻂ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ
√
) .σj := mpj (1 − pjﺭﺷﺘﻪ ﻣﺘﻌﺎﺭﻑ ﺭﺷﺘﻪ ﺍﯼ ﺍﺳﺖ ﮐﻪ ﺗﻔﺎﻭﺕ ﺗﻌﺪﺍﺩ ﻭﺍﻗﻌﯽ ﻫﺮﮐﺪﺍﻡ ﺍﺯﺣﺮ ﻭﻑ ﻣﺜﻞ xjﺍﺯﺗﻌﺪﺍﺩ ﻣﺘﻮﺳﻂ ﺁﻥ
۲۳
nﺗﻌﺮ ﯾﻒ :ﺭﺷﺘﻪ αﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ kﯾﺎ k-typicalﺧﻮﺍﻧﺪﻩ ﻣﯽ ﺷﻮﺩ ﺍﮔﺮ ﺷﺮﻁ ﺯﯾﺮ ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ:
ﺑﺮﺍﯼ ﺍﺩﺍﻣﻪ ﺑﺤﺚ ﺧﻮﺩ ﺍﺣﺘﯿﺎﺝ ﺑﻪ ﺩﻭ ﻟﻢ ﺧﯿﻠﯽ ﺳﺎﺩﻩ ﺩﺭ ﻧﻈﺮ ﯾﻪ ﺍﺣﺘﻤﺎﻝ ﺩﺍﺭ ﯾﻢ .ﺍﯾﻦ ﻟﻢ ﻫﺎ ﺩﺍﻣﻨﻪ ﮐﺎﺭﺑﺮﺩ ﺧﯿﻠﯽ ﻭﺳﯿﻌﯽ ﺩﺍﺭﻧﺪ ﻭ ﯾﺎﺩﮔﯿﺮﯼ
ﺍﻟﻒ :ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ Xﻣﻘﺎﺩﯾﺮ ﻣﺜﺒﺖ } {x1 , x2 , · · · xNﺭﺍ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ } {p1 , p2 , · · · pNﺍﺧﺘﯿﺎﺭﻣﯽ ﮐﻨﺪ .
X
≤ )P (X ≥ α )(۶۶
α
nﺍﺛﺒﺎﺕ :
∞
∑ ∑∞
x X
= )P (X ≥ α ≤ )P (x P (x) ≤ . )(۶۷
x=α x=α
α α
ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ Xﻣﻘﺎﺩﯾﺮ ﺩﻟﺨﻮﺍﻩ ﻣﺜﺒﺖ ﯾﺎﻣﻨﻔﯽ ﺍﺧﺘﯿﺎﺭﻣﯽ ﮐﻨﺪ .ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﻋﺪﺩ k
1
≤ ) P ((X − X)2 ≥ k 2 σx2 . )(۶۸
k2
ﺍﺛﺒﺎﺕ :ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ T = (X − X)2ﺭﺍ ﺩﺭﻧﻈﺮﻣﯽ ﮔﯿﺮ ﯾﻢ .ﺍﯾﻦ ﻣﺘﻐﯿﺮﻓﻘﻂ ﻣﻘﺎﺩﯾﺮ ﻣﺜﺒﺖ ﺭﺍ ﺍﺧﺘﯿﺎﺭ ﻣﯽ ﮐﻨﺪ.
۲۴
ﺿﻤﻨﺎً ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ .T = σx2ﺍﺯ ﻗﺴﻤﺖ ﺍﻟﻒ ﺩﺍﺭ ﯾﻢ:
T
≤ )P (T ≥ α . )(۶۹
α
σx2 1
≤ ) P ((X − X)2 ≥ k 2 σx2 = 2. )(۷۰
k 2 σx2 k
1
≤ ) P (|X − X| ≥ kσx , )(۷۱
k2
nﺗﻤﺮ ﯾﻦ :ﺩﺭ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺣﺮﻑ Zﮐﻤﺘﺮ ﯾﻦ ﻓﺮﮐﺎﻧﺲ ﺭﺍ ﺩﺍﺭﺩ ﻭ ﺍﺣﺘﻤﺎﻝ ﯾﺎﻓﺘﻦ ﺁﻥ ﺩﺭ ﻣﺘﻦ ﻫﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ
ﺍﻟﻒ :ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺩﺭ ﯾﮏ ﻣﺘﻦ ﮐﻪ ﺩﺍﺭﺍﯼ Nﺣﺮﻑ ﺍﺳﺖ ،ﺗﻌﺪﺍﺩ kﺣﺮﻑ zﺣﻀﻮﺭ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﭼﻘﺪﺭ ﺍﺳﺖ؟
ﺏ :ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺍﺯ ﺗﻌﺪﺍﺩ ﻣﺘﻮﺳﻂ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ﮐﻤﺘﺮ ﺍﺯ ﺩﻭ ﻭﺍﺭ ﯾﺎﻧﺲ ﻓﺎﺻﻠﻪ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﭼﻘﺪﺭ ﺍﺳﺖ؟
ﺭﺍﻫﻨﻤﺎﯾﯽ :ﻣﯽ ﺗﻮﺍﻧﯿﺪ ﺍﺯ ﺗﻮﺯﯾﻊ ﺩﻭﺟﻤﻠﻪ ﺍﯼ ﯾﺎ ﺗﻮﺯﯾﻊ ﭘﻮﺍﺳﻮﻥ ﮐﻪ ﺣﺪ ﺗﻮﺯﯾﻊ ﺩﻭﺟﻤﻠﻪ ﺍﯼ ﺑﺮﺍﯼ ﻭﻗﺘﯽ ﺍﺳﺖ ﮐﻪ p << 1ﺑﺎﺷﺪ
ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﺪ.
ﭘﺲ ﺍﺯ ﺍﯾﻦ ﻣﻘﺪﻣﺎﺕ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﭘﺎﺳﺦ ﺳﻮﺍﻝ ﺍﻭﻝ ﺑﭙﺮﺩﺍﺯﯾﻢ .ﺍﺯ ﺧﻮﺩ ﻣﯽ ﭘﺮﺳﯿﻢ ﮐﻪ ﺍﮔﺮ ﺩﺭ ﯾﮏ ﻣﺘﻦ ﯾﮏ ﺭﺷﺘﻪ ﺑﻪ ﻃﻮﻝ mﺭﺍ ﺑﻪ
ﻃﻮﺭ ﺗﺼﺎﺩﻓﯽ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﻧﺒﺎﺷﺪ ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﭘﺎﺳﺦ ﺍﯾﻦ ﺳﻮﺍﻝ ﺩﺭ ﻗﻀﯿﻪ ﺯﯾﺮ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ:
۲۵
ﺷﮑﻞ :۳ﻧﺎﺣﯿﻪ ﻭﺳﻂ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﺪ .ﺍﯾﻦ ﻧﺎﺣﯿﻪ ﺷﺎﻣﻞ Tﺗﺎ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺍﺳﺖ .ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ
ﺣﺴﺎﺏ ﮐﺮﺩﻩ ﺍﯾﻢ .ﻫﺮﮔﺎﻩ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﺭﺍ ﮐﻪ ﻫﺮ ﺭﺷﺘﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ،ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﻢ .ﺑﺮﺍﯼ
ﺍﺳﺖ. N
k2 nﻗﻀﯿﻪ :ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻏﯿﺮﻣﺘﻌﺎﺭﻑ ﮐﻤﺘﺮ ﺍﺯ
ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﺣﺪ ﻣﺴﺘﻘﻞ ﺍﺯ ﻃﻮﻝ ﺭﺷﺘﻪ ﯾﻌﻨﯽ mﺍﺳﺖ ﻭ ﺩﺭ ﺿﻤﻦ ﺑﻪ ﻋﺪﺩ kﺑﺴﺘﮕﯽ ﺩﺍﺭﺩ .ﻫﺮﭼﻪ ﮐﻪ ﻣﺎ ﻋﺪﺩ kﺭﺍ ﺑﺰ ﺭﮒ ﺗﺮ
ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﯾﻌﻨﯽ ﺍﯾﻦ ﮐﻪ ﺗﻌﺮ ﯾﻒ ﺧﻮﺩ ﺭﺍ ﺍﺯ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﻓﺮﺍﺥ ﺗﺮ ﮐﻨﯿﻢ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ ﮐﻤﺘﺮ ﻣﯽ ﺷﻮﺩ ﮐﻪ ﺍﻟﺒﺘﻪ ﻃﺒﯿﻌﯽ ﺍﺳﺖ.
nﺍﺛﺒﺎﺕ :ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﯾﮏ ﺭﺷﺘﻪ αﻣﺘﻌﺎﺭﻑ ﻧﺒﺎﺷﺪ ﺭﺍ ﺑﺎ P0ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ .ﺑﻨﺎﺑﺮﺗﻌﺮ ﯾﻒ ﺩﺍﺭ ﯾﻢ:
∑N
1 N
≤ P0 2
= 2 ≤ ϵ. )(۷۳
i=1
k k
ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻣﯽ ﮔﻮﯾﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺍﺯ 1 − kN2ﺑﯿﺸﺘﺮ ﺍﺳﺖ .ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﮔﺮ ﯾﮏ ﺭﺷﺘﻪ mﺗﺎﯾﯽ ﺑﻪ ﻃﻮﺭ ﺗﺼﺎﺩﻓﯽ
۲۶
ﺍﺯ ﯾﮏ ﻣﺘﻦ ﺑﺮﺩﺍﺭ ﯾﻢ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺍﺯ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﺑﯿﺸﺘﺮ ﺍﺳﺖ .ﺍﮔﺮ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ ﺭﺍ ﺑﺎ Ptypicalﻧﺸﺎﻥ ﺩﻫﯿﻢ
ﺩﺍﺭ ﯾﻢ:
N
1− ≤ Ptypical ≤ 1. )(۷۴
k2
ﻫﺮﮔﺎﻩ ﻗﺮﺍﺭ ﺩﻫﯿﻢ k = 10ﻭ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ۳۲ﺗﺎ ﺑﮕﯿﺮ ﯾﻢ ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺍﺯ
۰.۶۸ﺑﯿﺸﺘﺮ ﺍﺳﺖ .ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﯾﮏ ﺣﺪ ﭘﺎﯾﯿﻦ ﺍﺳﺖ .ﻣﻤﮑﻦ ﺍﺳﺖ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﻭﺍﻗﻌﯽ ﺑﯿﺸﺘﺮ ﺍﺯ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﺑﺎﺷﺪ.
√ √
2mH(X)− mA
≤ T ≤ 2mH(X)+ mA
)(۷۵
ﮐﻪ ﺩﺭ ﺁﻥ
∑
√ N
A=− pi (1 − pi ) log pi . )(۷۶
i=1
ﺍﺛﺒﺎﺕ :ﺑﻪ ﺷﮑﻞ ) (۳ﻧﮕﺎﻩ ﻣﯽ ﮐﻨﯿﻢ .ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ،ﯾﻌﻨﯽ ،ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﺩﺭ ﻭﻥ ﻧﺎﺣﯿﻪ ﺭﻧﮕﯽ
ﺑﺎﺷﺪ ﺭﺍ ﯾﮏ ﺑﺎﺭ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻗﻀﯿﻪ ﭼﺒﯿﺸﻒ ﺣﺴﺎﺏ ﮐﺮﺩﻩ ﺍﯾﻢ .ﺣﺎﻝ ﯾﮏ ﺑﺎﺭ ﺩﯾﮕﺮ ﻫﻢ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ ﺭﺍ ﺑﻪ ﺷﯿﻮﻩ ﻣﺘﻔﺎﻭﺗﯽ ﺣﺴﺎﺏ ﻣﯽ ﮐﻨﯿﻢ
ﻭ ﺍﺯ ﺁﻥ ﺑﺮﺍﯼ ﺑﺪﺳﺖ ﺁﻭﺭﺩﻥ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ .ﻓﺮﺽ ﮐﻨﯿﺪ ﯾﮏ ﻣﻨﺒﻊ ﺑﻪ ﺻﻮﺭﺕ ﺗﺼﺎﺩﻓﯽ ﺭﺷﺘﻪ ﻫﺎ ﺭﺍ ﺗﻮﻟﯿﺪ
ﻣﯽ ﮐﻨﺪ .ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺻﻮﺭﺕ ﻣﺠﺎﺯﯼ ﺗﺼﻮﺭ ﮐﻨﯿﻢ ﮐﻪ ﺭﺷﺘﻪ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﺗﯿﺮﻫﺎﯼ ﯾﮏ ﺑﺎﺯﯼ ﺩﺍﺭﺕ ﻫﺴﺘﻨﺪ ﮐﻪ ﺑﻪ ﺻﻮﺭﺕ ﺗﺼﺎﺩﻓﯽ
ﺷﻠﯿﮏ ﻣﯽ ﺷﻮﻧﺪ ﻭ ﻣﻤﮑﻦ ﺍﺳﺖ ﺑﻪ ﺩﺭ ﻭﻥ ﻧﺎﺣﯿﻪ ﺭﻧﮕﯽ ﺍﺻﺎﺑﺖ ﮐﻨﻨﺪ ﯾﺎ ﻧﮑﻨﻨﺪ .ﺩﺭ ﻣﺜﺎﻝ ﺳﺎﺩﻩ ﺍﯼ ﮐﻪ ﺍﺯ ﺍﺑﺘﺪﺍﯼ ﺍﯾﻦ ﺩﺭﺱ ﺑﻪ ﺁﻥ ﺍﺷﺎﺭﻩ
ﮐﺮﺩﻩ ﺍﯾﻢ ،ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺯ ﺧﻮﺩ ﺑﭙﺮﺳﯿﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺗﻮﻟﯿﺪ ﯾﮏ ﺭﺷﺘﻪ mﺗﺎﯾﯽ ﻣﻌﯿﻦ ﻣﺜﻞ α = AABBCDBDADDAABCCCC
ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﻫﺮﮔﺎﻩ ﮐﻪ ﺣﺮ ﻭﻑ ﺭﺍ ﻣﺴﺘﻘﻞ ﺍﺯ ﻫﻢ ﺑﮕﯿﺮ ﯾﻢ ﭘﺎﺳﺦ ﺍﯾﻦ ﺳﻮﺍﻝ ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ
۲۷
ﯾﮏ ﺭﺷﺘﻪ ﺩﻟﺨﻮﺍﻩ ﺍﺯ ﺍﯾﻦ ﻧﻮﻉ ﺍﻟﺰﺍﻣﺎ ﻧﻤﻮﻧﻪ ﻧﯿﺴﺖ ﻭﻟﯽ ﺍﮔﺮ ﭘﺎﺭﺍﻣﺘﺮﻫﺎﯼ ) f (αiﺁﻥ ﺩﺭ ﻧﺎﻣﺴﺎﻭﯼ ) (۶۵ﺻﺪﻕ ﮐﻨﻨﺪ ﺁﻧﻮﻗﺖ ﺣﺘﻤﺎ ﻧﻤﻮﻧﻪ
ﺍﺳﺖ .ﭘﺲ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ )ﯾﻌﻨﯽ ﺩﺭ ﺩﺭ ﻭﻥ ﻧﺎﺣﯿﻪ ﺭﻧﮕﯽ ﻗﺮﺍﺭ ﺑﮕﯿﺮﺩ( ﺭﺍ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﻃﺮ ﯾﻖ ﺯﯾﺮ ﺑﺪﺳﺖ ﺑﯿﺎﻭﺭ ﯾﻢ:
∑
N
= )log P (α fi (α) log pi )(۷۸
i=1
∑
N √ ∑
N √
≤ )(mpi − k mpi (1 − pi )) log pi ≤ log P (α (mpi + k mpi (1 − pi )) log pi . )(۷۹
i=1 i=1
∑
√ N
A := −k pi (1 − pi ) log pi . )(۸۰
i=1
√ √
−mH + A m ≤ log P (α) ≤ −mH − A m, )(۸۱
√ √
2−mH−A m
≤ Ptypical (α) ≤ 2−mH+A m
. )(۸۲
ﺑﻨﺎﺑﺮﺍﯾﻦ ﯾﮏ ﺣﺪ ﺑﺎﻻ ﻭ ﭘﺎﯾﯿﻦ ﺑﺮﺍﯼ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺭﺍ ﺑﺪﺳﺖ ﺁﻭﺭﺩﯾﻢ ﯾﻌﻨﯽ
ﮐﻪ ﺩﺭ ﺁﻥ
√ √
Pmin = 2−mH−A m
, Pmax = 2−mH+A m
. )(۸۴
ﺣﺎﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺗﻮﻟﯿﺪ ﺭﺷﺘﻪ ﻫﺎ ﯼ ﻧﻮﻋﯽ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﺯﯾﺮ ﺣﺴﺎﺏ ﮐﻨﯿﻢ .ﺍﮔﺮ ﺗﻌﺪﺍﺩ Tﺗﺎ ﺭﺷﺘﻪ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ ﻭ ﺁﻧﻬﺎ ﺭﺍ
۲۸
ﺑﺎ ﺗﺮﮐﯿﺐ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺑﺎ ﺭﺍﺑﻄﻪ ﻗﺒﻠﯽ ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ ﮐﻪ
N
1− ≤ Ptypical , Ptypical ≤ 1. )(۸۷
k2
ﻭ
√
T × PM in ≤ 1 −→ T ≤ 2mH+ mA
. )(۸۹
ﺩﺭ ﺣﺪ ﺭﺷﺘﻪ ﻫﺎﯼ ﻃﻮﻻﻧﯽ ،ﯾﻌﻨﯽ ) (m >> 1ﺟﻤﻠﻪ ﺩﻭﻡ ﺩﺭ ﻣﻘﺎﯾﺴﻪ ﺑﺎ ﺭﺷﺘﻪ ﺍﻭﻝ ﺑﻪ ﺳﻤﺖ ﺻﻔﺮ ﻣﯿﻞ ﻣﯽ ﮐﻨﺪ ﻭ ﺩﺭ ﻧﺘﯿﺠﻪ ﺍﯾﻦ
ﺭﺍﺑﻄﻪ ﻣﯽ ﮔﻮﯾﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﺧﺎﺹ ﻣﺜﻞ αﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺑﺴﺘﮕﯽ ﺑﻪ ﻧﻮﻉ ﺁﻥ ﺭﺷﺘﻪ ﻧﺪﺍﺭﺩ ﻭ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ
ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ
ﮐﻪ ﺩﺭ ﺁﻥ
ﻣﻌﻨﺎﯼ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺭ ﻭﯼ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﯾﮑﻨﻮﺍﺧﺖ ﺍﺳﺖ .ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻧﻤﯽ ﮔﻮﯾﺪ
ﮐﻪ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺭ ﻭﯼ ﻫﻤﻪ ﺭﺷﺘﻪ ﻫﺎ ﯾﮑﻨﻮﺍﺧﺖ ﺍﺳﺖ ﺑﻠﮑﻪ ﻣﯽ ﮔﻮﯾﺪ ﮐﻪ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﻓﻘﻂ ﺭ ﻭﯼ ﻗﺴﻤﺘﯽ ﺍﺯ ﻓﻀﺎﯼ ﺗﻤﺎﻣﯽ ﺭﺷﺘﻪ ﻫﺎ ﮐﻪ
۲۹
nﺗﻤﺮ ﯾﻦ :ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻭﯾﮑﯿﭙﺪﯾﺎ ﯾﺎ ﻫﺮ ﻣﻨﺒﻊ ﺩﯾﮕﺮﯼ ﮐﻪ ﻣﯽ ﺩﺍﻧﯿﺪ ﻓﺮﮐﺎﻧﺲ ﺣﺮ ﻭﻑ ﻣﺨﺘﻠﻒ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﺑﺪﺳﺖ ﺁﻭﺭ ﯾﺪ .ﺗﺎﺑﻊ
√ ∑
ﺁﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ﺭﺍ ﺑﺮﺍﯼ ﺍﯾﻦ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺣﺴﺎﺏ ﮐﻨﯿﺪ .ﺳﭙﺲ ﺗﺎﺑﻊ A(X) = k i pi (1 − pi ) log2 piﺭﺍ ﺑﺮﺍﯼ ﺁﻥ
√ √
2−mH−ﺭﺍ ﺑﺮﺍﯼ ﻣﻘﺎﺩﯾﺮ ﻣﺨﺘﻠﻒ kﻭ mﺣﺴﺎﺏ ﮐﻨﯿﺪ .ﺍﯾﻦ ﮐﻤﯿﺖ ﻫﺎ mA
2−mH+ﻭ mA
ﺣﺴﺎﺏ ﮐﻨﯿﺪ .ﺳﭙﺲ ﮐﻤﯿﺖ ﻫﺎﯼ
ﺳﻮﺍﻝ ﺁﺧﺮ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺗﻌﺪﺍﺩ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﭘﺎﺳﺦ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍﻝ ﺑﺎ ﺗﺮﮐﯿﺐ ﺩﻭ ﻧﺘﯿﺠﻪ ﻗﺒﻠﯽ ﺑﺪﺳﺖ ﻣﯽ
ﺁﻭﺭ ﯾﻢ .ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺑﻪ ﻃﻮﻝ mﺭﺍ ﺑﺎ ) Ntypical (mﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ .ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﯾﮑﻨﻮﺍﺧﺖ ﺑﻮﺩﻥ ﺗﺎﺑﻊ
N
1− ≤ Ntypical (m)Ptypical (α) ≤ 1. )(۹۳
k2
ﻫﺮﮔﺎﻩ ﺑﻪ ﺣﺪﻭﺩﯼ ﮐﻪ ﺭ ﻭﯼ ) Ptypical (αﺑﺪﺳﺖ ﺁﻭﺭﺩﯾﻢ ﺩﻗﺖ ﮐﻨﯿﻢ ﻧﺘﯿﺠﻪ ﻣﯽ ﺷﻮﺩ ﮐﻪ:
)N mH(X
(1 − )2 ≤ Ntypical (m) ≤ 2mH(X) . )(۹۴
k2
ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﻧﺒﺎﺷﺪ ﺭﺍ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﺎ ﺑﺰ ﺭﮒ ﮐﺮﺩﻥ kﻫﺮ ﭼﻘﺪﺭ ﮐﻪ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﮐﻮﭼﮏ ﮐﻨﯿﻢ .
nﺗﻤﺮ ﯾﻦ :ﺍﻟﻔﺒﺎﯾﯽ ﮐﻪ ﺩﺭ ﺭﺍﺑﻄﻪ ) (۴۶ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ ﺭﺍ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ.
ﺍﻟﻒ :ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺍﺯ 0.95ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ .ﺣﺴﺎﺏ ﮐﻨﯿﺪ ﮐﻪ ﺗﺎ ﭼﻨﺪ ﺗﺎ ﻭﺍﺭ ﯾﺎﻧﺲ ﻧﺴﺒﺖ ﺑﻪ ﻣﺘﻮﺳﻂ
ﺏ :ﺍﮔﺮ ﻃﻮﻝ ﺭﺷﺘﻪ ﻫﺎ ﺑﺮﺍﺑﺮ ﺑﺎ 100ﺑﺎﺷﺪ ،ﺣﺪﻭﺩ ﺑﺎﻻ ﻭ ﭘﺎﯾﯿﻦ ﺭﺍ ﺑﺮﺍﯼ ﺗﻌﺪﺍﺩ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺣﺴﺎﺏ ﮐﻨﯿﺪ .ﺣﺴﺎﺏ ﮐﻨﯿﺪ
۳۰
ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺭﺍ ﺑﺎ ﭼﻨﺪ ﺗﺎ ﺑﯿﺖ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﮐﺪ ﮐﻨﯿﻢ ﯾﻌﻨﯽ ﭼﻘﺪﺭ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺁﻧﻬﺎ ﺭﺍ ﻓﺸﺮﺩﻩ ﮐﻨﯿﻢ.
ﺝ :ﻣﻘﺪﺍﺭ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺭﺍ ﺑﺮﺍﯼ ﻭﻗﺘﯽ ﮐﻪ ﻃﻮﻝ ﺭﺷﺘﻪ ﻫﺎ ﺑﺮﺍﺑﺮ ﺑﺎ 500ﺍﺳﺖ ﻧﯿﺰ ﺣﺴﺎﺏ ﮐﻨﯿﺪ.
nﺗﻤﺮ ﯾﻦ :ﺗﻤﺮ ﯾﻦ ﻗﺒﻠﯽ ﺭﺍ ﺑﺮﺍﯼ ﺍﻟﻔﺒﺎﯼ ﻣﻌﺮﻓﯽ ﺷﺪﻩ ﺩﺭ ﺭﺍﺑﻄﻪ ) (۵۳ﻧﯿﺰ ﺍﻧﺠﺎﻡ ﺩﻫﯿﺪ.
nﺗﻤﺮ ﯾﻦ :ﺗﻤﺮ ﯾﻦ ﻗﺒﻠﯽ ﺭﺍ ﺑﺮﺍﯼ ﺍﻟﻔﺒﺎﯼ ﻣﻌﺮﻓﯽ ﺷﺪﻩ ﺩﺭ ﺭﺍﺑﻄﻪ ) (۵۵ﻧﯿﺰ ﺍﻧﺠﺎﻡ ﺩﻫﯿﺪ.
۷ﺿﻤﯿﻤﻪ
ﺍﻭﻟﯿﻦ ﻣﺴﺌﻠﻪ ﺍﯼ ﮐﻪ ﺑﺎﺁﻥ ﻣﻮﺍﺟﻪ ﻫﺴﺘﯿﻢ ﯾﮑﺘﺎﯾﯽ ﮐﺪ ﮔﺸﺎﯾﯽ ﺍﺳﺖ .ﺑﺮﺍﯼ ﻣﺜﺎﻝ ﺑﻪ ﺟﺪﻭﻝ ﺷﻤﺎﺭﻩ ﯾﮏ ﺗﻮﺟﻪ ﮐﻨﯿﺪ:
ﮐﻪ ﺩﺭﺁﻥ ﺳﺘﻮﻥ ﺳﻤﺖ ﭼﭗ ﮐﻠﻤﻪ ﻫﺎ ﻭ ﺳﺘﻮﻥ ﺳﻤﺖ ﺭﺍﺳﺖ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﺭﺍ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﺪ .ﺣﺎﻝ ﻫﺮﮔﺎﻩ ﮐﺪ ﭘﯿﺎﻡ 010ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ
ﮐﻨﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺁﻥ ﺭﺍ ﺑﻪ ﮐﺪﯼ ﺑﺮﺍﯼ ﻫﺮﮐﺪﺍﻡ ﺍﺯ ﭘﯿﺎﻡ ﻫﺎﯼ x2 , x3 x1 , x1 x4ﺗﻌﺒﯿﺮ ﮐﻨﯿﻢ .ﺩﺭﻧﺘﯿﺠﻪ ﺍﯾﻦ ﻧﻮﻉ ﮐﺪ ﮔﺬﺍﺭﯼ ﺩﺍﺭﺍﯼ ﺍﺑﻬﺎﻡ
ﺯﯾﺎﺩ ﺍﺳﺖ ﻭ ﮐﺪ ﮔﺬﺍﺭﯼ ﺧﻮﺑﯽ ﻧﯿﺴﺖ .ﻧﺨﺴﺖ ﺑﺎﯾﺪ ﯾﮏ ﺻﻔﺖ ﺍﺳﺎﺳﯽ ﺍﺯ ﻫﺮﻧﻮﻉ ﮐﺪﮔﺬﺍﺭﯼ ﺭﺍ ﻣﺸﺨﺺ ﮐﻨﯿﻢ.
ﯾﮏ ﺭﺍﻩ ﺑﺮﺍﯼ ﻧﻮﺷﺘﻦ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺗﻘﺎﺿﺎ ﮐﻨﯿﻢ ﻫﯿﭻ ﮐﺪ ﮐﻠﻤﻪﺍﯼ ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪٔ ﺩﯾﮕﺮﯼ ﻧﺒﺎﺷﺪ.
ﺗﻌﺮ ﯾﻒ :ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ Aﭘﯿﺸﻮﻧﺪ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ Bﺧﻮﺍﻧﺪﻩ ﻣﯽ ﺷﻮﺩ ﺍﮔﺮ Bﺭﺍ ﺑﺘﻮﺍﻥ ﺑﻪ ﺻﻮﺭﺕ B = ACﻧﻮﺷﺖ ﮐﻪ ﺩﺭﺁﻥ C
ﺩﻟﺨﻮﺍﻩ ﺍﺳﺖ ﻭ ﻟﺰ ﻭﻣﯽ ﻧﺪﺍﺭﺩ ﮐﻪ ﺧﻮﺩ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ﺑﺎﺷﺪ .ﺩﺭﺟﺪﻭﻝ ) x1 (7ﭘﯿﺸﻮﻧﺪ x2ﻭ x3ﺍﺳﺖ x3 .ﻧﯿﺰ ﭘﯿﺸﻮﻧﺪ x2ﺍﺳﺖ.
ﺗﻌﺮ ﯾﻒ :ﯾﮏ ﮐﺪ ﮐﻪ ﺩﺭﺁﻥ ﻫﯿﭻ ﮐﺪ ﮐﻠﻤﻪ ﺍﯼ ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪ ﺩﯾﮕﺮﯼ ﻧﺒﺎﺷﺪ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺧﻮﺍﻧﺪﻩ ﻣﯽ ﺷﻮﺩ.
۳۱
0 x1
010 x2
01 x3
10 x4
ﺟﺪﻭﻝ :۱ﻣﺜﺎﻟﯽ ﺍﺯ ﯾﮏ ﮐﺪ ﮐﻪ ﺩﺭﺁﻥ ﺑﻌﻀﯽ ﺍﺯﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺩﯾﮕﺮﻧﺪ
0 x1
100 x2
101 x3
11 x4
ﻧﮑﺘﻪ ﻣﻬﻢ ﺩﺭﻣﻮﺭﺩ ﺍﯾﻦ ﻧﻮﻉ ﮐﺪ ﻫﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﻫﺮﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺳﺖ .ﺍﻟﺒﺘﻪ ﻣﻌﮑﻮﺱ ﺍﯾﻦ ﻗﻀﯿﻪ ﺩﺭﺳﺖ ﻧﯿﺴﺖ.
ﺑﺎﺯﻫﻢ ﺑﻪ ﮐﺪ ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﺷﺪﻩ ﺩﺭﺟﺪﻭﻝ ؟؟ ﺩﻗﺖ ﮐﻨﯿﺪ .ﻫﺮﮔﺎﻩ ﮐﺪ ﭘﯿﺎﻣﯽ ﻣﺜﻞ ﺭﺷﺘﻪ
101110100101 )(۹۵
ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ ﮐﻨﯿﻢ ﺗﻨﻬﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺁﻥ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﭘﯿﺎﻡ ﺯﯾﺮ ﺑﺎﺯﮔﺸﺎﯾﯽ ﮐﻨﯿﻢ:
0 x1
01 x2
۳۲
ﺍﯾﻦ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﻧﯿﺴﺖ ﺯﯾﺮﺍ x1ﭘﯿﺸﻮﻧﺪ x2ﺍﺳﺖ .ﺑﺎﺍﯾﻦ ﻭﺟﻮﺩ ﺍﯾﻦ ﮐﺪ ﺑﻪ ﻃﻮﺭ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ .ﺯﯾﺮﺍ ﻫﺮ ﺭﺷﺘﻪ ﺍﯼ ﺭﺍ ﮐﻪ
ﺩﺭ ﯾﺎﻓﺖ ﻣﯽ ﮐﻨﯿﻢ ﺭﺷﺘﻪ ﺍﯼ ﺍﺯ 0ﻫﺎﺳﺖ ﮐﻪ ﺩﺭﺑﻌﻀﯽ ﺟﺎﻫﺎﯼ ﺁﻥ 1ﻫﺎﯼ ﻣﻨﻔﺮﺩ ﻗﺮﺍﺭﮔﺮﻓﺘﻪ ﺍﻧﺪ ،ﻣﺜﻞ ﺭﺷﺘﻪ ﺯﯾﺮ:
ﭼﻨﯿﻦ ﺭﺷﺘﻪ ﺍﯼ ﺑﻪ ﺁﺳﺎﻧﯽ ﻗﺎﺑﻞ ﮔﺸﺎﯾﺶ ﺍﺳﺖ ﻭ ﮐﺪﯼ ﺑﺮﺍﯼ ﭘﯿﺎﻡ ﺯﯾﺮﺍﺳﺖ:
ﺩﺭ ﺯﯾﺮ ﺭ ﻭﺷﯽ ﺭﺍ ﺑﯿﺎﻥ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺑﻪ ﮐﻤﮏ ﺁﻥ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺗﺸﺨﯿﺺ ﺑﺪﻫﯿﻢ ﮐﻪ ﺁﯾﺎ ﯾﮏ ﮐﺪ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ ﯾﺎﺧﯿﺮ.
ﻓﺮﺽ ﮐﻨﯿﺪﮐﻪ S0ﻣﺠﻤﻮﻋﻪ ﻫﻤﻪ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎ ﺑﺎﺷﺪ .ﻣﺠﻤﻮﻋﻪ ﺗﻤﺎﻡ ﭘﺴﻮﻧﺪﻫﺎﯾﯽ ﺭﺍ ﮐﻪ ﺩﺭ S0ﻭﺟﻮﺩ ﺩﺍﺭﺩ ﺩﺭﻣﺠﻤﻮﻋﻪ ﺩﯾﮕﺮﯼ ﺑﻪ
ﺍﻟﻒ :ﺍﮔﺮ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ A ∈ S0ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪ ﺍﯼ ﻣﺜﻞ w = AB ∈ Sn−1ﺑﺎﺷﺪ B ،ﺭﺍ ﺩﺭ Snﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ.
nﻗﻀﯿﻪ :ﯾﮏ ﮐﺪ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ ﺍﮔﺮ ﻭﻓﻘﻂ ﺍﮔﺮ .S0 ∩ [S1 ∪ S2 ∪ S3 · · ·] = ϕ
ﺯﯾﺮﺍ:
ﻭ .S0 ∩ S1 ̸= ϕ
۳۳
0 x1
010 x2
01 x3
10 x4
0 x1
001 x2
ﺯﯾﺮﺍ:
a x1
c x2
ad x3
bad x5
deb x6
bbcde x7
۳۴
S1 }= {d, bb
nﻗﻀﯿﻪ)ﺷﺮﻁ ﻻﺯﻡ ﻭ ﮐﺎﻓﯽ ﺑﺮﺍﯼ ﻭﺟﻮﺩ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ( :ﻣﺠﻤﻮﻋﻪ ﮐﻠﻤﻪ ﻫﺎﯼ } X = {x1 , x2 , · · · xMﻭ ﻣﺠﻤﻮﻋﻪ ﺣﺮ ﻭﻑ
ﺍﻟﻔﺒﺎﯼ } A := {a1 , a2 , · · · aDﺩﺍﺩﻩ ﺷﺪﻩ ﺍﻧﺪ .ﻣﺠﻤﻮﻋﻪ ﺍﻋﺪﺍﺩ ﺻﺤﯿﺢ } {n1 , n2 , · · · nMﻧﯿﺰ ﻣﻔﺮ ﻭﺽ ﺍﻧﺪ .ﺁﯾﺎ ﯾﮏ ﮐﺪ
ﻟﺤﻈﻪ ﺍﯼ ﻣﯽ ﺗﻮﺍﻥ ﺍﺯ ﺍﻟﻔﺒﺎﯼ Aﻧﻮﺷﺖ ﮐﻪ ﻃﻮﻝ ﻫﺎﯼ } {n1 , n2 , · · · nMﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ؟ ﭘﺎﺳﺦ ﺍﯾﻦ ﺳﻮﺍﻝ ﻣﺜﺒﺖ ﺍﺳﺖ ﺍﮔﺮ ﻭﻓﻘﻂ
∑M
1
ni
≤ 1. )(۱۰۴
i=1
D
ﻧﺘﯿﺠﻪ :ﺑﺮﺍﯼ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺑﺎﺍﺣﺘﺴﺎﺏ ﻧﻘﻄﻪ ،ﮐﺎﻣﺎ ،ﻭﺩﯾﮕﺮﻋﻼﺋﻢ ﺩﺍﺭ ﯾﻢ .M = 32 :ﻫﻢ ﭼﻨﯿﻦ ﺍﮔﺮ ﺑﺨﻮﺍﻫﯿﻢ ﺍﺯ ﺍﻟﻔﺒﺎﯼ
۳۵
∑
ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ ﺩﺍﺭ ﯾﻢ .D = 2ﺑﻨﺎﺑﺮﺍﯾﻦ ﺑﺎﯾﺪﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ: }:= {0, 1
∑32
1
≤ 1 −→ nmin ≥ 5. )(۱۰۵
i=1
2ni
nﺍﺛﺒﺎﺕ :ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺯﻧﻤﻮﺩﺍﺭﻫﺎﯼ ﺩﺭﺧﺘﯽ ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ .ﯾﮏ ﺩﺭﺧﺖ ﺑﺎ ﻣﺮﺗﺒﻪ Dﻭ ﺍﻧﺪﺍﺯﻩ kﺩﺭﺧﺘﯽ ﺍﺳﺖ ﮐﻪ Dﺭ ﯾﺸﻪ ﺩﺍﺭﺩ ﻭ
ﺍﺯﻫﺮ ﺭ ﯾﺸﻪ ﻧﯿﺰ Dﺷﺎﺧﻪ ﻣﻨﺸﻌﺐ ﻣﯽ ﺷﻮﺩ ﻭﺍﯾﻦ ﮐﺎﺭ ﺍﺩﺍﻣﻪ ﻣﯽ ﯾﺎﺑﺪ ﺗﺎ k − 1ﻣﺮﺣﻠﻪ .ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻌﺪﺍﺩ ﺷﺎﺧﻪ ﻫﺎﯼ ﺁﺧﺮ ﯾﻦ
ﻣﺮﺣﻠﻪ ﻋﺒﺎﺭﺕ ﺍﺳﺖ ﺍﺯ D .Dkﺭ ﯾﺸﻪ ﺍﻭﻝ ﺩﺭﺧﺖ ﻣﺘﻨﺎﺳﺐ ﺑﺎ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺗﮏ ﺣﺮﻓﯽ } {1, 2, 3 · · · Dﻫﺴﺘﻨﺪ .ﺷﺎﺧﻪ ﻫﺎﯼ
ﻣﺮﺣﻠﻪ ﺑﻌﺪ ﻣﺘﻨﺎﺳﺐ ﺑﺎ ﮐﺪ ﮐﻠﻤﺎﺕ ﺩﻭ ﺣﺮﻓﯽ ﻫﺴﺘﻨﺪ ﻣﺜﻞ } {11, 12, · · · DDﻭ ﻫﻤﯿﻨﻄﻮﺭ ﺗﺎ ﺁﺧﺮ .ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﻫﺮ ﮐﺪﮐﻠﻤﻪ
ﻣﺘﻨﺎﺳﺐ ﺑﺎﯾﮑﯽ ﺍﺯ ﮔﺮﻩ ﻫﺎﯼ ﺍﯾﻦ ﺩﺭﺧﺖ ﻣﯽ ﺷﻮﺩ .ﺣﺎﻝ ﺍﮔﺮ ﺑﺨﻮﺍﻫﯿﻢ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺴﺎﺯﯾﻢ ﻣﯽ ﺑﺎﯾﺴﺖ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ
ﺧﻮﺩ ﺭﺍ ﺍﺯ ﺷﺎﺧﻪ ﻫﺎﯼ ﺍﯾﻦ ﺩﺭﺧﺖ ﺑﻪ ﻧﺤﻮ ﺧﺎﺻﯽ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ .ﻫﺮ ﮐﺪ ﮐﻠﻤﻪ ﯾﺎ ﻫﺮﮔﺮﻩ ﮐﻪ ﺍﺯ ﺍﯾﻦ ﺩﺭﺧﺖ ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ
ﻣﯽ ﺑﺎﯾﺴﺖ ﺗﻤﺎﻡ ﺷﺎﺧﻪ ﻫﺎﯼ ﻣﻨﺸﻌﺐ ﺍﺯ ﺁﻥ ﮔﺮﻩ ﺭﺍ ﮐﻨﺎﺭﺑﮕﺬﺍﺭ ﯾﻢ ﺯﯾﺮﺍ ﻫﻤﻪ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﻣﺮﺑﻮﻁ ﺑﻪ ﺁﻥ ﺷﺎﺧﻪ ﻫﺎ ﮐﻠﻤﻪ ﻣﺮﺑﻮﻁ
ﺑﻪ ﺍﯾﻦ ﮔﺮﻩ ﺭﺍ ﺑﻪ ﻋﻨﻮﺍﻥ ﭘﯿﺸﻮﻧﺪ ﺧﻮﺩ ﺩﺍﺭﻧﺪ .ﺍﮔﺮ ﻃﻮﻝ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ﮐﻪ ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ ﺑﺮﺍﺑﺮﺑﺎ iﺑﺎﺷﺪ ،ﺗﻌﺪﺍﺩ ﺷﺎﺧﻪ ﻫﺎﯾﯽ
ﮐﻪ ﺍﺯﺁﻥ ﻣﻨﺸﻌﺐ ﻣﯽ ﺷﻮﺩ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ .Dk−iﺑﻨﺎﺑﺮﺍﯾﻦ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ ﮐﺪﮐﻠﻤﻪ ﺑﻪ ﻃﻮﻝ iﺗﻌﺪﺍﺩ Dk−iﺗﺎ ﺍﺯ ﺷﺎﺧﻪ ﻫﺎ ﺣﺬﻑ ﻣﯽ
ﮐﻪ ﺑﺎﺗﻘﺴﯿﻢ ﻃﺮﻓﯿﻦ ﺑﺮ Dkﺑﻪ ﺭﺍﺑﻄﻪ ) (116ﻣﯽ ﺭﺳﯿﻢ .ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺭﺍ ﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﻧﯿﺰ ﻧﻮﺷﺖ:
∑
wi D−i ≤ 1, )(۱۰۷
i
ﺣﺎﻝ ﻣﻌﮑﻮﺱ ﻗﻀﯿﻪ ﺭﺍ ﺛﺎﺑﺖ ﻣﯽ ﮐﻨﯿﻢ :ﺗﺎﮐﻨﻮﻥ ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﮐﻪ ﺍﮔﺮ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺎﺷﺪ ﻣﯽ ﺑﺎﯾﺴﺖ ﺷﺮﻁ ) (116ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ.
ﺣﺎﻝ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ ﮐﻪ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ ) (n1 , n2 , · · · nMﮐﻪ ﺩﺭﺷﺮﻁ ) (116ﺻﺪﻕ ﮐﻨﺪ ﻣﯽ ﺗﻮﺍﻥ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺳﺎﺧﺖ.
۳۶
niﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﻣﺮﺗﺐ ﻣﯽ ﮐﻨﯿﻢ:
ﺣﺎﻝ ﯾﮏ ﻧﻘﻄﻪ ﺑﻪ ﺍﻧﺪﺍﺯﻩ n1ﺭﺍ ﺭ ﻭﯼ ﺩﺭﺧﺖِ ﺑﺎ ﻣﺮﺗﺒﻪ Dﻭﺍﻧﺪﺍﺯﻩ nMﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ .ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﺗﻌﺪﺍﺩ DnM −n1ﻧﻘﻄﻪ
ﺣﺬﻑ ﻣﯽ ﺷﻮﻧﺪ .ﺗﻌﺪﺍﺩ ﻧﻘﺎﻁ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ .DnM − DnM −n1ﻧﻘﻄﻪ ﺩﻭﻡ ﺭﺍ ﺑﻪ ﻃﻮﻝ n2ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ .ﺍﯾﻦ
ﻧﻘﻄﻪ ﺗﻌﺪﺍﺩ DnM −n2ﻧﻘﻄﻪ ﺩﯾﮕﺮ ﺭﺍ ﺣﺬﻑ ﻣﯽ ﮐﻨﺪ .ﺗﻌﺪﺍﺩﻧﻘﺎﻁ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ .DnM − DnM −n1 − DnM −n2ﺍﯾﻦ
ﮐﺎﺭ ﺭﺍ ﺍﺩﺍﻣﻪ ﻣﯽ ﺩﻫﯿﻢ ﺗﺎ ﻧﻘﻄﻪ ﻣﺎﻗﺒﻞ ﺁﺧﺮ ﮐﻪ ﻃﻮﻝ ﺁﻥ nM −1ﺍﺳﺖ .ﺍﯾﻦ ﻧﻘﻄﻪ ﻧﯿﺰ ﺗﻌﺪﺍﺩ DnM −nM −1ﺭﺍ ﺣﺬﻑ ﻣﯽ ﮐﻨﺪ.
ﺁﯾﺎ ﺩﺭﺧﺖ ﻣﻮﺭﺩﻧﻈﺮ ﺍﯾﻦ ﻫﻤﻪ ﺟﺎ ﺩﺍﺭﺩ؟ ﺑﺮﺍﯼ ﭘﺎﺳﺦ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍ ﻝ ﮐﺎﻓﯽ ﺍﺳﺖ ﮐﻪ ﺗﻌﺪﺍﺩ ﻧﻘﺎﻁ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺭﺍ ﺑﻌﺪ ﺍﺯ ﻣﺮﺣﻠﻪ ﻣﺎﻗﺒﻞ
Q = DnM − DnM −n1 − DnM −n2 − · · · DnM −nM −1
[ ]
= DnM 1 − D−n1 − D−n2 − · · · D−nM −1 )(۱۰۹
∑
M ∑
M −1
−ni
D ≤ 1 −→ 1 − D−ni ≤ D−nM )(۱۱۰
i=1 i=1
ﻭ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﺣﺪﺍﻗﻞ ﯾﮏ ﺍﻧﺘﺨﺎﺏ ﺑﺮﺍﯼ ﺁﺧﺮ ﯾﻦ ﮐﺪ ﮐﻠﻤﻪ ﺑﺎﻗﯽ ﻣﯽ ﻣﺎﻧﺪ .ﺍﺛﺒﺎﺕ ﻗﻀﯿﻪ ﺩﺭﺍﯾﻦ ﺟﺎ ﮐﺎﻣﻞ
ﻣﯽ ﺷﻮﺩ.
nﻗﻀﯿﻪ :ﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺷﺮﻁ ﻻﺯﻡ ﻭ ﮐﺎﻓﯽ ﺑﺮﺍﯼ ﺳﺎﺧﺘﻦ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎﮔﺸﺎﺳﺖ.
ﺍﺛﺒﺎﺕ :ﺍﻟﻒ :ﺍﮔﺮ ﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﻣﻄﺎﺑﻖ ﺑﺎ ﻗﻀﯿﻪ ﻗﺒﻞ ﺑﺴﺎﺯﯾﻢ ﻭ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﮐﺪ ﻫﺎﯼ
۳۷
ﺏ :ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎﺩﺍﺭ ﯾﻢ .ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﮐﻪ ﺣﺘﻤﺎً ﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭﺍﺳﺖ .ﺑﺠﺎﯼ ﻋﺒﺎﺭﺕ
∑r ∑
ﺭﺍ ﺑﮑﺎﺭﻣﯽ ﺑﺮ ﯾﻢ ﮐﻪ ﺩﺭﺁﻥ wiﺗﻌﺪﺍﺩﮐﻠﻤﺎﺕ ﺑﺎ ﻃﻮﻝ iﺍﺳﺖ .ﺣﺎﻝ ﻋﺒﺎﺭﺕ ﺍﺧﯿﺮ ﺭﺍﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﺻﻮﺭﺕ i=1 ﻋﺒﺎﺭﺕ wi D−i i D−ni
( )n
∑
r ∑
nr
−i
wi D = Xk D−k , )(۱۱۱
i=1 k=r
ﮐﻪ ﺩﺭﺁﻥ Xkﺗﻌﺪﺍﺩﮐﻞ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺑﺎ ﻃﻮﻝ kﺩﺭﮐﺪﮔﺬﺍﺭﯼ ﺭﺷﺘﻪ ﻫﺎﯼ rﺗﺎﯾﯽ ﺍﺳﺖ .ﺍﻣﺎ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﮐﺪ ﺍﺯﻧﻮﻉ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻧﯽ
ﺍﺳﺖ .ﺩﺭﺿﻤﻦ ﺗﻌﺪﺍﺩ ﮐﻞ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺑﺎﻃﻮﻝ kﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ .Dkﭼﻮﻥ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎﮔﺸﺎ ﺯﯾﺮﻣﺠﻤﻮﻋﻪ ﮐﻠﯿﻪ ﮐﺪ ﻫﺎﻫﺴﺘﻨﺪ ﻧﺘﯿﺠﻪ
ﻭ ﺍﺯﺁﻧﺠﺎ
( )
∑
r
−i 1
wi D ≤ (1 + (n − 1)r) n . )(۱۱۳
i=1
nﻗﻀﯿﻪ ﮐﺪﮔﺬﺍﺭﯼ ﺑﺪﻭﻥ ﻧﻮﻓﻪ :ﻣﺠﻤﻮﻋﻪ ﮐﻠﻤﺎﺕ } X = {x1 , x2 , · · · xMﮐﻪ ﺩﺭﺁﻥ ﻧﻤﺎﺩ xiﺑﺎ ﺍﺣﺘﻤﺎﻝ ) Pi := P (xiﻇﺎﻫﺮ ﻣﯽ
ﺷﻮﺩ ﻭ ﻣﺠﻤﻮﻋﻪ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ } A := {a1 , a2 , · · · aDﺩﺍﺩﻩ ﺷﺪﻩ ﺍﻧﺪ .ﺍﯾﻦ ﻧﻤﺎﺩ ﻫﺎ ﺑﺎ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ } {w1 , w2 , · · · wMﮐﺪ
ﺷﺪﻩ ﺍﻧﺪ ﻭ ﻃﻮﻝ ﻫﺮﮐﺪﮐﻠﻤﻪ wiﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ) .ni := l(wiﻫﺪﻑ ﻣﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﺪﮐﻠﻤﻪ ﻫﺎ ﺭﺍ ﮐﻤﯿﻨﻪ ﮐﻨﯿﻢ ﯾﻌﻨﯽ
ﻣﺠﻤﻮﻋﻪ ﺍﻋﺪﺍﺩ ﺻﺤﯿﺢ } {n1 , n2 , · · · nMﻧﯿﺰ ﻣﻔﺮ ﻭﺽ ﺍﻧﺪ .ﺑﻬﺘﺮ ﯾﻦ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎﯾﯽ ﮐﻪ ﻣﯽ ﺗﻮﺍﻥ ﺑﺮﺍﯼ ﮐﺪﮐﺮﺩﻥ ﺍﯾﻦ
ﺍﻟﻔﺒﺎﺳﺎﺧﺖ ،ﯾﻌﻨﯽ ﮐﺪ ﯾﮑﺘﺎﮔﺸﺎﯾﯽ ﮐﻪ ﮐﻤﺘﺮ ﯾﻦ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺭﺍ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﮐﺪﯼ ﺍﺳﺖ ﺑﺎ ﻃﻮﻝ ﻣﺘﻮﺳﻂ
)H(X
=n . )(۱۱۵
log D
۳۸
nﺍﺛﺒﺎﺕ :ﻧﺨﺴﺖ ﺗﻮﺟﻪ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﮐﺪ ﻣﻮﺭﺩﻧﻈﺮﻣﺎﯾﮑﺘﺎ ﮔﺸﺎﺳﺖ ﺍﮔﺮ ﻭﻓﻘﻂ ﺍﮔﺮ ﺷﺮﻁ ﺯﯾﺮ ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ:
∑M
1
ni
≤ 1. )(۱۱۶
i=1
D
ﺑﻘﯿﻪ ﺍﺛﺒﺎﺕ ﺭﺍ ﺩﺭﺳﻪ ﻣﺮﺣﻠﻪ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ .ﺍﺯ ﺍﯾﻦ ﺑﻪ ﺑﻌﺪ ﻧﯿﺰ ﻣﺎ ﻓﻘﻂ ﺩﺭﺑﺎﺭﻩ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺣﺮﻑ ﻣﯽ ﺯﻧﯿﻢ .ﺩﺭﻣﺮﺣﻠﻪ
)H(X
≥n )(۱۱۷
logD
ﮐﻪ ﺩﺭﺁﻥ ﺷﺮﻁ ﺗﺴﺎﻭﯼ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﺍﮔﺮ ﻭﻓﻘﻂ ﺍﮔﺮ .pi = D−ni
ﺩﺭﻣﺮﺣﻠﻪ ﺩﻭﻡ ﺗﺤﻘﯿﻖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﭼﻘﺪﺭ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺍﯾﻦ ﺣﺪ ﭘﺎﯾﯿﻦ ﻧﺰﺩﯾﮏ ﺷﺪ .ﻭ ﺑﺎﻻﺧﺮﻩ ﺩﺭﻣﺮﺣﻠﻪ ﺳﻮﻡ ﺑﻬﺘﺮ ﯾﻦ ﮐﺪ ﻣﻤﮑﻦ
ﺭﺍ ﻣﯽ ﺳﺎﺯﯾﻢ.
∑
M ∑
M
log pi
ni pi ≥ − pi , )(۱۱۸
i=1 i=1
log D
ﻭ ﯾﺎ
∑
M ∑
M
(ni log D)pi ≥ − pi log pi . )(۱۱۹
i=1 i=1
∑ ∑
−pi log pi ≤ − pi log qi , )(۱۲۰
i
D−ni
qi := ∑M )(۱۲۱
−ni
i=1 D
۳۹
ﻭ ﺍﺯ ﺭﺍﺑﻄﻪ ) (118ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ .ﯾﮏ ﻣﺤﺎﺳﺒﻪ ﺳﺎﺩﻩ ﻣﻨﺠﺮﺑﻪ ﺭﺍﺑﻄﻪ ﺯﯾﺮﺧﻮﺍﻫﺪ ﺷﺪ:
∑
M
(H(X) ≤ n log D + log D−ni ), )(۱۲۲
i=1
D−ni
pi = ∑M . )(۱۲۳
−ni
i=1 D
∑M
ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ i=1 ﺣﺎﻝ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺍﯾﻨﮑﻪ ﺑﺮﺍﯼ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎﮔﺸﺎﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭ ﺍﺳﺖ ﯾﻌﻨﯽ D−ni ≤ 1
∑M
logﻭ ﺍﺯﺁﻧﺠﺎ ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ ﮐﻪ i=1 D−ni ≤ 0
1
ni = logDﺗﺒﻌﯿﺖ ﮐﻨﺪ ،ﺁﻧﮕﺎﻩ ﺧﻮﺍﻫﯿﻢ pi ﻫﺮﮔﺎﻩ ﺑﺘﻮﺍﻧﯿﻢ ﯾﮏ ﮐﺪ ﺭﺍ ﭼﻨﺎﻥ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﮐﻪ ﻃﻮﻝ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺁﻥ ﺍﺯ ﺭﺍﺑﻄﻪ
ﺑﺮﺍﯼ ﺍﺛﺒﺎﺕ ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﺍﺯ ﺭﺍﺑﻄﻪ 122ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ ﻭ ﺑﻪ ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﻣﯽ ﺭﺳﯿﻢ ﮐﻪ
∑
M
(n log D ≤ n log D + log D−i ), )(۱۲۵
i=1
∑M ∑M
.ﺍﻣﺎﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺭﺍﺑﻄﻪ 123ﺍﯾﻦ ﻧﺘﯿﺠﻪ i=1 ،ﺑﻪ ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﻣﯽ ﺭﺳﯿﻢ ﮐﻪ D−j = 1 i=1 ﻭﺍﺯﺁﻧﺠﺎ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺍﯾﻨﮑﻪ D−ni ≤ 1
)H(X
= .n log D nﺗﻌﺮ ﯾﻒ :ﯾﮏ ﮐﺪ ﮐﺎﻣﻼ ﺑﻬﯿﻨﻪ ﮐﺪﯼ ﺍﺳﺖ ﮐﻪ ﺑﺮﺍﯼ ﺁﻥ
۴۰
Cw P X
1
0 2 x1
10 1
x2 )(۱۲۶
4
1
110 8 x3
1
111 8 x4
1
.ni = log pi ﺍﯾﻦ ﮐﺪ ﺩﺍﺭﺍﯼ ﺍﯾﻦ ﺧﺎﺻﯿﺖ ﺍﺳﺖ ﮐﻪ
1 H
ni = logDﻣﻌﻠﻮﻡ ﻧﯿﺴﺖ pi = nﺑﺮﻗﺮﺍﺭﺷﻮﺩ ،ﺯﯾﺮﺍ ﺍﻋﺪﺍﺩ log D ﺩﺭﺣﺎﻟﺖ ﮐﻠﯽ ﻣﻌﻠﻮﻡ ﻧﯿﺴﺖ ﮐﻪ ﺑﺘﻮﺍﻥ ﮐﺪ ﺭﺍﭼﻨﺎﻥ ﻃﺮﺍﺣﯽ ﮐﺮﺩ ﮐﻪ ﺣﺪ
ﮐﻪ ﺻﺤﯿﺢ ﺑﺎﺷﻨﺪ .ﺑﺎﺍﯾﻦ ﻭﺟﻮﺩ ﻣﯽ ﺗﻮﺍﻥ ﮐﺎﺭﯼ ﮐﺮﺩ ﮐﻪ ﺷﺮﻁ ﺯﯾﺮ ﺑﺮﻗﺮﺍﺭﺷﻮﺩ:
1 1
logD ≤ ni ≤ logD + 1. )(۱۲۷
pi pi
)H(X )H(X
≤≤n + 1. )(۱۲۸
log D log D
ﺣﺎﻝ ﻧﮑﺘﻪ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﻫﺮﻗﺪﺭﺑﺨﻮﺍﻫﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺣﺪّ ﭘﺎﯾﯿﻦ ﻧﺎﻣﺴﺎﻭﯼ ﺑﺎﻻ ﻧﺰﺩﯾﮏ ﺷﻮﯾﻢ .ﺑﺮﺍﯼ ﺍﯾﻦ ﮐﺎﺭ ﻣﯽ ﺑﺎﯾﺴﺖ ﺍﺯ ﮐﺪﻫﺎﯼ
ﭼﻨﺪﺗﺎﯾﯽ ﯾﺎ ﮐﺪﻫﺎﯼ ﺑﻠﻮﮐﯽ ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ .ﻓﺮﺽ ﮐﻨﯿﺪ ﺑﻪ ﺟﺎﯼ ﮐﺪ ﻧﮕﺎﺭﯼ Xﺭﺷﺘﻪ ﻫﺎﯼ sﺗﺎﯾﯽ ﺍﺯ Xﻫﺎ ﺭﺍﮐﺪ ﻧﮕﺎﺭﯼ ﮐﻨﯿﻢ ،ﯾﻌﻨﯽ
ﺭﺷﺘﻪ ﻫﺎﯼ ) Y = (X1 , X2 , · · · Xsﺭﺍ .ﺣﺎﻝ ﺑﺎﯾﺪ ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﮐﻪ ﺗﺤﺖ ﺍﯾﻦ ﺷﺮﺍﯾﻂ ﻃﻮﻝ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ Xﭘﺎﯾﯿﻦ ﻣﯽ ﺁﯾﺪ.
ﺑﻪ ﺭﺍﺑﻄﻪ ) (127ﺩﻗﺖ ﻣﯽ ﮐﻨﯿﻢ .ﺍﺯﺁﻧﺠﺎ ﮐﻪ ) ،Y = (X1 , X2 , · · · Xsﮐﻠﻤﻪ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ sﺗﺎﯾﯽ ﻫﺎﯼ ﺍﺯﻧﻮﻉ ) yij = (xi , xj , · · · xs
۴۱
ﻫﺴﺘﻨﺪ .ﺩﺍﺭ ﯾﻢ
∑
H(Y ) = − pij··· log pij··· . )(۱۲۹
···i,j,
ﭼﻮﻥ ﮐﻠﻤﺎﺕ ﭘﯿﺎﻡ Yﺍﺯﻫﻢ ﻣﺴﺘﻘﻞ ﻫﺴﺘﻨﺪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ .H(Y ) = sH(X) :ﻭﺑﻨﺎﺑﺮﺍﯾﻦ
) H(Y ) H(Y
≤≤n + 1, )(۱۳۰
log D log D
ﻭﯾﺎ
1
ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﻫﺮ ﮐﺪ ﮐﻠﻤﻪ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ ﮐﻠﻤﻪ ﺩﺭ Xﺍﺳﺖ ﻭﺩﺭﺣﺪ sﻫﺎﯼ ﺑﺰ ﺭﮒ ﺩﯾﺪﻩ ﻣﯽ ﺷﻮﺩ ﮐﻪ ﻣﺎ ﺑﻪ ﺣﺪ sn ﺩﺭﺍﯾﻦ ﺭﺍﺑﻄﻪ
ﺣﺎﻝ ﺑﺎﯾﺪ ﺁﻟﮕﻮﺭ ﯾﺘﻤﯽ ﺭﺍ ﻣﻌﺮﻓﯽ ﮐﻨﯿﻢ ﮐﻪ ﮐﺪ ﻫﺎﯼ ﺑﻬﯿﻨﻪ ﺭﺍ ﺑﻪ ﻃﻮﺭ ﺭ ﻭﺷﻤﻨﺪ ﻣﯽ ﺳﺎﺯﺩ .ﻧﺨﺴﺖ ﺑﻪ ﯾﮏ ﻟﻢ ﺍﺣﺘﯿﺎﺝ ﺩﺍﺭ ﯾﻢ:
ﻟﻢ :ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺑﺮﺍﯼ ﺍﺣﺘﻤﺎﻻﺕ ،P1 , P2 , · · · PMﯾﮏ ﮐﺪ Cﺩﺭ ﺩﺭ ﻭﻥ ﻣﺠﻤﻮﻋﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﺑﻬﯿﻨﻪ ﺑﺎﺷﺪ .ﯾﻌﻨﯽ
ﻫﯿﭻ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺩﯾﮕﺮﯼ ﺑﺎ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﻤﺘﺮ ﺍﺯ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﻣﺮﺑﻮﻁ ﺑﻪ Cﻭﺟﻮﺩ ﻧﺪﺍﺷﺘﻪ ﺑﺎﺷﺪ .ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺍﯾﻦ ﮐﺪ ﺩﺭﺩﺭ ﻭﻥ
ﺍﺛﺒﺎﺕ :ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﺯﯾﺮﻣﺠﻤﻮﻋﻪ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺳﺖ .ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎﯼ C ′ﺑﺎ ﻃﻮﻝ
ﮐﺪﮐﻠﻤﻪ ﻫﺎﯼ n′1 , n′2 , · · · n′Mﻭﺟﻮﺩ ﺩﺍﺭﺩ ﮐﻪ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺁﻥ ﺍﺯ ﻃﻮﻝ ﻣﺘﻮﺳﻂ Cﮐﻤﺘﺮﺍﺳﺖ .ﺍﻭﻻً ﭼﻮﻥ C ′ﯾﮑﺘﺎ ﮔﺸﺎﺳﺖ ﺑﻨﺎﺑﺮﻗﻀﯿﻪ
∑M ′
.ﺍﻣﺎ ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﻨﺎﺑﺮﻗﻀﯿﻪ ﻗﺒﻞ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺎ ﻃﻮﻝ ﮐﻠﻤﺎﺕ i=1 ﺍﯼ ﮐﻪ ﻗﺒﻼً ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖD−ni ≤ 1 :
n′1 , n′2 , · · · n′Mﻭﺟﻮﺩ ﺧﻮﺍﻫﺪ ﺩﺍﺷﺖ .ﺑﺪﯾﻦ ﺗﺮﺗﯿﺐ ﺑﻬﯿﻨﻪ ﺑﻮﺩﻥ ﮐﺪ Cﺩﺭﺩﺭ ﻭﻥ ﻣﺠﻤﻮﻋﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﻧﯿﺰ ﻧﻘﺾ ﻣﯽ ﺷﻮﺩ.
۴۲
ﺍﺯ ﺍﯾﻦ ﺑﻪ ﺑﻌﺪ ﺗﻮﺟﻪ ﺧﻮﺩ ﺭﺍ ﺑﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﻭ ﺩﻭﺗﺎﯾﯽ binaryﻣﻌﻄﻮﻑ ﻣﯽ ﮐﻨﯿﻢ .ﻧﺨﺴﺖ ﺑﻪ ﯾﮏ ﻟﻢ ﺍﺣﺘﯿﺎﺝ ﺩﺍﺭ ﯾﻢ:
ﻟﻢ :ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ Cﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺎ ﻃﻮﻝ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ n1 , n2 , · · · nMﺑﺮﺍﯼ ﮐﺪ ﮔﺬﺍﺭﯼ ﻋﻼﻣﺎﺕ x1 , x2 , · · · xMﺑﺎﺷﺪ
ﮐﻪ ﺍﯾﻦ ﻋﻼﻣﺎﺕ ﻧﯿﺰ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ p1 , p2 , · · · pMﺗﮑﺮﺍﺭﺷﻮﻧﺪ .ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺍﮔﺮ ﮐﺪ Cﺩﺭ ﻭﻥ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﺑﻬﯿﻨﻪ ﺑﺎﺷﺪ ﺁﻧﮕﺎﻩ
ﺍﻟﻒ :ﻋﻼﻣﺖ ﻫﺎﯼ ﺑﺎﺍﺣﺘﻤﺎﻝ ﺑﯿﺸﺘﺮ ﻃﻮﻝ ﮐﻤﺘﺮ ﺩﺍﺭﻧﺪ .ﯾﻌﻨﯽ ﺍﮔﺮ pi ≥ pjﺁﻧﮕﺎﻩ .ni ≤ nj
ﺏ :ﺩﻭﺗﺎﺍﺯﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯾﯽ ﮐﻪ ﮐﻤﺘﺮ ﯾﻦ ﺍﺣﺘﻤﺎﻝ ﻫﺎ ﺭﺍ ﺩﺍﺭﻧﺪ ﺣﺘﻤﺎً ﺩﺍﺭﺍﯼ ﻃﻮﻝ ﻣﺴﺎﻭﯼ ﻫﺴﺘﻨﺪ.
ﺝ :ﺩﺭﺑﯿﻦ ﮐﻠﻤﺎﺗﯽ ﮐﻪ ﺑﯿﺸﺘﺮ ﯾﻦ ﻃﻮﻝ ﺭﺍ ﺩﺍﺭﻧﺪ ،ﺣﺘﻤﺎً ﺑﺎﯾﺪ ﺩﻭ ﮐﻠﻤﻪ ﻭﺟﻮﺩ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﮐﻪ ﻓﻘﻂ ﻭﻓﻘﻂ ﺩﺭ ﯾﮏ ﺭﻗﻢ ﺑﺎﯾﮑﺪﯾﮕﺮ ﺗﻔﺎﻭﺕ
ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ.
ﺍﺛﺒﺎﺕ ﺍﻟﻒ :ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ p1 ≥ p2ﮐﻪ ﺩﺭﺁﻥ p2 , p1ﺑﻪ ﺗﺮﺗﯿﺐ ﺍﺣﺘﻤﺎﻝ ﻇﻬﻮﺭ ﻋﻼﻣﺎﺕ x2 , x1ﺑﺎﺷﻨﺪ .ﻫﻢ ﭼﻨﯿﻦ ﻓﺮﺽ ﮐﻨﯿﺪ
ﮐﻪ ﺩﺭﺍﯾﻦ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ Cﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ .n1 ≥ n2ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺗﻮﺍﻥ ﯾﮏ ﮐﺪ ﺑﻬﺘﺮﺍﺯ Cﺳﺎﺧﺖ .ﺟﺎﯼ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﻣﺮﺑﻮﻁ
ﺑﻪ x1ﻭ x2ﺭﺍ ﻋﻮﺽ ﻣﯽ ﮐﻨﯿﻢ .ﮐﺪ ﻫﻨﻮﺯﻟﺤﻈﻪ ﺍﯼ ﺍﺳﺖ ﺯﯾﺮﺍﺷﺮﻁ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭﺍﺳﺖ .ﺩﺭﮐﺪ ﺟﺪﯾﺪ C ′ﺩﺍﺭ ﯾﻢ :
ﺍﺛﺒﺎﺕ ﺏ :ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﻤﺘﺮ ﯾﻦ ﺍﺣﺘﻤﺎﻻﺕ ﻋﺒﺎﺭﺕ ﺑﺎﺷﻨﺪ ﺍﺯ PM −1 , PMﻭ .PM −1 ≥ PMﺣﺎﻝ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺣﺎﻟﺖ nM −1 < nM
ﺭﺍﺣﺬﻑ ﮐﻨﯿﻢ .ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﻣﺮﺑﻮﻁ ﺑﻪ ﻋﻼﻣﺖ ﻫﺎﯼ xM −1ﻭ xMﺭﺍ ﺑﻪ ﺗﺮﺗﯿﺐ ﺑﺎ Sﻭ ̃ Sﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ .ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ
ﺣﺎﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻗﺴﻤﺖ ﺍﺿﺎﻓﯽ ﺭﺍ ﮐﻪ ﺩﺭ ﭘﺮﺍﻧﺘﺰﻗﺮﺍﺭﺩﺍﺩﻩ ﺍﯾﻢ ﺣﺬﻑ ﮐﻨﯿﻢ ﺑﺪﻭﻥ ﺍﯾﻨﮑﻪ ﺑﻪ ﻟﺤﻈﻪ ﺍﯼ ﺑﻮﺩﻥ ﮐﺪ ﺧﻠﻠﯽ ﻭﺍﺭﺩ ﺷﻮﺩ .ﭼﻮﻥ
ﺍﮔﺮ ﮐﻠﻤﻪ ﺍﯼ ﭘﯿﺸﻮﻧﺪ S ′ S̃ ′ﻧﺒﻮﺩﻩ ﺍﺳﺖ ﭘﯿﺸﻮﻧﺪ S ′ﻧﯿﺰ ﻧﺨﻮﺍﻫﺪ ﺑﻮﺩ .ﺿﻤﻨﺎً S ′ﻧﻤﯽ ﺗﻮﺍﻧﺪ ﭘﯿﺸﻮﻧﺪ ﮐﺪﮐﻠﻤﻪ ﺩﯾﮕﺮﯼ ﺑﺎﺷﺪ،ﭼﻮﻥ ﮐﻠﻤﺎﺕ
ﻣﺮﺑﻮﻁ ﺑﻪ xM −1ﻭ xMﺑﺰ ﺭﮔﺘﺮ ﯾﻦ ﻃﻮﻝ ﻫﺎ ﺭﺍ ﺩﺍﺭﻧﺪ .ﺗﻨﻬﺎﺍﻣﮑﺎﻧﯽ ﮐﻪ ﺑﺎﻗﯽ ﻣﯽ ﻣﺎﻧﺪ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﮐﻠﻤﺎﺕ ﺑﺎ ﻃﻮﻝ nM −1ﺑﯿﺶ ﺍﺯ
ﺩﻭ ﺗﺎﺑﺎﺷﻨﺪ .ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻨﻬﺎ ﺭﺍ ﻩ ﺑﺮﺍﯼ ﭘﯿﺸﻮﻧﺪ ﺑﻮﺩﻥ S ′ﺁﻥ ﺍﺳﺖ ﮐﻪ S ′ﺩﻗﯿﻘﺎً ﺑﺎﯾﮑﯽ ﺍﺯ ﺁﻥ ﮐﻠﻤﺎﺕ ﺑﺮﺍﺑﺮﺑﺎﺷﺪ .ﻭﻟﯽ ﺍﯾﻦ ﺑﺪﺍﻥ
ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﺩﺭﮐﺪ ﺍﻭﻟﯿﻪ ﮐﻪ ﺩﺭﺁﻥ ﺣﺬﻓﯽ ﺻﻮﺭﺕ ﻧﮕﺮﻓﺘﻪ ﺑﻮﺩ ،ﺁﻥ ﮐﻠﻤﻪ ﺧﺎﺹ ﭘﯿﺸﻮﻧﺪ ̃ Sﺑﻮﺩﻩ ﺍﺳﺖ.
۴۳
ﺍﺛﺒﺎﺕ ﺝ :ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺩﻭﺗﺎﺍﺯﺑﻠﻨﺪﺗﺮ ﯾﻦ ﮐﻠﻤﺎﺕ ﺭﺍ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﻢ .ﺍﮔﺮ ﺗﻨﻬﺎ ﺩﺭ ﺭﻗﻢ ﺁﺧﺮ ﺍﺧﺘﻼﻑ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﮐﻪ ﺍﯾﻦ ﻫﻤﺎﻥ
ﭼﯿﺰﯼ ﺍﺳﺖ ﮐﻪ ﻣﻄﻠﻮﺏ ﻣﺎﺳﺖ .ﺍﮔﺮ ﺑﯿﺶ ﺍﺯ ﺭﻗﻢ ﺁﺧﺮ ﺑﺎﻫﻢ ﺍﺧﺘﻼﻑ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﻣﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺭﻗﻢ ﺁﺧﺮ ﺭﺍ ﺣﺬﻑ ﮐﻨﯿﻢ ﻭ ﯾﮏ ﮐﺪ
ﻟﺤﻈﻪ ﺍﯼ ﺑﻬﺘﺮ ﺑﺪﺳﺖ ﺑﯿﺎﻭﺭ ﯾﻢ .ﺍﺳﺘﺪﻻﻝ ﺍﯾﻦ ﮐﻪ ﻟﺤﻈﻪ ﺍﯼ ﺑﻮﺩﻥ ﮐﺪ ﺑﻪ ﻫﻢ ﻧﻤﯽ ﺧﻮﺭﺩ ﻣﺜﻞ ﻗﺴﻤﺖ ﺏ ﺍﺳﺖ.
ﻣﺮﺣﻠﻪ ﺍﻭﻝ :ﺍﺯ ) (X, Pﯾﮏ ) ̃ (X̃, Pﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮﻣﯽ ﺳﺎﺯﯾﻢ:
ﺳﻮﺍﻝ :ﻣﻨﻈﻮﺭ ﺍﺯ xM −1,Mﭼﯿﺴﺖ؟ ﻣﻨﻈﻮﺭﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺩﺭﺫﻫﻦ ﺧﻮﺩ ﺗﻔﺎﻭﺕ ﺑﯿﻦ xM −1ﻭ xMﺭﺍ ﺍﺯﺑﯿﻦ ﺑﺒﺮ ﯾﻢ .ﺑﻪ ﻋﺒﺎﺭﺕ
ﺩﯾﮕﺮ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﺗﻨﻬﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻣﻬﻢ ﻫﺴﺘﻨﺪ ﻭ ﻧﻪ ﺧﻮﺩ ﻧﻤﺎﺩﻫﺎ .ﺑﻨﺎﺑﺮﺍﯾﻦ ﻣﺠﻤﻮﻋﻪ } {p1 , p2 , · · · pM −1 , pMﺭﺍ ﺑﻪ ﻣﺠﻤﻮﻋﻪ
} {p1 , p2 , · · · pM −1 + pMﺗﻘﻠﯿﻞ ﺩﺍﺩﻩ ﺍﯾﻢ .ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﺪ ﺑﻬﯿﻨﻪ ﺍﯼ ﺑﺮﺍﯼ ) ̃ (X̃, Pﺩﺭﺩﺳﺖ ﺑﺎﺷﺪ ﺑﺎ ﻣﺸﺨﺼﺎﺕ ﺯﯾﺮ:
۴۴
Ñ C̃ P̃ X̃
n1 w1 p1 x1
n2 w2 p2 x2
(۱۳۶)
· · · ·
nM −2 wM −2 pM −2 xM −2
۴۵
̃N ̃C ̃P ̃X
)(۱۳۷
· · · ·
nM −1,M + 1 wM −1,M 0 pM −1 xM −1
ﺣﺎﻝ ﺛﺎﺑﺖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺍﮔﺮ ̃ Cﺑﻬﯿﻨﻪ ﺑﺎﺷﺪ ﺁﻧﮕﺎﻩ Cﻧﯿﺰ ﺑﻬﯿﻨﻪ ﺍﺳﺖ .ﺍﺯﺑﺮﻫﺎﻥ ﺧﻠﻒ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ .ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﺪﯼ ﻣﺜﻞ
C ′ﻭﺟﻮﺩ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﮐﻪ ﺍﺯ ﮐﺪ Cﺑﻬﺘﺮ ﺑﺎﺷﺪ .ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺎﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﮐﺪ C ′ﻣﯽ ﺗﻮﺍﻥ ﮐﺪﯼ ﻣﺜﻞ C̃ ′ﺳﺎﺧﺖ ﮐﻪ ﺍﺯ ̃ Cﺑﻬﺘﺮﺑﺎﺷﺪ.
۴۶
N′ C′ P X
)(۱۳۸
· · · ·
n′M ′
wM pM xM
۴۷
Ñ ′ C̃ ′ P X
n′1 w1′ p1 x1
n′2 w2′ p2 x2
(۱۳۹)
· · · ·
n′M −2 ′
wM −2 pM −2 xM −2
′ ′ ′
: ﺣﺎﻝ ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ. ﺍﺳﺖ ﮐﻪ ﺭﻗﻢ ﺁﺧﺮ ﺁﻥ ﺑﺮﺩﺍﺷﺘﻪ ﺷﺪﻩ ﺍ ﺳﺖwM −1 ﯾﺎwM ﻫﻤﺎﻥw̃ M −1,M ﮐﻪ ﺩﺭﺁﻥ
ﻭ
ﺩﺭﻧﺘﯿﺠﻪ
n − ñ = n′ − ñ′ (۱۴۲)
۴۸
ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﮔﺮ ﮐﺪ C ′ﺍﺯ ﮐﺪ Cﺑﻬﺘﺮ ﺑﺎﺷﺪ ﮐﺪ ̃ Cﻧﯿﺰ ﺍﺯ ﮐﺪ ̃ Cﺑﻬﺘﺮﺍﺳﺖ ﻭ ﺍﯾﻦ ﺧﻼﻑ ﺑﻬﯿﻨﻪ ﺑﻮﺩﻥ ﮐﺪ ̃ Cﺍﺳﺖ.
ﻣﺜﺎﻝ ﯾﮏ :ﺭ ﻭﺵ ﺳﺎﺧﺖ ﺩﺭﺟﺪﻭﻝ ﻫﺎﯼ ﺯﯾﺮ ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ:
P X
0.5 x1
)(۱۴۴
0.35 x2
0.15 x3
ﻭﺍﺯﺁﻧﺠﺎ
ﻫﺮﮔﺎﻩ ﺗﻌﺪﺍﺩﮐﻠﻤﺎﺕ ﺑﯿﺸﺘﺮﺑﺎﺷﺪ ﺍﯾﻦ ﮐﺎﺭ ﺭﺍﺩﺭﭼﻨﺪﻣﺮﺣﻠﻪ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ .ﺩﺭﻫﺮﻣﺮﺣﻠﻪ ﺍﺣﺘﻤﺎﻻﺕ ﺭﺍﺍﺯﺑﯿﺸﺘﺮ ﯾﻦ ﺑﻪ ﮐﻤﺘﺮ ﯾﻦ ﻣﺮﺗﺐ
ﻣﯽ ﮐﻨﯿﻢ ﻭ ﺁﺧﺮ ﯾﻦ ﺩﻭ ﮐﻠﻤﻪ ﺭﺍ ﺑﺎﻫﻢ ﻣﻄﺎﺑﻖ ﺑﺎﺁﻧﭽﻪ ﮐﻪ ﺩﺭﺑﺎﻻ ﮔﻔﺘﻪ ﺷﺪﺍﺩﻏﺎﻡ ﻣﯽ ﮐﻨﯿﻢ .ﺍﯾﻦ ﮐﺎﺭ ﺭﺍﺁﻧﻘﺪﺭﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ ﺗﺎ ﺑﻪ ﯾﮏ
ﻣﺠﻤﻮﻋﻪ ﺑﺮﺳﯿﻢ ﻣﺘﺸﮑﻞ ﺍﺯ ﺩﻭﻧﻤﺎﺩ ﻭ ﺩﻭﺍﺣﺘﻤﺎﻝ .ﺑﻪ ﺩﻭ ﻧﻤﺎﺩ ﺁﺧﺮ ﮐﻠﻤﻪ ﻫﺎﯼ 0ﻭ 1ﺭﺍ ﻧﺴﺒﺖ ﻣﯽ ﺩﻫﯿﻢ ﻭ ﺳﭙﺲ ﻣﺮﺍﺣﻞ ﺭﺍ ﺩﺭﺟﻬﺖ
ﻋﮑﺲ ﻃﯽ ﻣﯽ ﮐﻨﯿﻢ ﺗﺎ ﺑﻪ ﺟﺪﻭﻝ ﺍﻭﻟﯿﻪ ﺑﺮﺳﯿﻢ ﻭﮐﺪ ﻫﺎﯼ ﺗﻤﺎﻡ ﻧﻤﺎﺩ ﻫﺎ ﺭﺍ ﺑﺪﺳﺖ ﺁﻭﺭ ﯾﻢ.
۴۹