You are on page 1of 49

‫ﻧﻈﺮ ﯾﻪ ﺍﻃﻼﻋﺎﺕ ﮐﻼﺳﯿﮏ ‪ -‬ﺑﺨﺶ ﺍﻭﻝ‬

‫ﻭﺣﯿﺪﮐﺮ ﯾﻤﯽ ﭘﻮﺭ‪ -‬ﺩﺍﻧﺸﮑﺪﻩ ﻓﯿﺰﯾﮏ ‪ -‬ﺩﺍﻧﺸﮕﺎﻩ ﺻﻨﻌﺘﯽ ﺷﺮ ﯾﻒ‬

‫‪ ۲۱‬ﺍﺳﻔﻨﺪ ‪۱۳۹۳‬‬

‫ﻣﻘﺪﻣﻪ‬ ‫‪۱‬‬

‫ﻓﺮﺽ ﮐﻨﯿﺪﮐﻪ } ‪ X = {x1 , x2 , · · · xn‬ﯾﮏ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ } ‪ {)p(x1 ), p(x2 ), · · · p(xn‬ﺑﺎﺷﺪ‪ .‬ﺑﻪ ﺍﯾﻦ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﻣﯽ‬

‫ﺗﻮﺍﻥ ﺗﺎﺑﻌﯽ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﻧﺴﺒﺖ ﺩﺍﺩ‪.‬‬

‫∑‬
‫‪n‬‬
‫‪H(X) := −‬‬ ‫‪p(x) log2 p(x).‬‬ ‫)‪(۱‬‬
‫‪i=1‬‬

‫ﺑﺪﻭﻥ ﺍﻏﺮﺍﻕ ﻣﯽ ﺗﻮﺍﻥ ﮔﻔﺖ ﮐﻪ ﺗﻤﺎﻡ ﻧﻈﺮ ﯾﻪ ﺍﻃﻼﻋﺎﺕ ﮐﻼﺳﯿﮏ ﺑﺮ ﺭ ﻭﯼ ﺍﯾﻦ ﺗﺎﺑﻊ ﮐﻪ ﺁﻥ ﺭﺍ ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﻣﯽ ﺧﻮﺍﻧﻨﺪ ﻭ ﺧﻮﺍﺹ‬

‫ﻭﺗﻌﺒﯿﺮﻫﺎﯼ ﺁﻥ ﺑﻨﺎﺷﺪﻩ ﺍﺳﺖ‪ .‬ﻫﺪﻑ ﻣﺎ ﺩﺭﺍﯾﻦ ﺩﺭﺱ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺍﻭﻻً ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺍﯾﻦ ﺗﺎﺑﻊ ﻭﺗﻮﺍﺑﻊ ﻭﺍﺑﺴﺘﻪ ﺑﻪ ﺁﻥ ﺭﺍﺍﺳﺘﺨﺮﺍﺝ ﮐﻨﯿﻢ‪،‬‬

‫ﺛﺎﻧﯿﺎً ﺗﻌﺒﯿﺮ ﻭﺗﻔﺴﯿﺮﻫﺎﯼ ﺍﯾﻦ ﺗﻮﺍﺑﻊ ﺭﺍ ﺑﻔﻬﻤﯿﻢ‪ .‬ﻧﺨﺴﺘﯿﻦ ﮐﺎﺭﯼ ﮐﻪ ﺑﺎﯾﺪ ﺑﮑﻨﯿﻢ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﺍﯾﻦ ﺗﺎﺑﻊ ﺳﻨﺠﻪ ﻣﻨﺎﺳﺒﯽ ﺑﺮﺍﯼ‬

‫ﺍﻃﻼﻋﺎﺕ ﺍﺳﺖ‪ .‬ﺍﯾﻦ ﮐﺎﺭﯼ ﺍﺳﺖ ﮐﻪ ﺩﺭﻧﺨﺴﺘﯿﻦ ﺑﺨﺶ ﺍﯾﻦ ﺩﺭﺱ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺩﺭﺑﺨﺶ ﻫﺎﯼ ﺑﻌﺪﯼ ﺍﯾﻦ ﺩﺭﺱ ﻣﻔﺎﻫﯿﻤﯽ ﻣﺜﻞ‬

‫ﺍﻃﻼﻋﺎﺕ ﺷﺮﻃﯽ ﻭ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺭﺍ ﻣﻌﺮﻓﯽ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﭘﺲ ﺍﺯﺑﺮ ﺭﺳﯽ ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺗﻮﺍﺑﻌﯽ ﮐﻪ ﺑﺮﺍﯼ ﺍﻧﺪﺍﺯﻩ ﮔﯿﺮﯼ ﺍﻃﻼﻋﺎﺕ‬

‫ﻣﻌﺮﻓﯽ ﮐﺮﺩﻩ ﺍﯾﻢ ﺑﻪ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺍﻃﻼﻋﺎﺕ ﻭ ﺣﺪﯼ ﮐﻪ ﺑﺮﺍﯼ ﺍﯾﻦ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﻭﺟﻮﺩ ﺩﺍﺭﺩﻣﯽ ﭘﺮﺩﺍﺯﯾﻢ‪.‬‬

‫‪۱‬‬
‫ﻣﻔﻬﻮﻡ ﻭﺍﻧﺪﺍﺯﻩ ﺍﻃﻼﻋﺎﺕ‬ ‫‪۲‬‬

‫ﺍﻃﻼﻋﺎﺕ ﯾﮏ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ‬ ‫‪۱.۲‬‬

‫ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺁﺯﻣﺎﯾﺶ ﯾﺎ ﻭﺍﻗﻌﻪ ﺍﯼ ﻣﺜﻞ ‪ X‬ﮐﻪ ﻧﺘﺎﯾﺞ ﯾﺎﭘﯿﺸﺎﻣﺪﻫﺎﯼ ﻣﻤﮑﻦ ﺁﻥ ﺭﺍ ﺑﺎﻣﺠﻤﻮﻋﻪ } ‪ {x1 , x2 , · · · xn‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‬

‫ﺍﺗﻔﺎﻕ ﺑﯿﻔﺘﺪ ﻭ ﯾﮏ ﻧﺘﯿﺠﻪ ﻣﻌﯿﻦ ﻣﺜﻞ ‪ xi‬ﺣﺎﺻﻞ ﺷﻮﺩ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﭙﺮﺳﯿﻢ ﮐﻪ ﻣﺎ ﺑﻪ ﻋﻨﻮﺍﻥ ﻧﺎﻇﺮ ﯾﺎ ﻣﺸﺎﻫﺪﻩ ﮔﺮ ﭼﻪ‬

‫ﻣﻘﺪﺍﺭ ﺍﻃﻼﻉ ﺣﺎﺻﻞ ﮐﺮﺩﻩ ﺍﯾﻢ‪ ،‬ﯾﺎ ﭼﻪ ﻣﻘﺪﺍﺭ ﺍﺯ ﻋﺪﻡ ﯾﻘﯿﻦ ﻣﺎ ﻧﺴﺒﺖ ﺑﻪ ﻧﺘﯿﺠﻪ ﻫﺎﯼ ﻣﻤﮑﻦ ﮐﺎﺳﺘﻪ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﻓﺮﺽ ﻣﺎ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ‬

‫ﺍﺣﺘﻤﺎﻻﺕ ﻭﻗﻮﻉ ﯾﻌﻨﯽ ) ‪ p(xi‬ﻫﺎ ﻣﻌﻠﻮﻡ ﻫﺴﺘﻨﺪ‪ .‬ﻃﺒﯿﻌﯽ ﺍﺳﺖ ﮐﻪ ﺑﺎ ﺩﺍﻧﺴﺘﻦ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻤﯽ ﺗﻮﺍﻥ ﯾﻘﯿﻨﺎ ﮔﻔﺖ ﮐﻪ ﭼﻪ ﭘﯿﺸﺎﻣﺪﯼ ﺭﺥ‬

‫ﺧﻮﺍﻫﺪ ﺩﺍﺩ‪ .‬ﻣﯿﺰﺍﻥ ﻋﺪﻡ ﯾﻘﯿﻨﯽ ﮐﻪ ﻧﺴﺒﺖ ﺑﻪ ﻧﺘﯿﺠﻪ ﺩﺍﺭ ﯾﻢ ﻭ ﺩﺭ ﻧﺘﯿﺠﻪ ﻣﻘﺪﺍﺭ ﺍﻃﻼﻋﯽ ﮐﻪ ﺍﺯ ﻣﺸﺎﻫﺪﻩ ﺧﻮﺩ ﺩﺭ ﯾﺎﻓﺖ ﻣﯽ ﮐﻨﯿﻢ‪ ،‬ﻃﺒﯿﻌﺘﺎ‬

‫ﺗﺎﺑﻌﯽ ﺍﺯ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻻﺕ ﺍﺳﺖ‪ .‬ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺍﮔﺮ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ‬

‫‪P (x1 ) = 1,‬‬ ‫‪P (xi ) = 0,‬‬ ‫‪i = 2, 3, · · · N,‬‬ ‫)‪(۲‬‬

‫ﺁﻧﮕﺎﻩ ﻧﺘﯿﺠﻪ ﻫﺮ ﺁﺯﻣﺎﯾﺸﯽ ﺍﺯ ﻗﺒﻞ ﻣﻌﻠﻮﻡ ﺍﺳﺖ ﻭ ﻣﺎ ﺍﺯ ﻣﺸﺎﻫﺪﻩ ﺁﺯﻣﺎﯾﺶ ﻫﯿﭻ ﺍﻃﻼﻋﯽ ﺣﺎﺻﻞ ﻧﻤﯽ ﮐﻨﯿﻢ‪ ،‬ﺯﯾﺮﺍ ﺍﺯ ﻗﺒﻞ ﻭ ﺑﺎ ﻣﺤﺎﺳﺒﻪ‬

‫ﺗﺤﻠﯿﻠﯽ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﮕﻮﯾﯿﻢ ﮐﻪ ﻫﻤﻮﺍﺭﻩ ﻧﺘﯿﺠﻪ ‪ x1‬ﺣﺎﺻﻞ ﺧﻮﺍﻫﺪ ﺷﺪ‪ .‬ﺍﻣﺎ ﺍﮔﺮ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ‬

‫‪1‬‬
‫= ) ‪P (xi‬‬ ‫‪,‬‬ ‫)‪(۳‬‬
‫‪N‬‬

‫ﺁﻧﮕﺎﻩ ﻫﺮﺑﺎﺭ ﮐﻪ ﺁﺯﻣﺎﯾﺶ ﺭﺍ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ ﯾﮏ ﻧﺘﯿﺠﻪ ﺑﺪﺳﺖ ﻣﯽ ﺁﯾﺪ ﮐﻪ ﺑﻪ ﺩﺍﻧﺶ ﻣﺎ ﺍﺿﺎﻓﻪ ﻣﯽ ﮐﻨﺪ‪ ،‬ﺩﺍﻧﺸﯽ ﮐﻪ ﺍﺯ ﻗﺒﻞ ﻧﺪﺍﺷﺘﯿﻢ‬

‫ﻭ ﻧﻤﯽ ﺗﻮﺍﻧﺴﺘﯿﻢ ﺑﺎ ﻣﺤﺎﺳﺒﻪ ﺭ ﯾﺎﺿﯽ ﺑﻪ ﺁﻥ ﺑﺮﺳﯿﻢ‪ .‬ﺍﺯﻧﻈﺮﺷﻬﻮﺩﯼ ﻫﺮﭼﻘﺪﺭﮐﻪ ﭘﯿﺸﺎﻣﺪﯼ ﮐﻪ ﺑﻮﻗﻮﻉ ﭘﯿﻮﺳﺘﻪ ﺍﺳﺖ ﻣﺤﺘﻤﻞ ﺗﺮ ﺑﻮﺩﻩ ﺑﺎﺷﺪ‬

‫ﺍﻃﻼﻋﯽ ﮐﻪ ﻣﺎﮐﺴﺐ ﮐﺮﺩﻩ ﺍﯾﻢ ﮐﻤﺘﺮ ﻭﻫﺮﭼﻘﺪﺭﮐﻪ ﺁﻥ ﭘﯿﺸﺎﻣﺪ ﺩﻭﺭﺍﺯﺍﻧﺘﻈﺎﺭﺑﻮﺩﻩ ﺑﺎﺷﺪ ﺗﻌﺠﺐ ﻣﺎﺍﺯ ﻭﻗﻮﻉ ﺁﻥ ﺑﯿﺸﺘﺮ ﻭ ﺍﻃﻼﻋﯽ ﮐﻪ ﻣﺎﮐﺴﺐ‬

‫ﮐﺮﺩﻩ ﺍﯾﻢ ﺑﯿﺸﺘﺮ ﺧﻮﺍﻫﺪ ﺑﻮﺩ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﮔﺮ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﺧﻮﺩﺍﺯ ﻭﻗﻮﻉ ﭘﯿﺸﺎﻣﺪ ‪ xi‬ﺭﺍ ﺑﺎ ‪ hi‬ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﮕﻮﯾﯿﻢ ﮐﻪ ‪ hi‬ﻣﯽ‬

‫ﺑﺎﯾﺴﺖ ﻧﺴﺒﺖ ﻣﻌﮑﻮﺱ ﺑﺎ ﺍﺣﺘﻤﺎﻝ ﻭﻗﻮﻉ ﺁﻥ ﭘﯿﺸﺎﻣﺪ ﯾﻌﻨﯽ ‪ pi‬ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ‪.‬‬

‫‪۲‬‬
‫ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﺁﺯﻣﺎﯾﺶ ﻣﺮﮐﺐ ﺍﺯ ﺩﻭﻭﺍﻗﻌﻪ ﻣﺴﺘﻘﻞ ) ‪ (X, Y‬ﺷﻮﺩ ﮐﻪ ﻧﺘﺎﯾﺞ ﻣﻤﮑﻦ ﺁﻥ ﺭﺍ ﺑﺎ ﺯ ﻭﺝ ﻫﺎﯼ = ‪{(xi , yj ), i‬‬

‫}‪ 1 · · · m, j = 1 · · · n‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﻫﺮﮔﺎﻩ ﺍﺣﺘﻤﺎﻝ ﻭﻗﻮﻉ ‪ xi‬ﺭﺍ ﺑﺎ ‪ pi‬ﻭﺍﺣﺘﻤﺎﻝ ﻭﻗﻮﻉ ‪ yj‬ﺭﺍ ﺑﺎ ‪ qj‬ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﺍﺣﺘﻤﺎﻝ ﻫﺮ ﭘﯿﺸﺎﻣﺪ‬

‫) ‪ (xi , yj‬ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ ‪ pi qj‬ﻭﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﯽ ﮐﻪ ﺍﺯ ﻭﻗﻮﻉ ﺍﯾﻦ ﭘﯿﺸﺎﻣﺪ ﮐﺴﺐ ﻣﯽ ﮐﻨﯿﻢ ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ ) ‪ .h(pi qj‬ﺍﻧﺘﻈﺎﺭﺩﺍﺭ ﯾﻢ‬

‫ﮐﻪ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﻣﺎ ﺩﺭﺍﯾﻦ ﻣﻮﺭﺩ ﮐﻪ ﺩﻭﭘﯿﺸﺎﻣﺪ ﻣﺴﺘﻘﻞ ‪ xi‬ﻭ ‪ yj‬ﺭﺥ ﺩﺍﺩﻩ ﺍﻧﺪ ﺑﺮﺍﺑﺮﺑﺎ ﻣﺠﻤﻮﻉ ﺍﻃﻼﻋﺎﺗﯽ ﺑﺎﺷﺪ ﮐﻪ ﺍﺯ ﻭﻗﻮﻉ ﭘﯿﺸﺎﻣﺪ ‪xi‬‬

‫ﺑﻪ ﺗﻨﻬﺎﯾﯽ ﻭ ‪ yj‬ﺑﻪ ﺗﻨﻬﺎﯾﯽ ﮐﺴﺐ ﻣﯽ ﮐﻨﯿﻢ ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﻧﺘﻈﺎﺭﺩﺍﺭ ﯾﻢ ﮐﻪ‬

‫‪h(pi qj ) = h(pi ) + h(qj ).‬‬ ‫)‪(۴‬‬

‫ﺗﻨﻬﺎﺗﺎﺑﻌﯽ ﮐﻪ ﺷﺮﻁ ﻓﻮﻕ ﺭﺍﺑﺮﺁﻭﺭﺩﻩ ﮐﻨﺪ ﻭ ﺿﻤﻨﺎً ﻧﺰ ﻭﻟﯽ ﺑﺎﺷﺪ‪ ،‬ﺗﺎﺑﻊ ﻟﮕﺎﺭ ﯾﺘﻢ ﺍﺳﺖ ﺑﻨﺎﺑﺮﺍﯾﻦ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬

‫‪1‬‬
‫‪h(pi ) = logα‬‬ ‫‪,‬‬ ‫)‪(۵‬‬
‫‪pi‬‬

‫ﮐﻪ ﺩﺭﺁﻥ ‪ α‬ﺛﺎﺑﺖ ﺍﺳﺖ‪ .‬ﺛﺎﺑﺖ ‪ α‬ﺭﺍﻣﯽ ﺗﻮﺍﻥ ﺑﺎ ﺷﺮﻁ ﺑﻬﻨﺠﺎﺭﺵ ﺗﻌﯿﯿﻦ ﮐﺮﺩ‪ .‬ﻗﺮﺍﺭﻣﯽ ﻧﻬﯿﻢ ﮐﻪ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﮐﺴﺐ ﺷﺪﻩ ﻣﺎ ﺍﺯ ﻭﻗﻮﻉ‬

‫ﯾﮏ ﭘﺪﯾﺪﻩٔ ﺩﻭﺣﺎﻟﺘﻪ ﻣﺘﺴﺎﻭﯼ ﺍﻻﺣﺘﻤﺎﻝ ﺑﺮﺍﺑﺮﺑﺎﯾﮏ ﺑﺎﺷﺪ‪ ،‬ﯾﻌﻨﯽ ‪ .h(1/2) = 1‬ﺩﺭﻧﺘﯿﺠﻪ ﻣﯿﺰﺍﻥ ﺛﺎﺑﺖ ‪ α‬ﺑﺮﺍﺑﺮﻣﯽ ﺷﻮﺩ ﺑﺎ ‪.۲‬‬

‫ﺍﮔﺮ ﯾﮏ ﺁﺯﻣﺎﯾﺶ ‪ X‬ﺭﺍ ‪ N‬ﺑﺎﺭﺍﻧﺠﺎﻡ ﺩﻫﯿﻢ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ‪ N pi‬ﺑﺎﺭﻧﺘﯿﺠﻪ ‪ xi‬ﺭﺥ ﺧﻮﺍﻫﺪ ﺩﺍﺩ ﻭ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﻋﯽ ﮐﻪ ﺩﺭﻫﺮﺑﺎﺭﮐﺴﺐ‬

‫ﻣﯽ ﮐﻨﯿﻢ ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ ) ‪ .log2 ( p1i‬ﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﯽ ﮐﻪ ﻣﺎ ﺑﻪ ﻃﻮﺭﻣﺘﻮﺳﻂ ﺍﺯ ﻭﻗﻮﻉ ﻧﺘﺎﯾﺞ ﺁﺯﻣﺎﯾﺶ ﺗﺼﺎﺩﻓﯽ ‪ X‬ﮐﺴﺐ ﻣﯽ ﮐﻨﯿﻢ‬

‫ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ‪:‬‬

‫∑ ‪1‬‬ ‫∑‬
‫‪H(X) = −‬‬ ‫‪N p(x) log2 p(x) = −‬‬ ‫‪p(x) log2 p(x).‬‬ ‫)‪(۶‬‬
‫‪N x‬‬ ‫‪x‬‬

‫‪ p log‬ﺩﺭﻓﺎﺻﻠﻪ ]‪ p ∈ [0, 1‬ﯾﮏ ﺗﺎﺑﻊ ﻣﺜﺒﺖ ﺍﺳﺖ‬ ‫‪1‬‬


‫‪p‬‬ ‫ﺍﯾﻦ ﺗﺎﺑﻊ ‪ ،‬ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﯾﺎ ﺗﺎﺑﻊ ﺷﺎﻧﻮﻥ ﻧﯿﺰﺧﻮﺍﻧﺪﻩ ﻣﯽ ﺷﻮﺩ‪ .‬ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺗﺎﺑﻊ‬

‫ﺑﻨﺎﺑﺮﺍﯾﻦ )‪ H(X‬ﯾﮏ ﺗﺎﺑﻊ ﻣﺜﺒﺖ ﺍﺳﺖ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺑﺎ ﻣﺮﺍﺟﻌﻪ ﺑﻪ ﮔﻮﮔﻞ‪ ،‬ﻓﺮﮐﺎﻧﺲ ﺣﺮ ﻭﻑ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﭘﯿﺪﺍ ﮐﺮﺩﻩ ﻭ ﺳﭙﺲ ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﺭﺍ ﺑﺮﺍﯼ ﺁﻥ ﭘﯿﺪﺍ ﮐﻨﯿﺪ‪.‬‬

‫‪۳‬‬
‫ﺍﻃﻼﻋﺎﺕ ﺩﻭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ‬ ‫‪۲.۲‬‬

‫ﻫﺮﮔﺎﻩ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ) ‪ (X, Y‬ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ ﮐﻪ ﻟﺰ ﻭﻣﺎً ﺍﺯﻫﻢ ﻣﺴﺘﻘﻞ ﻧﺒﺎﺷﻨﺪ ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﯾﺎ ﺍﻃﻼﻋﺎﺕ ﺑﻪ ﻃﻮﺭﻃﺒﯿﻌﯽ ﺑﻪ ﺷﮑﻞ‬

‫ﺯﯾﺮﺗﻌﺮ ﯾﻒ ﻣﯽ ﺷﻮﺩ‪:‬‬

‫∑‬
‫‪H(X, Y ) := −‬‬ ‫)‪p(x, y) log2 p(x, y‬‬ ‫)‪(۷‬‬
‫‪x,y‬‬

‫ﺩﺭﺣﺎﻟﺘﯽ ﮐﻪ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ ﯾﻌﻨﯽ )‪ ،p(x, y) = p(x)q(y‬ﺭﺍﺑﻄﻪ ﺑﺎﻻﺑﺪﺳﺖ ﻣﯽ ﺩﻫﺪ ﮐﻪ ‪H(X, Y ) = H(X) +‬‬

‫) ‪.H(Y‬‬

‫ﺍﯾﻦ ﺗﻌﺮ ﯾﻒ ﺑﻪ ﻫﻤﯿﻦ ﺷﮑﻞ ﺑﻪ ﺑﯿﺶ ﺍﺯ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﺗﻌﻤﯿﻢ ﻣﯽ ﯾﺎﺑﺪ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎ ﮐﻪ ﺗﻌﺮ ﯾﻒ ﻣﯽ ﮐﻨﯿﻢ‪:‬‬
‫∑‬
‫‪H(X, Y, Z) = −‬‬ ‫‪p(x, y, z) log2 p(x, y, z).‬‬ ‫)‪(۸‬‬
‫‪x,y,z‬‬

‫ﺍﻃﻼﻋﺎﺕ ﺷﺮﻃﯽ‬ ‫‪۳.۲‬‬

‫ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X, Y‬ﮐﻪ ﺑﺎﺗﻮﺯﯾﻊ ﺁﻧﻬﺎﺑﺎ ﺗﺎﺑﻊ )‪ P (x, y‬ﻣﺸﺨﺺ ﻣﯽ ﺷﻮﺩ ﺩﺭﻧﻈﺮ ﻣﯽ ﮔﯿﺮ ﯾﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﻘﺪﺍﺭ ﯾﮑﯽ ﺍﺯ ﻣﺘﻐﯿﺮﻫﺎﯼ‬

‫ﺗﺼﺎﺩﻓﯽ ﻣﺜﻞ ‪ Y‬ﺭﺍ ﻣﯽ ﺩﺍﻧﯿﻢ ﻭ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ .y‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻮﺯﯾﻊ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﻋﻮﺽ ﺧﻮﺍﻫﺪ ﺷﺪ ﻭﺗﺒﺪﯾﻞ ﺧﻮﺍﻫﺪ‬

‫ﺷﺪ ﺑﻪ ﺗﻮﺯﯾﻊ )‪ P (X|y‬ﮐﻪ ﺩﺭﺁﻥ ‪ y‬ﯾﮏ ﭘﺎﺭﺍﻣﺘﺮﺍﺳﺖ ﻭ ‪ X‬ﻣﻘﺎﺩﯾﺮﻣﺘﻐﯿﺮ ﺭﺍ ﺑﺨﻮﺩ ﻣﯽ ﮔﯿﺮﺩ‪ .‬ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ‪:‬‬

‫)‪P (x, y‬‬ ‫∑‬


‫=‪P (x|y) :‬‬ ‫‪,‬‬ ‫‪p(x|y) = 1.‬‬ ‫)‪(۹‬‬
‫)‪p(y‬‬ ‫‪x‬‬

‫ﺩﺭﻧﺘﯿﺠﻪ ﺍﻃﻼﻋﺎﺕ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺩﺭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ‪:‬‬


‫∑‬
‫‪H(X|y) := −‬‬ ‫)‪P (x|y) log2 P (x|y‬‬ ‫)‪(۱۰‬‬
‫‪x‬‬

‫ﺍﮔﺮﺑﺨﻮﺍﻫﯿﻢ ﺑﺪﺍﻧﯿﻢ ﮐﻪ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺩﺍﻧﺴﺘﻦ ﯾﮏ ﻣﻘﺪﺍﺭ ﺍﺯ ‪ Y‬ﭼﻪ ﻣﻘﺪﺍﺭ ﺍﻃﻼﻋﺎﺕ ﺩﺭ ‪ X‬ﺑﺎﻗﯽ ﻣﯽ ﮔﺬﺍﺭﺩ ﺑﺎﯾﺪ ﺭ ﻭﯼ ) ‪H(X|yj‬‬

‫ﻣﺘﻮﺳﻂ ﺑﮕﯿﺮ ﯾﻢ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬


‫∑‬ ‫∑‬
‫) ‪H(X|Y‬‬ ‫=‬ ‫‪p(y)H(X|y) = −‬‬ ‫)‪P (y)P (x|y) log2 P (x|y‬‬
‫‪y‬‬ ‫‪x,y‬‬

‫‪۴‬‬
‫∑‬ ‫∑‬ ‫)‪P (x, y‬‬
‫‪= −‬‬ ‫‪P (x, y) log2 P (x|y) = −‬‬ ‫‪P (x, y) log2‬‬
‫‪x,y‬‬ ‫‪x,y‬‬
‫)‪P (y‬‬
‫‪= H(X, Y ) − H(Y ).‬‬ ‫)‪(۱۱‬‬

‫ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺑﻪ ﻫﻤﺎﻥ ﺩﻟﯿﻠﯽ ﮐﻪ ﺗﺎﺑﻊ )‪ H(X‬ﻣﺜﺒﺖ ﺍﺳﺖ ﺗﺎﺑﻊ )‪ H(X|y‬ﻭﺩﺭﻧﺘﯿﺠﻪ ﺗﺎﺑﻊ ) ‪ H(X|Y‬ﻧﯿﺰﻣﺜﺒﺖ ﺧﻮﺍﻫﻨﺪ ﺑﻮﺩ‪.‬‬

‫) ‪ H(X|Y‬ﺭﺍ ﺍﻃﻼﻋﺎﺕ ‪ X‬ﻣﺸﺮ ﻭﻁ ﺑﻪ ‪ Y‬ﻣﯽ ﺧﻮﺍﻧﯿﻢ ﻭ ﺍﯾﻦ ﮐﻤﯿﺖ ﺑﯿﺎﻥ ﮐﻨﻨﺪﻩ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﺎﺕ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺩﺭ‪ X‬ﺍﺳﺖ ﻫﺮﮔﺎﻩ ﻣﺎ ﻣﻘﺎﺩﯾﺮ‬

‫‪ Y‬ﺭﺍ ﺩﺍﻧﺴﺘﻪ ﺑﺎﺷﯿﻢ‪ .‬ﺑﺎﯾﺪ ﺗﻮﺟﻪ ﺩﺍﺷﺖ ﮐﻪ ﺍﯾﻦ ﺗﺎﺑﻊ ﻣﺘﻘﺎﺭﻥ ﻧﯿﺴﺖ ﯾﻌﻨﯽ )‪.H(X|Y ) ̸= H(Y |X‬‬

‫ﺍﺯ ﺭﺍﺑﻄﻪ )‪ (11‬ﺑﻪ ﻧﺘﯿﺠﻪ ﺯﯾﺮ ﻣﯽ ﺭﺳﯿﻢ‪:‬‬

‫‪H(X, Y ) = H(X|Y ) + H(Y ) = H(Y |X) + H(X).‬‬ ‫)‪(۱۲‬‬

‫ﺍﮔﺮ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X, Y‬ﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ ﺁﻧﮕﺎﻩ ﺩﺍﻧﺴﺘﻦ ‪ Y‬ﻫﯿﭻ ﺗﺎﺛﯿﺮﯼ ﺩﺭﺍﻃﻼﻋﺎﺕ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺩﺭ ‪ X‬ﻧﺨﻮﺍﻫﺪ ﺩﺍﺷﺖ ﻭ ﺩﺭﻧﺘﯿﺠﻪ‬

‫)‪ H(X|Y ) = H(X‬ﻭ ﺑﻨﺎﺑﺮ )‪. H(X, Y ) = H(X) + H(Y ) ،(12‬‬

‫ﺑﺎﻟﻌﮑﺲ ﻫﺮﮔﺎﻩ ‪ X‬ﻭ ‪ Y‬ﮐﺎﻣﻼً ﺑﻪ ﻫﻢ ﻭﺍﺑﺴﺘﻪ ﺑﺎﺷﻨﺪ ﺍﻧﺘﻈﺎﺭﺩﺍﺭ ﯾﻢ ﮐﻪ ﺩﺍﻧﺴﺘﻦ ‪ Y‬ﺑﺮﺍﯼ ﺩﺍﻧﺴﺘﻦ ‪ X‬ﻧﯿﺰﮐﻔﺎﯾﺖ ﮐﻨﺪ ﯾﻌﻨﯽ ﻫﯿﭻ ﺍﻃﻼﻋﯽ‬

‫ﺩﺭ‪ X‬ﺑﺎﻗﯽ ﻧﮕﺬﺍﺭﺩ ﯾﻌﻨﯽ ‪ H(X|Y ) = 0‬ﮐﻪ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺭﺍﺑﻄﻪ )‪ (12‬ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ) ‪ . H(X, Y ) = H(Y‬ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻧﯿﺰ ﻣﻌﻨﺎﯼ‬

‫ﺷﻬﻮﺩﯼ ﺭ ﻭﺷﻨﯽ ﺩﺍﺭﺩ‪.‬‬

‫ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ‬ ‫‪۴.۲‬‬

‫ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺩﺭﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﻭ ‪ Y‬ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺗﻌﺮ ﯾﻒ ﻣﯽ ﺷﻮﺩ‪:‬‬

‫‪I(X : Y ) := H(X) + H(Y ) − H(X, Y ).‬‬ ‫)‪(۱۳‬‬

‫ﺍﯾﻦ ﮐﻤﯿﺖ ﻧﺴﺒﺖ ﺑﻪ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﻭ ‪ Y‬ﻣﺘﻘﺎﺭﻥ ﺍﺳﺖ‪ .‬ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺭﺍﺑﻄﻪ )‪ (12‬ﻣﯽ ﺗﻮﺍﻥ ﺁﻥ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺑﺎﺯﻧﻮﯾﺴﯽ ﮐﺮﺩ‪:‬‬

‫‪I(X : Y ) := H(X) − H(X|Y ).‬‬ ‫)‪(۱۴‬‬

‫ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻣﻌﺮﻑ ﭼﻪ ﭼﯿﺰﯼ ﺍﺳﺖ ؟ ﻗﺒﻞ ﺍﺯﺁﻧﮑﻪ ﻣﻘﺪﺍﺭ ‪ Y‬ﺭﺍ ﺑﺪﺍﻧﯿﻢ‪ ،‬ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭ‪ X‬ﺑﺎ )‪ H(X‬ﺳﻨﺠﯿﺪﻩ ﻣﯽ ﺷﺪ‪ .‬ﺑﺎﺩﺍﻧﺴﺘﻦ‬

‫‪ Y‬ﺍﯾﻦ ﺍﻃﻼﻋﺎﺕ ﺑﻪ ) ‪ H(X|Y‬ﺗﻘﻠﯿﻞ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺗﻔﺎﻭﺕ ﺍﯾﻦ ﺩﻭ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﯽ ﺍﺳﺖ ﮐﻪ ‪ Y‬ﺩﺭﺑﺎﺭﻩ ‪ X‬ﺣﻤﻞ ﻣﯽ ﮐﻨﺪ‪.‬‬

‫‪۵‬‬
‫ﺑﻌﺪﺍً ﻧﺸﺎﻥ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺩ ﮐﻪ ) ‪ I(X : Y‬ﯾﮏ ﮐﻤﯿﺖ ﻧﺎﻣﻨﻔﯽ ﺍﺳﺖ‪.‬‬

‫‪ n‬ﻣﺜﺎﻝ‪ :‬ﻣﻨﺒﻊ‬

‫})‪X = {000(1/2), 111(1/2‬‬ ‫)‪(۱۵‬‬

‫ﺭﺍ ﮐﻪ ﺩﺭﺁﻥ ﺍﻋﺪﺍﺩ ﺩﺍﺧﻞ ﭘﺮﺍﻧﺘﺰ ﺍﺣﺘﻤﺎﻻﺕ ﺭﺷﺘﻪ ﻫﺎ ﺭﺍﻧﺸﺎﻥ ﻣﯽ ﺩﻫﻨﺪ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ‪ .‬ﺑﺮﺍﯼ ﺍﯾﻦ ﻣﻨﺒﻊ ﺩﺍﺭ ﯾﻢ ‪ H(X) = 1‬ﻣﯽ‬

‫ﺗﻮﺍﻧﯿﻢ ﺭﺷﺘﻪ ﺳﻮﺍﻻﺕ ﺧﻮﺩﺭﺍ ﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮﺗﻨﻈﯿﻢ ﮐﻨﯿﻢ‪:‬‬

‫‪ - ۱‬ﺁﯾﺎ ﻫﻤﻪ ﺍﻋﺪﺍﺩ ﺻﻔﺮ ﻫﺴﺘﻨﺪ؟‬

‫ﺩﺭﻫﺮﺩﻭﺻﻮﺭﺕ ﺟﻮﺍﺏ ﺁﺭﯼ ﯾﺎ ﺧﯿﺮ ﻣﺎ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩﻧﻈﺮﯼ ﮐﻪ ﺳﻮﺍﻝ ﮐﻨﻨﺪﻩ ﺩﺭﻧﻈﺮﮔﺮﻓﺘﻪ ﺍﺳﺖ ﭘﯽ ﻣﯽ ﺑﺮ ﯾﻢ‪ .‬ﯾﻌﻨﯽ ﯾﮏ ﺳﻮﺍﻝ‬

‫ﺑﺮﺍﯼ ﺭﺳﯿﺪﻥ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﮐﻔﺎﯾﺖ ﻣﯽ ﮐﻨﺪ‪.‬‬

‫ﺣﺎﻝ ﻣﻨﺒﻊ ﺯﯾﺮ ﺭﺍﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﺪ‪:‬‬

‫})‪X = {000(1/4), 111(1/4), 001(1/4), 110(1/4‬‬ ‫)‪(۱۶‬‬

‫ﺣﺎﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺳﻮﺍﻻﺕ ﺧﻮﺩ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺗﻨﻈﯿﻢ ﮐﻨﯿﻢ‪:‬‬

‫‪ - ۱‬ﺁﯾﺎ ﺍﮐﺜﺮ ﯾﺖ ﺑﯿﺖ ﻫﺎ ﺻﻔﺮﻫﺴﺘﻨﺪ؟‬

‫‪ - ۲‬ﺁﯾﺎ ﻫﻤﻪ ﺑﯿﺖ ﻫﺎ ﻣﺜﻞ ﻫﻢ ﻫﺴﺘﻨﺪ؟‬

‫‪۶‬‬
‫ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺎ ﺩﻭﺳﻮﺍﻝ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮﻣﯽ ﺭﺳﯿﻢ ﻭ )‪ H(X‬ﻧﯿﺰﺑﺮﺍﺑﺮﺑﺎ ‪ ۲‬ﺍﺳﺖ‪.‬‬

‫ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺍﺯ ﻗﺒﻞ ﮐﺴﯽ ﺑﻪ ﻣﺎ ﮔﻔﺘﻪ ﺍﺳﺖ ﮐﻪ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺍﯾﻦ ﺭﺷﺘﻪ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ 1‬ﺍﺳﺖ‪ .‬ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺩﺍﻧﯿﻢ‬

‫ﮐﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﯾﮑﯽ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎﯼ }‪ {001, 111‬ﺍﺳﺖ‪ .‬ﺍﮐﻨﻮﻥ ﺑﺎ ﺩﺍﻧﺴﺘﻦ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﮐﻪ ﺁﻥ ﺭﺍ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ‬

‫ﻣﺜﻞ ‪ Y‬ﺩﺭ ﻧﻈﺮ ﻣﯽ ﮔﯿﺮ ﯾﻢ‪ ،‬ﮐﺎﻓﯽ ﺍﺳﺖ ﮐﻪ ﺑﺎ ﭘﺮﺳﯿﺪﻥ ﺗﻨﻬﺎ ﯾﮏ ﺳﻮﺍﻝ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺩﺳﺖ ﭘﯿﺪﺍ ﮐﻨﯿﻢ‪ .‬ﺩﺭ ﻭﺍﻗﻊ ﺩﺍﺭ ﯾﻢ‬

‫‪H(X | 1) = 1,‬‬ ‫‪H(X | 0) = 1, −→ H(X|Y ) = 1.‬‬ ‫)‪(۱۷‬‬

‫ﯾﻌﻨﯽ ﻭﻗﺘﯽ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺗﻌﯿﯿﻦ ﻣﯽ ﺷﻮﺩ‪ ،‬ﺍﻃﻼﻋﺎﺕ ﻻﺯﻡ )ﺗﻌﺪﺍﺩ ﺳﻮﺍﻝ ﻫﺎﯼ ﻻﺯﻡ( ﺑﺮﺍﯼ ﺭﺳﯿﺪﻥ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺍﺯ ‪۲‬‬

‫ﺑﻪ ‪ ۱‬ﺗﻘﻠﯿﻞ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ‪ .‬ﺑﻪ ﺍﯾﻦ ﺩﻟﯿﻞ ﻣﯽ ﮔﻮﯾﯿﻢ ﮐﻪ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ � ‪ � ،‬ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ‬

‫‪I(X : Y ) = H(X) − H(X | Y ) = 2 − 1 = 1.‬‬ ‫)‪(۱۸‬‬

‫ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﺩﺍﻧﺴﺘﻦ ﯾﮏ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ﯾﮏ ﺑﯿﺖ ﺩﺭ ﻣﻮﺭﺩ ﮐﻞ ﺭﺷﺘﻪ ﺑﻪ ﻣﺎ ﺍﻃﻼﻉ ﺩﺍﺩﻩ ﺍﺳﺖ‪ .‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ‬

‫ﮐﻪ ﮐﺴﯽ ﺑﻪ ﻣﺎ ﺩﻭ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺭﺍ ﺑﮕﻮﯾﺪ‪ .‬ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺑﯿﻨﯿﻢ ﮐﻪ ﮐﻞ ﺭﺷﺘﻪ ﺑﻪ ﻃﻮﺭ ﮐﺎﻣﻞ ﺗﻌﯿﯿﻦ ﻣﯽ ﺷﻮﺩ ﻭ ﺳﻮﺍﻟﯽ‬

‫ﺑﺮﺍﯼ ﭘﺮﺳﯿﺪﻥ ﺑﺎﻗﯽ ﻧﻤﯽ ﻣﺎﻧﺪ‪ .‬ﺩﺭ ﺍﯾﻦ ﺟﺎ ﺩﺍﺭ ﯾﻢ‪:‬‬

‫)‪(۱۹‬‬

‫‪H(X|00) = 0,‬‬ ‫‪H(X|01) = 0,‬‬ ‫‪H(X|10) = 0,‬‬ ‫‪H(X|11) = 0‬‬ ‫‪−→ H(X|Y ) = 0‬‬

‫ﺩﺭ ﻧﺘﯿﺠﻪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬

‫‪I(X : Y ) = H(X) − H(X | Y ) = 2 − 0 = 2.‬‬ ‫)‪(۲۰‬‬

‫ﺩﺭ ﺍﯾﻦ ﺟﺎ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺑﯿﻦ ﺩﻭ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﻭ ﮐﻞ ﺭﺷﺘﻪ ﺯﯾﺎﺩ ﻭ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ ۲‬ﺑﯿﺖ ﺍﺳﺖ‪.‬‬

‫‪۷‬‬
‫ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺗﻮﺍﺑﻊ ﺍﻃﻼﻋﺎﺕ‬ ‫‪۳‬‬

‫ﺩﺭﺍﯾﻦ ﺑﺨﺶ ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺗﻮﺍﺑﻊ ﺍﻃﻼﻋﺎﺕ ﺭﺍ ﺑﺮ ﺭﺳﯽ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺗﻘﺮ ﯾﺒﺎً ﻫﻤﻪ ﺍﯾﻦ ﺧﻮﺍﺹ ﺍﺯ ﯾﮏ ﻗﻀﯿﻪ ﺳﺎﺩﻩ ﻭﻟﯽ ﻣﻬﻢ ﺑﺪﺳﺖ ﻣﯽ‬

‫ﺁﯾﻨﺪ‪.‬‬

‫‪ n‬ﻗﻀﯿﻪ ‪ :‬ﺗﺎﺑﻊ ﺍﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ﺩﺭ ﺭﺍﺑﻄﻪ ﺯﯾﺮ ﺻﺪﻕ ﻣﯽ ﮐﻨﺪ ﮐﻪ ﺩﺭ ﺁﻥ ‪ q‬ﻫﺮ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺩﻟﺨﻮﺍﻫﯽ ﺍ ﺳﺖ‪:‬‬

‫∑‬
‫‪H(X) ≤ −‬‬ ‫‪p(x) log2 q(x).‬‬ ‫)‪(۲۱‬‬
‫‪x‬‬

‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ ﺩﻭ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﯾﮑﯽ ﺑﺎﺷﻨﺪ‪.‬‬

‫‪ n‬ﺍﺛﺒﺎﺕ‪ :‬ﺑﺎﺭﺳﻢ ﮐﺮﺩﻥ ﺗﺎﺑﻊ ﻟﮕﺎﺭ ﯾﺘﻢ ﻭ ﺗﺎﺑﻊ ‪ ،x − 1‬ﻣﯽ ﺗﻮﺍﻥ ﻧﺸﺎﻥ ﺩﺍﺩ ﮐﻪ ﺗﺎﺑﻊ ﻟﮕﺎﺭ ﯾﺘﻢ ﺩﺭﺧﺎﺻﯿﺖ ﺯﯾﺮﺻﺪﻕ ﻣﯽ ﮐﻨﺪ‪:‬‬

‫‪log x ln(x) − 1,‬‬ ‫)‪(۲۲‬‬

‫)‪q(x‬‬
‫= ‪ x‬ﻭ ﺩﺭﻧﺘﯿﺠﻪ‬ ‫)‪p(x‬‬ ‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﺑﺮﺍﯼ ‪ x = 1‬ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ‪ .‬ﺣﺎﻝ ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‬

‫)‪q(x) q(x‬‬
‫‪log‬‬ ‫‪ln‬‬ ‫‪− 1, ∀ x,‬‬ ‫)‪(۲۳‬‬
‫)‪p(x) p(x‬‬

‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ )‪ .q(x) = p(x‬ﺩﺭﻧﺘﯿﺠﻪ‬

‫∑‬ ‫∑ )‪q(x‬‬ ‫∑‬


‫‪p(x) ln‬‬ ‫≤‬ ‫‪q(x) −‬‬ ‫‪p(x) = 0,‬‬ ‫)‪(۲۴‬‬
‫‪x‬‬
‫)‪p(x‬‬ ‫‪x‬‬ ‫‪x‬‬

‫ﮐﻪ ﻫﻤﺎﻥ ﻧﺎﻣﺴﺎﻭﯼ ﺍﯼ ﺍﺳﺖ ﮐﻪ ﻣﯽ ﺧﻮﺍﺳﺘﯿﻢ ﺛﺎﺑﺖ ﮐﻨﯿﻢ‪ .‬ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﻧﺎﻣﺴﺎﻭﯼ )‪ (۲۲‬ﻓﻘﻂ ﺑﺮﺍﯼ )‪ ln(x‬ﺩﺭﺳﺖ ﺍﺳﺖ ﻭ‬

‫ﻧﻪ ﺑﺮﺍﯼ ﻟﮕﺎﺭ ﯾﺘﻢ ﺩﺭ ﭘﺎﯾﻪ ‪ .۲‬ﻭﻟﯽ ﭘﺲ ﺍﺯ ﺑﺪﺳﺖ ﺁﻭﺭﺩﻥ ﺭﺍﺑﻄﻪ )‪ (۲۴‬ﻣﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻃﺮﻓﯿﻦ ﺁﻥ ﺭﺍ ﺩﺭ ﻫﺮ ﻋﺪﺩﯼ ﺿﺮﺏ ﮐﻨﯿﻢ ﻭ‬

‫ﺭﺍﺑﻄﻪ ﺍﯼ ﺑﺪﺳﺖ ﺁﻭﺭ ﯾﻢ ﮐﻪ ﺩﺭ ﻫﺮ ﭘﺎﯾﻪ ﺍﯼ ﺑﺮﺍﯼ ﻟﮕﺎﺭ ﯾﺘﻢ ﺻﺤﯿﺢ ﺍﺳﺖ‪ .‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ‬

‫∑‬ ‫)‪q(x‬‬
‫‪p(x) log‬‬ ‫‪= 0.‬‬ ‫)‪(۲۵‬‬
‫‪x‬‬
‫)‪p(x‬‬

‫‪۸‬‬
‫ﺍﯾﻦ ﺗﺴﺎﻭﯼ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺑﺎﺯﻧﻮﯾﺴﯽ ﻣﯽ ﮐﻨﯿﻢ‬

‫∑‬ ‫)‪q(x‬‬ ‫)‪q(x‬‬


‫‪p(x)(log‬‬ ‫(‪−‬‬ ‫‪− 1)) = 0.‬‬ ‫)‪(۲۶‬‬
‫‪x‬‬
‫)‪p(x‬‬ ‫)‪p(x‬‬

‫ﺣﺎﻝ ﺩﻗﺖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺑﻨﺎﺑﺮﻧﺎﻣﺴﺎﻭﯼ )‪ (23‬ﺟﻤﻼﺕ ﺩﺍﺧﻞ ﭘﺮﺍﻧﺘﺰ ﻫﻤﮕﯽ ﮐﻮﭼﮏ ﺗﺮﺍﺯ ﯾﺎ ﻣﺴﺎﻭﯼ ﺑﺎﺻﻔﺮ ﻫﺴﺘﻨﺪ‪ .‬ﺻﻔﺮﺷﺪﻥ‬

‫ﺍﯾﻦ ﺟﻤﻊ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﻫﻤﻪ ﺍﯾﻦ ﺟﻤﻼﺕ ﺑﺮﺍﺑﺮﺑﺎﺻﻔﺮﻫﺴﺘﻨﺪ ﮐﻪ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﻧﺎﻣﺴﺎﻭﯼ )‪ (22‬ﺑﻪ ﻣﻌﻨﺎﯼ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺑﺮﺍﯼ‬

‫ﻫﻤﻪ ‪ i‬ﻫﺎ )‪ .q(x) = p(x‬ﯾﻌﻨﯽ ﺩﻭﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﯾﮑﯽ ﻫﺴﺘﻨﺪ‪.‬‬

‫‪∑M‬‬
‫= ‪ H‬ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ log M‬ﻭﺍﯾﻦ ﻣﻘﺪﺍﺭﺑﯿﺸﯿﻨﻪ ﻓﻘﻂ ﺑﺮﺍﯼ ﺗﻮﺯﯾﻊ‬ ‫‪x=1‬‬ ‫‪p(x) log‬‬ ‫‪1‬‬
‫)‪p(x‬‬ ‫‪ n‬ﻧﺘﯿﺠﻪ ‪ : ۱‬ﻣﻘﺪﺍﺭ ﺑﯿﺸﯿﻨﻪ ﺗﺎﺑﻊ ﺍﻃﻼﻋﺎﺕ‬

‫= )‪ {p(x‬ﺑﺮﻗﺮﺍﺭ ﻣﯽ ﺷﻮﺩ‬ ‫}‪M‬‬


‫‪1‬‬
‫ﯾﮑﻨﻮﺍﺧﺖ‬

‫= )‪ . q(x‬ﺩﺭﻧﺘﯿﺠﻪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ ‪:‬‬ ‫‪1‬‬


‫‪M‬‬ ‫‪ n‬ﺍﺛﺒﺎﺕ‪ :‬ﺩﺭﻗﻀﯿﻪ ﻗﺒﻠﯽ ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‬

‫∑‬
‫‪M‬‬ ‫‪1‬‬
‫‪p(x) log‬‬ ‫‪M‬‬
‫‪= H − log M ≤ 0,‬‬ ‫)‪(۲۷‬‬
‫‪x=1‬‬
‫‪px‬‬

‫‪1‬‬
‫= )‪.p(x‬‬ ‫‪M‬‬ ‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ‬

‫‪ n‬ﻧﺘﯿﺠﻪ ‪ : ۲‬ﺑﺮﺍﯼ ﺩﻭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X, Y‬ﻧﺎﻣﺴﺎﻭﯼ ﺯﯾﺮﺑﺮﻗﺮﺍﺭﺍﺳﺖ‬

‫‪H(X, Y ) ≤ H(X) + H(Y ),‬‬ ‫)‪(۲۸‬‬

‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ ‪ X, Y‬ﻣﺘﻐﯿﺮﻫﺎﯼ ﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ‪.‬‬

‫‪ n‬ﺍﺛﺒﺎﺕ ‪ :‬ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺩﻭﻣﺘﻐﯿﺮ ﺭﺍ ﺑﺎ )‪ p(x, y‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺩﺭﻧﺘﯿﺠﻪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬

‫∑‬ ‫∑‬
‫=‪p1 (x) :‬‬ ‫‪p(x, y),‬‬ ‫=‪p2 (y) :‬‬ ‫‪p(x, y).‬‬ ‫)‪(۲۹‬‬
‫‪y‬‬ ‫‪x‬‬

‫‪۹‬‬
‫ﺣﺎﻝ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ )‪ q(x, y) := p1 (x)p2 (y‬ﺭﺍﺩﺭﻧﻈﺮﻣﯽ ﮔﯿﺮ ﯾﻢ ﻭﺍﺯ ﻗﻀﯿﻪ ﺍﯼ ﮐﻪ ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ ‪:‬‬

‫∑‬ ‫)‪q(x, y‬‬


‫‪p(x, y) log‬‬ ‫‪≤0‬‬ ‫)‪(۳۰‬‬
‫‪x,y‬‬
‫)‪p(x, y‬‬

‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ )‪ .p(x, y) = q(x, y) = p1 (x)p2 (y‬ﺍﻣﺎ ﻧﺎﻣﺴﺎﻭﯼ ﺑﺎﻻ ﺭﺍﻭﻗﺘﯽ ﺑﺎﺯﻧﻮﯾﺴﯽ ﮐﻨﯿﻢ‬

‫ﭼﯿﺰﯼ ﻧﯿﺴﺖ ﺟﺰ‬

‫‪H(X, Y ) ≤ H(X) + H(Y ),‬‬ ‫)‪(۳۱‬‬

‫ﮐﻪ ﻣﯽ ﺗﻮﺍﻥ ﺁﻥ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﻧﯿﺰ ﻧﻮﺷﺖ‪:‬‬

‫‪H(X|Y ) ≤ H(X).‬‬ ‫)‪(۳۲‬‬

‫ﺍﯾﻦ ﻧﺎﻣﺴﺎﻭﯼ ﺩﺭ ﻭﺍﻗﻊ ﺑﯿﺎﻥ ﻣﯽ ﮐﻨﺪ ﮐﻪ ﺩﺍﻧﺴﺘﻦ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺩﯾﮕﺮ ﻣﺜﻞ ‪ Y‬ﻫﻤﻮﺍﺭﻩ ﺍﺯ ﺍﻧﺘﺮ ﻭﭘﯽ ﻣﻮﺟﻮﺩ ﺩﺭ ﻣﺘﻐﯿﺮ ‪ X‬ﮐﻢ ﻣﯽ ﮐﻨﺪ‬

‫) ﭼﯿﺰﯼ ﺩﺭ ﺑﺎﺭﻩ ﺁﻥ ﺑﻪ ﻣﺎ ﻣﯽ ﮔﻮﯾﺪ ﻭ ﺍﻃﻼﻋﺎﺕ ﻣﺎ ﺭﺍ ﺁﻓﺰﺍﯾﺶ ﻣﯽ ﺩﻫﺪ(‪ .‬ﺍﮔﺮ ﺑﺨﻮﺍﻫﯿﻢ ﺍﺯ ﺯﺑﺎﻥ ﺯﻧﺪﮔﯽ ﺭ ﻭﺯﻣﺮﻩ ﮐﻤﮏ ﺑﮕﯿﺮ ﯾﻢ ﻣﯽ‬

‫ﺗﻮﺍﻧﯿﻢ ﺑﮕﻮﯾﯿﻢ ﮐﻪ ﻣﻌﻨﺎﯼ ﻧﺎﻣﺴﺎﻭﯼ )‪ (۳۱‬ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ‪ :‬ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭﺟﻤﻠﻪ » ﻓﺮﺩﺍ ﻫﻮﺍﺍﺑﺮﯼ ﺍﺳﺖ ﻭﺑﺎﺭﺍﻥ ﻣﯽ‬

‫ﺑﺎﺭﺩ« ﮐﻤﺘﺮﺍﺯﻣﺠﻤﻮﻉ ﺍﻃﻼﻋﺎﺗﯽ ﺍﺳﺖ ﮐﻪ ﺩﺭﺩﻭﺟﻤﻠﻪ » ﻓﺮﺩﺍﻫﻮﺍ ﺍﺑﺮﯼ ﺍﺳﺖ« ﻭ » ﻓﺮﺩﺍ ﻫﻮﺍﺑﺎﺭﺍﻧﯽ ﺍﺳﺖ « ﻣﯽ ﺑﺎﺷﺪ‪ .‬ﺩﻟﯿﻞ ﺍﯾﻦ ﺍﻣﺮ ﺁﻥ‬

‫ﺍﺳﺖ ﮐﻪ ﻣﻌﻤﻮﻻً ﺑﯿﻦ ﺍﺑﺮﯼ ﺑﻮﺩﻥ ﻫﻮﺍ ﻭ ﺑﺎﺭﺍﻧﯽ ﺑﻮﺩﻥ ﺁﻥ ﯾﮏ ﻫﻤﺒﺴﺘﮕﯽ ﻭﺟﻮﺩ ﺩﺍﺭﺩ ﮐﻪ ﺑﻪ ﻣﺎ ﺍﺟﺎﺯﻩ ﻣﯽ ﺩﻫﺪ ﺍﺯ ﺍﻭﻟﯽ ﺑﺘﻮﺍﻧﯿﻢ ﻭﺟﻮﺩ‬

‫ﺩﻭﻣﯽ ﺭﺍ ﺣﺪﺱ ﺑﺰﻧﯿﻢ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﮐﺴﯽ ﮐﻪ ﻫﺮ ﺩﻭ ﺟﻤﻠﻪ ﺭﺍ ﺑﻪ ﻣﺎ ﻣﯽ ﮔﻮﯾﺪ ﺩﻭﺑﺮﺍﺑﺮﮐﺴﯽ ﮐﻪ ﻓﻘﻂ ﯾﮑﯽ ﺍﺯﺟﻤﻼﺕ ﺭﺍ ﺑﻪ ﻣﺎ ﻣﯽ ﮔﻮﯾﺪ ﺑﻪ‬

‫ﻣﺎ ﺍﻃﻼﻉ ﻧﻤﯽ ﺩﻫﺪ‪ .‬ﺍﯾﻦ ﻣﺜﺎﻝ ﻃﺒﯿﻌﺘﺎ ﯾﮏ ﻣﺜﺎﻝ ﮐﻼﻣﯽ ﺍﺳﺖ ﻭ ﮐﻤﯽ ﻧﯿﺴﺖ‪.‬‬

‫‪ n‬ﻧﺘﯿﺠﻪ‪ :۳‬ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﯾﮏ ﮐﻤﯿﺖ ﻧﺎﻣﻨﻔﯽ ﺍﺳﺖ‪ .‬ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﺍﺯﺗﻌﺮ ﯾﻒ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﻭ ﻧﺘﯿﺠﻪ ‪ ۲‬ﺑﺪﺳﺖ ﻣﯽ ﺁﯾﺪ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺍﺣﺘﻤﺎﻻﺕ ﻧﺴﺒﯽ ﺩﻭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﻣﻄﺎﺑﻖ ﺑﺎ ﺟﺪﻭﻝ ﺯﯾﺮ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ‪ :‬ﻣﻨﻈﻮﺭ ﺍﺯ ﺍﺣﺘﻤﺎﻝ ﻧﺴﺒﯽ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺑﺮﺍﯼ‬

‫ﺑﺪﺳﺖ ﺁﻭﺭﺩﻥ ﺍﺣﺘﻤﺎﻝ ﻣﯽ ﺑﺎﯾﺴﺖ ﺍﻋﺪﺍﺩ ﺩﺭ ﻭﻥ ﺟﺪﻭﻝ ﺭﺍ ﺑﻬﻨﺠﺎﺭ ﮐﻨﯿﺪ ﻃﻮﺭﯼ ﮐﻪ ﻣﺠﻤﻮﻉ ﺗﻤﺎﻡ ﺍﺣﺘﻤﺎﻻﺕ ﺑﺮﺍﺑﺮ ﺑﺎ ﯾﮏ ﺷﻮﺩ‪.‬‬

‫‪۱۰‬‬
‫)‪p(x, y‬‬ ‫‪y1‬‬ ‫‪y2‬‬ ‫‪y3‬‬ ‫‪y4‬‬ ‫‪y5‬‬ ‫‪y6‬‬

‫‪x1‬‬ ‫‪2‬‬ ‫‪0‬‬ ‫‪5‬‬ ‫‪2‬‬ ‫‪4‬‬ ‫‪2‬‬

‫‪x2‬‬ ‫‪0‬‬ ‫‪3‬‬ ‫‪6‬‬ ‫‪0‬‬ ‫‪1‬‬ ‫‪5‬‬

‫‪x3‬‬ ‫‪9‬‬ ‫‪4‬‬ ‫‪0‬‬ ‫‪0‬‬ ‫‪3‬‬ ‫‪0‬‬

‫‪x4‬‬ ‫‪3‬‬ ‫‪1‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪7‬‬ ‫‪1‬‬

‫‪x5‬‬ ‫‪0‬‬ ‫‪2‬‬ ‫‪0‬‬ ‫‪2‬‬ ‫‪1‬‬ ‫‪3‬‬

‫‪x6‬‬ ‫‪0‬‬ ‫‪7‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪5‬‬ ‫‪0‬‬

‫ﺍﻟﻒ‪ :‬ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ) ‪ H(X, Y‬ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪.‬‬

‫ﺏ ‪ :‬ﺗﺎﺑﻊ ﻫﺎﯼ ﺁﻧﺘﺮ ﻭﭘﯽ )‪ H(X|Y ) ،H(Y )، H(X‬ﻭ )‪ H(Y |X‬ﺭﺍ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻣﺜﺎﻟﯽ ﺍﺯ ﯾﮏ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ )‪ P (x, y‬ﺍﺭﺍﺋﻪ ﺩﻫﯿﺪ ﮐﻪ ﺑﺮﺍﯼ ﺑﻌﻀﯽ ﺍﺯ ﻣﻘﺎﺩﯾﺮ ﻣﺘﻐﯿﺮﻫﺎ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ‪P (x | y) ≤ :‬‬

‫)‪ P (x‬ﻭ ﺑﺮﺍﯼ ﺑﻌﻀﯽ ﺩﯾﮕﺮ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ ‪P (x | y) ≥ P (x).‬‬

‫‪ n‬ﻗﻀﯿﻪ ‪:‬ﺍﻃﻼﻋﺎﺕ ﺗﺎﺑﻊ ﻣﺤﺪﺑﯽ ﺍﺯ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺍﺳﺖ‪ .‬ﺑﻪ ﻋﺒﺎﺭﺕ ﺩﯾﮕﺮ ﺍﮔﺮ ‪ P1‬ﻭ ‪ P2‬ﺩﻭﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﻭ = )‪P0 (x‬‬

‫)‪ λP1 (x) + (1 − λ)P2 (x‬ﺗﺮﮐﯿﺐ ﺧﻄﯽ ﻣﺤﺪﺏ ﺁﻧﻬﺎ ﺑﺎﺷﺪ ﺁﻧﮕﺎﻩ‬

‫‪H0 (X) ≥ λH1 (X) + (1 − λ)H2 (X).‬‬ ‫)‪(۳۳‬‬

‫ﺑﻪ ﺍﺻﻄﻼﺡ ﻣﯽ ﮔﻮﯾﯿﻢ ﮐﻪ ﺍﻃﻼﻋﺎﺕ ﯾﮏ ﺗﺎﺑﻊ ﻣﺤﺪﺏ ﺭ ﻭﺑﻪ ﭘﺎﯾﯿﻦ ﺍﺳﺖ ﮐﻪ ﺑﻪ ﯾﺎﺩﻣﺎﻧﺪﻥ ﺷﮑﻞ ﺁﻥ ﺭﺍ ﻧﯿﺰﺩﺭﺫﻫﻦ ﺁﺳﺎﻥ ﻣﯽ‬

‫ﮐﻨﺪ‪.‬‬

‫‪ n‬ﺍﺛﺒﺎﺕ ‪ :‬ﺑﺎﺯﻫﻢ ﺍﺯﻧﺎﻣﺴﺎﻭﯼ ﺍﺳﺎﺳﯽ ﺍﯼ ﮐﻪ ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺑﺎﮐﻤﯽ ﺧﻼﺻﻪ ﻧﻮﯾﺴﯽ ﺩﺭﻧﻤﺎﺩﻫﺎ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬

‫‪H0 − λH1 − (1 − λ)H2‬‬

‫‪۱۱‬‬
‫∑‬ ‫‪1‬‬ ‫∑‬ ‫‪1‬‬ ‫∑‬ ‫‪1‬‬
‫=‬ ‫‪p0 log‬‬ ‫‪−λ‬‬ ‫‪p1 log‬‬ ‫)‪− (1 − λ‬‬ ‫‪p2 log‬‬
‫‪p0‬‬ ‫‪p1‬‬ ‫‪p2‬‬

‫∑‬ ‫‪1‬‬ ‫∑‬ ‫‪1‬‬ ‫∑‬ ‫‪1‬‬


‫=‬ ‫‪(λp1 + (1 − λ)p2 ) log‬‬ ‫‪−λ‬‬ ‫‪p1 log‬‬ ‫)‪− (1 − λ‬‬ ‫‪p2 log‬‬
‫‪λp1 + (1 − λ)p2‬‬ ‫‪p1‬‬ ‫‪p2‬‬

‫∑‬ ‫‪p1‬‬ ‫∑‬ ‫‪p2‬‬


‫‪= λ‬‬ ‫‪p1 log‬‬ ‫)‪+ (1 − λ‬‬ ‫‪p2 log‬‬ ‫‪≥ 0,‬‬ ‫)‪(۳۴‬‬
‫‪λp1 + (1 − λ)p2‬‬ ‫‪λp1 + (1 − λ)p2‬‬

‫ﮐﻪ ﺩﺭﺧﻂ ﺁﺧﺮ ﺍﺯﻧﺎﻣﺴﺎﻭﯼ ﺍﺳﺎﺳﯽ ﺍﺳﺘﻔﺎﺩﻩ ﮐﺮﺩﻩ ﺍﯾﻢ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺑﺮﺍﯼ ﯾﮏ ﺳﮑﻪ ﮐﻪ ﺩﻭ ﺭ ﻭﯼ ﺁﻥ ﺑﺎ ﺍﻋﺪﺍﺩ ‪ 0‬ﻭ ‪ 1‬ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﻣﯽ ﺷﻮﻧﺪ‪ ،‬ﺩﻭ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﺩﺭ ﻧﻈﺮ‬

‫ﺑﮕﯿﺮ ﯾﺪ‪:‬‬

‫‪{P (0) = 1/2, P (1) = 1/2},‬‬ ‫‪, {Q(0) = 1/3, Q(1) = 2/3}.‬‬ ‫)‪(۳۵‬‬

‫ﺣﺎﻝ ﺩﺭﺳﺘﯽ ﺭﺍﺑﻄﻪ ﺗﺤﺪﺏ ﺭﺍ ﺑﺮﺍﯼ ﺁﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ﺗﺤﻘﯿﻖ ﮐﻨﯿﺪ‪.‬‬

‫‪ ۱.۳‬ﺗﻌﺮ ﯾﻒ ﮐﺎﻧﺎﻝ ﮐﻼﺳﯿﮏ‬

‫ﻣﻨﻈﻮﺭﺍﺯ ﯾﮏ ﮐﺎﻧﺎﻝ ﮐﻼﺳﯿﮏ ﻋﻤﻠﮕﺮﯼ ﺍﺳﺖ ﮐﻪ ﯾﮏ ﺁﻧﺰﺍﻣﺒﻞ ﺗﺼﺎﺩﻓﯽ ‪ X‬ﺭﺍ ﺑﻪ ﺁﻧﺰﺍﻣﺒﻞ ﺗﺼﺎﺩﻓﯽ ‪ Y‬ﺗﺒﺪﯾﻞ ﻣﯽ ﮐﻨﺪ‪ .‬ﺑﻬﺘﺮ ﯾﻦ ﻣﺜﺎﻝ‬

‫ﺁﻥ ﻫﺮﻧﻮﻉ ﮐﺎﻧﺎﻝ ﻣﺨﺎﺑﺮﺍﺗﯽ ﮐﻼﺳﯿﮏ ﺍﺳﺖ‪ X .‬ﺭﺍ ﻭﺭ ﻭﺩﯼ ﮐﺎﻧﺎﻝ ﻭ ‪ Y‬ﺭﺍﺧﺮ ﻭﺟﯽ ﺁﻥ ﻣﯽ ﻧﺎﻣﯿﻢ‪ .‬ﯾﮏ ﮐﺎﻧﺎﻝ ﺑﺪﻭﻥ ﻧﻮﻓﻪ ﮐﺎﻧﺎﻟﯽ ﺍﺳﺖ‬

‫ﮐﻪ ﺧﺮ ﻭﺟﯽ ﺁﻥ ﺩﻗﯿﻘﺎً ﺑﺎﻭﺭ ﻭﺩﯼ ﺁﻥ ﺑﺮﺍﺑﺮﺍﺳﺖ‪ .‬ﺑﺠﺰﺍﯾﻦ ﮐﺎﻧﺎﻝ ﺍﯾﺪﻩ ﺁﻝ ﻫﺮﮐﺎﻧﺎﻝ ﺩﯾﮕﺮﯼ ﻋﻼﺋﻢ ﻭﺭ ﻭﺩﯼ ‪ xi ∈ X‬ﺭﺍ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ ﻣﻌﯿﻦ‬

‫ِ ) ‪ P (yj |xi‬ﺑﻪ ﻋﻼﺋﻢ ﺧﺮ ﻭﺟﯽ ‪ yj ∈ Y‬ﺗﺒﺪﯾﻞ ﻣﯽ ﮐﻨﺪ‪ .‬ﻫﺮﮔﺎﻩﺩﺭﺧﺮ ﻭﺟﯽ ﮐﺎﻧﺎﻝ ﻋﻼﻣﺖ ‪ yj‬ﺭﺍﺩﺭ ﯾﺎﻓﺖ ﮐﻨﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺣﺘﻤﺎﻝ ﺷﺮﻃﯽ‬

‫ﺍﯾﻦ ﮐﻪ ﭼﻪ ﻋﻼﻣﺖ ‪ xi‬ﺍﯼ ﻣﻨﺠﺮﺑﻪ ﺍﯾﻦ ﻋﻼﻣﺖ ﺩﺭﺧﺮ ﻭﺟﯽ ﺷﺪﻩ ﺍﺳﺖ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﻢ‪ .‬ﺩﺭ ﻭﺍﻗﻊ ﺩﺍﺭ ﯾﻢ‪:‬‬

‫) ‪P (xi , yj‬‬ ‫) ‪P (yj , xi‬‬


‫= ) ‪P (xi |yj‬‬ ‫∑=‬
‫) ‪P (yj‬‬ ‫) ‪xi P (yj , xi‬‬
‫) ‪P (yj |xi )P (xi‬‬
‫=‬ ‫∑‬ ‫)‪(۳۶‬‬
‫)) ‪xi P (yj |xi )P (xi‬‬

‫‪۱۲‬‬
‫ﺩﺭﺁﺧﺮ ﯾﻦ ﻋﺒﺎﺭﺕ ) ‪ P (xi‬ﻣﺸﺨﺼﻪ ﻣﻨﺒﻊ ‪ X‬ﻭ ) ‪ P (yj |xi‬ﻣﺸﺨﺼﻪ ﮐﺎﻧﺎﻝ ﺍﺳﺖ ﻭﻫﺮﺩﻭﻣﻌﻠﻮﻡ ﻫﺴﺘﻨﺪ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﯾﮏ ﮐﺎﻧﺎﻝ ﮐﻼﺳﯿﮏ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﺷﺮﻃﯽ ﺯﯾﺮ ﺗﻮﺻﯿﻒ ﻣﯽ ﺷﻮﺩ‪:‬‬

‫‪P (0|0) = 1 − p,‬‬ ‫‪P (1|1) = 1 − q.‬‬ ‫)‪(۳۷‬‬

‫ﻫﺮﮔﺎﻩ ﺁﻧﺰﺍﻣﺒﻞ ﻭﺭ ﻭﺩﯼ ﺑﻪ ﺻﻮﺭﺕ‬

‫‪X = {P (0) = a, P (1) = 1 − a},‬‬ ‫)‪(۳۸‬‬

‫ﺁﻧﺰﺍﻣﺒﻞ ﺧﺮ ﻭﺟﯽ ﺭﺍ ﭘﯿﺪﺍ ﮐﻨﯿﺪ‪ .‬ﺳﭙﺲ ﮐﻤﯿﺖ ﻫﺎﯼ ﺯﯾﺮ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪:‬‬

‫‪H(X),‬‬ ‫‪H(Y ),‬‬ ‫‪H(X|Y ),‬‬ ‫‪H(Y |X),‬‬ ‫‪I(Y : X),‬‬ ‫‪I(X : Y ).‬‬ ‫)‪(۳۹‬‬

‫‪ n‬ﻗﻀﯿﻪ‪ :‬ﺍﻃﻼﻋﺎﺕ ﭘﺮﺩﺍﺯﺵ ﺷﺪﻩ ﺩﺭ ﯾﮏ ﮐﺎﻧﺎﻝ ) ‪ I(X; Y‬ﺗﺎﺑﻊ ﻣﺤﺪﺑﯽ ﺍﺯ ﺍﺣﺘﻤﺎﻻﺕ ﻭﺭ ﻭﺩﯼ ِ ‪ X‬ﺍﺳﺖ‪.‬‬

‫ﺩﺭ ﯾﮏ ﮐﺎﻧﺎﻝ ﺁﻧﺰﺍﻣﺒﻞ ﻭﺭ ﻭﺩﯼ ﺭﺍ ﺑﺎ ‪ X‬ﻭﺁﻧﺰﺍﻣﺒﻞ ﺧﺮ ﻭﺟﯽ ﺭﺍ ﺑﺎ ‪ Y‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺍﺣﺘﻤﺎﻻﺕ ﺷﺮﻃﯽ )‪ P (y|x‬ﺩﺭ ﻭﺍﻗﻊ‬

‫ﻣﺸﺨﺼﻪ ﮐﺎﻧﺎﻝ ﻫﺴﺘﻨﺪ ﻭ ﺍﺣﺘﻤﺎﻝ ﺗﺒﺪﯾﻞ ﭘﯿﺎﻡ ‪ x‬ﺑﻪ ‪ y‬ﺭﺍ ﺩﺭﻃﻮﻝ ﮐﺎﻧﺎﻝ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﻨﺪ ﻭﺭﺑﻄﯽ ﺑﻪ ﺍﺣﺘﻤﺎﻝ ﭘﯿﺎﻡ ﻫﺎﯼ ﻭﺭ ﻭﺩﯼ‬

‫ﻧﺪﺍﺭﻧﺪ‪ .‬ﺣﺎﻝ ﻫﺮﮔﺎﻩ ﺑﺮﺍﯼ ﺁﻧﺰﺍﻣﺒﻞ ﻭﺭ ﻭﺩﯼ ﺩﻭ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ )‪ P1 (x‬ﻭ )‪ P2 (x‬ﻭ ﺟﻤﻊ ﻣﺤﺪﺏ ﺁﻧﻬﺎ ﯾﻌﻨﯽ = )‪P0 (x‬‬

‫)‪ λP1 (x) + (1 − λ)P2 (x‬ﺭﺍ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﻢ ﺁﻧﮕﺎﻩ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺗﻌﺎﺭ ﯾﻒ ﺯﯾﺮ‪:‬‬
‫∑‬
‫= )‪P (y‬‬ ‫‪P (y|x)P (x),‬‬
‫‪x‬‬
‫= )‪P (x, y‬‬ ‫‪P (y|x)P (x),‬‬ ‫)‪(۴۰‬‬

‫ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‬

‫= )‪P0 (x, y‬‬ ‫)‪λP1 (x, y) + (1 − λ)P2 (x, y‬‬

‫= )‪P0 (y‬‬ ‫‪λP1 (y) + (1 − λ)P2 (y).‬‬ ‫)‪(۴۱‬‬

‫ﺑﺎﺗﺮﮐﯿﺐ ﺍﯾﻦ ﺭ ﻭﺍﺑﻂ ﺑﺎ ﺗﻌﺮ ﯾﻒ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﻭ ﻫﻢ ﭼﻨﯿﻦ ﻣﺤﺪﺏ ﺑﻮﺩﻥ ﺗﺎﺑﻊ ﺍﻃﻼﻋﺎﺕ ﺍﺛﺒﺎﺕ ﻗﻀﯿﻪ ﮐﺎﻣﻞ ﻣﯽ ﺷﻮﺩ‪.‬‬

‫‪۱۳‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺍﯾﻦ ﺍﺛﺒﺎﺕ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﮐﺎﻣﻞ ﺑﻨﻮﯾﺴﯿﺪ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﯾﮏ ﮐﺎﻧﺎﻝ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ ﮐﻪ ﺑﻪ ﺻﻮﺭﺕ ﺯﯾﺮ ﻋﻤﻞ ﻣﯽ ﮐﻨﺪ‪:‬‬

‫‪P (0|0) = 1 − p,‬‬ ‫‪P (1|1) = 1 − q.‬‬ ‫)‪(۴۲‬‬

‫ﺁﻧﺰﺍﻣﺒﻞ ﻫﺎﯼ ﻭﺭ ﻭﺩﯼ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﺯﯾﺮ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ‪:‬‬

‫‪X0 := {P (0) = 1/2, P (1) = 1/2},‬‬ ‫‪, X1 := {Q(0) = 1/3, Q(1) = 2/3}.‬‬ ‫)‪(۴۳‬‬

‫ﺍﻟﻒ‪ :‬ﺩﺭﺳﺘﯽ ﺭﺍﺑﻄﻪ ﺗﺤﺪﺏ ﺭﺍ ﺑﺮﺍﯼ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺗﺤﻘﯿﻖ ﮐﻨﯿﺪ‪.‬‬

‫ﺏ‪ :‬ﻫﺮﮔﺎﻩ ﮐﻪ ﺩﺭ ﻣﻘﺼﺪ‪ ،‬ﮔﯿﺮﻧﺪﻩ ﺭﺷﺘﻪ ﺧﺮ ﻭﺟﯽ ‪ 000‬ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ ﮐﻨﺪ ﺣﺴﺎﺏ ﮐﻨﯿﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺩﺭ ﻣﺒﺪﺍء ﻫﺮﮐﺪﺍﻡ ﺍﺯ ﺭﺷﺘﻪ‬

‫ﻫﺎﯼ ‪ x1 x2 x3‬ﺍﺭﺳﺎﻝ ﺷﺪﻩ ﺑﺎﺷﻨﺪ ﭼﻘﺪﺭ ﺍﺳﺖ؟‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ ‪ :‬ﺟﻔﺖ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ) ‪ (X, Y‬ﺭﺍ ﻣﻄﺎﺑﻖ ﺟﺪﻭﻝ ﺯﯾﺮ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﺪ‪ Y :‬ﻧﺎﺷﯽ ﺍﺯ ﺍﻧﺪﺍﺧﺘﻦ ﯾﮏ ﻃﺎﺱ ﺍﺳﺖ ﮐﻪ ﻣﻘﺎﺩﯾﺮ‬

‫‪ ۱‬ﺗﺎ ‪ ۶‬ﺭﺍ ﺑﻪ ﺧﻮﺩ ﻣﯽ ﮔﯿﺮﺩ ﻭ ‪ X‬ﻧﯿﺰ ﺩﻭﻣﻘﺪﺍﺭﻣﺘﻔﺎﻭﺕ ﯾﮏ ﺳﮑﻪ ﺍﺳﺖ ﮐﻪ ﻣﻘﺎﺩﯾﺮ ‪ a‬ﯾﺎ ‪ b‬ﺭﺍ ﺍﺧﺘﯿﺎﺭﻣﯽ ﮐﻨﺪ‪.‬‬

‫) ‪(X, Y‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬ ‫‪6‬‬

‫‪a‬‬ ‫‪0.2‬‬ ‫‪0.1‬‬ ‫‪0.08‬‬ ‫‪0.04‬‬ ‫‪0.05‬‬ ‫‪0.05‬‬ ‫)‪(۴۴‬‬

‫‪b‬‬ ‫‪0.1‬‬ ‫‪0.02‬‬ ‫‪0.15‬‬ ‫‪0.06‬‬ ‫‪0.1‬‬ ‫‪0.05‬‬

‫ﮐﻤﯿﺖ ﻫﺎﯼ ﺯﯾﺮ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪ :‬ﺍﻟﻒ ‪ H(Y |X) ، H(X|Y ) ، H(X, Y ) ، H(Y ) ، H(X) :‬ﻭ ) ‪.I(X; Y‬‬

‫‪۱۴‬‬
‫ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺍﻃﻼﻋﺎﺕ ﺩﺭﻏﯿﺎﺏ ﻧﻮﻓﻪ‬ ‫‪۴‬‬

‫ﺑﻬﺘﺮ ﯾﻦ ﮐﺎﺭﺑﺮﺍﯼ ﻓﻬﻢ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺍﻃﻼﻋﺎﺕ ﻣﻄﺎﻟﻌﻪ ﯾﮏ ﻣﺜﺎﻝ ﺳﺎﺩﻩ ﺍﺳﺖ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪﮐﻪ ﻫﺪﻑ ﻣﺎ ﺍﺭﺳﺎﻝ ﻣﺘﻦ ﻫﺎﯾﯽ ﺍﺳﺖ ﮐﻪ‬

‫ﺗﻨﻬﺎﺍﺯﭼﻬﺎﺭﺣﺮﻑ ﺍﻟﻔﺒﺎ ﺑﻪ ﻧﺎﻡ ﻫﺎﯼ ‪ C, B, A‬ﻭ ‪ D‬ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ‪.‬ﯾﮏ ﺭ ﻭﺵ ﺑﺮﺍﯼ ﺍﺭﺳﺎﻝ ﺍﯾﻦ ﻣﺘﻦ ﻫﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺣﺮﻑ ﻫﺎﯼ‬

‫ﭼﻬﺎﺭﮔﺎﻧﻪ ﻓﻮﻕ ﺭﺍ ﺑﺎ ﺑﯿﺖ ﻫﺎﯼ ‪ 0‬ﻭ ‪ 1‬ﮐﻪ ﺩﺭﻣﺨﺎﺑﺮﺍﺕ ﺩﯾﺠﯿﺘﺎﻝ ﻣﻌﻤﻮﻝ ﺍﺳﺖ‪ ،‬ﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮ ﮐﺪﮐﻨﯿﻢ ‪.‬‬

‫‪A −→ 00‬‬

‫‪B −→ 01‬‬

‫‪C −→ 10‬‬

‫‪D −→ 11.‬‬ ‫)‪(۴۵‬‬

‫ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﺣﺮﻑ ﺩﻭﺑﯿﺖ ﻣﺨﺎﺑﺮﻩ ﮐﺮﺩﻩ ﺍﯾﻢ‪ .‬ﺣﺎﻝ ﺳﻮﺍﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺁﯾﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﯾﮏ ﺭ ﻭﺵ ﮐﺪ ﮐﺮﺩﻥ ﺑﻪ ﮐﺎﺭﺑﺒﺮ ﯾﻢ‬

‫ﮐﻪ ﺩﺭﺁﻥ ﻃﻮﻝ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﺣﺮﻑ ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯾﯽ ﮐﻪ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﻣﺨﺎﺑﺮﻩ ﻣﯽ ﮐﻨﯿﻢ ﮐﻤﺘﺮﺍﺯ ‪ 2‬ﺑﺎﺷﺪ؟‬

‫ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﺣﺮ ﻭﻑ ﺩﺭﻣﺘﻦ ﻫﺎﯼ ﯾﺎﺩﺷﺪﻩ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ ﺯﯾﺮ ﻇﺎﻫﺮﻣﯽ ﺷﻮﻧﺪ‪:‬‬

‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬


‫= )‪P (A‬‬ ‫= )‪P (B‬‬ ‫= )‪P (C‬‬ ‫= )‪P (D‬‬ ‫‪.‬‬ ‫)‪(۴۶‬‬
‫‪8‬‬ ‫‪8‬‬ ‫‪4‬‬ ‫‪2‬‬

‫ﺣﺎﻝ ﺭ ﻭﺵ ﮐﺪﮔﺬﺍﺭﯼ ﺯﯾﺮ ﺭﺍ ﺑﻪ ﮐﺎﺭﻣﯽ ﺑﺮ ﯾﻢ‪:‬‬

‫‪D −→ 0‬‬

‫‪C −→ 10‬‬

‫‪B −→ 110‬‬

‫‪A −→ 111.‬‬ ‫)‪(۴۷‬‬

‫ﺩﺭﺍﯾﻦ ﺭ ﻭﺵ ﮐﺪﮔﺬﺍﺭﯼ ﺑﺮﺍﯼ ﺑﻌﻀﯽ ﺍﺯﺣﺮ ﻭﻑ ﺑﯿﺶ ﺍﺯ ﺩﻭﺑﯿﺖ ﺑﻪ ﮐﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ ﻭﻟﯽ ﺍﮔﺮ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﺪﻫﺎﯾﯽ ﺭﺍ ﮐﻪ ﺑﺮﺍﯼ ﺣﺮ ﻭﻑ‬

‫ﺑﻪ ﮐﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﻢ ﻧﺘﯿﺠﻪ ﺟﺎﻟﺐ ﺗﻮﺟﻪ ﺧﻮﺍﻫﺪ ﺑﻮﺩ‪ .‬ﺍﯾﻦ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‪:‬‬

‫∑‬
‫‪4‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪7‬‬
‫= ⟩‪⟨l‬‬ ‫× ‪li × pi = 1‬‬ ‫‪+2× +3× +3× = .‬‬ ‫)‪(۴۸‬‬
‫‪i=1‬‬
‫‪2‬‬ ‫‪4‬‬ ‫‪8‬‬ ‫‪8‬‬ ‫‪4‬‬

‫‪۱۵‬‬
‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺑﺎ ﯾﮏ ﮐﺪﮔﺬﺍﺭﯼ ﻣﻨﺎﺳﺐ ﺗﻮﺍﻧﺴﺘﻪ ﺍﯾﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺭﺷﺘﻪ ﺑﯿﺖ ﻫﺎﯾﯽ ﺭﺍ ﮐﻪ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﭘﯿﺎﻡ ﺑﮑﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ ﺍﺯ ‪ ۲‬ﺑﻪ ‪۴/۷‬‬

‫ﺗﻘﻠﯿﻞ ﺩﻫﯿﻢ‪ .‬ﺿﻤﻨﺎً ﺑﺎﯾﺪ ﺩﻗﺖ ﮐﻨﯿﻢ ﮐﻪ ﺍﯾﻦ ﻧﺤﻮﻩ ﮐﺪﮔﺬﺍﺭﯼ ﻫﯿﭻ ﻧﻮﻉ ﺍﺑﻬﺎﻣﯽ ﺩﺭﺑﺎﺭﻩ ﻣﺘﻨﯽ ﮐﻪ ﻣﺨﺎﺑﺮﻩ ﺷﺪﻩ ﺍﺳﺖ ﺩﺭﺑﺮﻧﺪﺍﺭﺩ ﻭﻫﺮ ﺭﺷﺘﻪ‬

‫ﺍﯼ ﺍﺯﺑﯿﺖ ﻫﺎ ﺑﻪ ﻃﻮﺭ ﯾﮑﺘﺎ ﺑﻪ ﻣﺘﻦ ﺍﻭﻟﯿﻪ ﺑﺎﺯﮔﺸﺎﯾﯽ ﻣﯽ ﺷﻮﺩ‪ .‬ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺭﺷﺘﻪ ﺯﯾﺮ‬

‫‪0 1 0 0 0 1 0 0 0 1 1 0 1 1 1.‬‬ ‫)‪(۴۹‬‬

‫ﺑﺪﻭﻥ ﺍﺑﻬﺎﻡ ﺑﻪ ﻣﺘﻦ ﺯﯾﺮﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ ﻭﻣﺘﻦ ﺩﯾﮕﺮﯼ ﺑﺮﺍﯼ ﺑﺎﺯﮔﺸﺎﯾﯽ ﺁﻥ ﻗﺎﺑﻞ ﺗﺼﻮﺭ ﻧﯿﺴﺖ‬

‫‪D C D D C D D B A.‬‬ ‫)‪(۵۰‬‬

‫ﺍﯾﻦ ﮐﻪ ﭼﻪ ﻧﻮﻉ ﮐﺪ ﻫﺎﯾﯽ ﯾﮑﺘﺎﮔﺸﺎﻫﺴﺘﻨﺪ ﻣﻮﺿﻮﻋﯽ ﺍﺳﺖ ﮐﻪ ﻣﺎﺩﺭﺩﺭﺳﻬﺎﯼ ﺁﯾﻨﺪﻩ ﺑﻪ ﺁﻥ ﺧﻮﺍﻫﯿﻢ ﭘﺮﺩﺍﺧﺖ ﻭﻓﻌﻼً ﻣﻮﺿﻮﻉ ﺑﺤﺚ‬

‫ﻣﺎﻧﯿﺴﺖ‪ .‬ﻭﻟﯽ ﯾﮏ ﻧﮑﺘﻪﻣﻬﻢ ﺭﺍﺑﺎﯾﺪ ﺫﮐﺮﮐﻨﯿﻢ‪ :‬ﻫﺮﮔﺎﻩ ﺁﻧﺘﺮ ﻭﭘﯽ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ }‪ X = {A, B, C, D‬ﺭﺍ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ ﺫﮐﺮﺷﺪﻩ ﺣﺴﺎﺏ‬

‫ﮐﻨﯿﻢ ﺣﺎﺻﻞ ﺁﻥ ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩﺑﺎ‪:‬‬

‫∑‬
‫‪4‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫= )‪H(X‬‬ ‫)‪) = × log2 (2) + × log2 (4) + × log2 (8) + × log2 (8‬‬
‫( ‪pi log2‬‬
‫‪i=1‬‬
‫‪p‬‬‫‪i‬‬ ‫‪2‬‬ ‫‪4‬‬ ‫‪8‬‬ ‫‪8‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪7‬‬
‫=‬ ‫‪×1+ ×2+ ×3+ ×3= .‬‬ ‫)‪(۵۱‬‬
‫‪2‬‬ ‫‪4‬‬ ‫‪8‬‬ ‫‪8‬‬ ‫‪4‬‬

‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺩﺭﺍﯾﻦ ﻣﺜﺎﻝ ﺧﺎﺹ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﺪﮔﺰﺍﺭﯼ ﺍﯼ ﮐﻪ ﺑﻪ ﮐﺎﺭﺑﺮﺩﯾﻢ ﺑﺎ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭﻣﺘﻦ ﺑﺮﺍﺑﺮﺍﺳﺖ‪ .‬ﺁﯾﺎ ﺍﯾﻦ ﯾﮏ‬

‫ﺧﺼﻠﺖ ﻋﻤﻮﻣﯽ ﺍﺳﺖ؟ ﺍﺩﺍﻣﻪ ﺍﯾﻦ ﺩﺭﺱ ﻭ ﺿﻤﯿﻤﻪ ﺁﻥ ﭘﺎﺳﺨﯽ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍﻝ ﺭﺍ ﺩﺭ ﺑﺮ ﺩﺍﺭﺩ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﺘﻨﯽ ﮐﻪ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺫﺧﯿﺮﻩ ﮐﻨﯿﻢ ﺍﺯ ﻫﻤﺎﻥ ﺍﻟﻔﺒﺎﯼ ﺳﺎﺩﻩ ﭼﻬﺎﺭﺣﺮﻓﯽ ﺑﺎ ﻫﻤﺎﻥ ﺍﺣﺘﻤﺎﻻﺕ ﺗﺸﮑﯿﻞ ﺷﺪﻩ‬

‫ﺍﺳﺖ ﺍﻣﺎ ﺍﯾﻦ ﺑﺎﺭ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺣﺮ ﻭﻑ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﺩﻭﺗﺎﯾﯽ ﮐﺪ ﮐﻨﯿﻢ‪ .‬ﺿﻤﻨﺎ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﺑﯿﻦ ﺣﺮ ﻭﻑ ﯾﮏ ﻫﻤﺒﺴﺘﮕﯽ ﻭﺟﻮﺩ‬

‫ﺩﺍﺭﺩ ‪ :‬ﺍﯾﻦ ﻫﻤﺒﺴﺘﮕﯽ ﺑﻪ ﺍﺣﺘﻤﺎﻻﺕ ﺯﯾﺮ ﻣﺸﺨﺺ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬

‫‪P (x|x) = 5/8,‬‬ ‫‪P (y ̸= x|x) = 1/8.‬‬ ‫)‪(۵۲‬‬

‫ﺍﻟﻒ‪ :‬ﺍﺣﺘﻤﺎﻻﺕ ﻣﺮﺑﻮﻁ ﺑﻪ ﺗﻤﺎﻡ ﺣﺮ ﻭﻑ ﺩﻭﺗﺎﯾﯽ ﺭﺍ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ‪.‬‬

‫ﺏ‪ :‬ﺣﺎﻝ ﺣﺮ ﻭﻑ ﺩﻭﺗﺎﯾﯽ ﺭﺍ ﻃﻮﺭﯼ ﮐﺪ ﮐﻨﯿﺪ ﮐﻪ ﺑﯿﺸﺘﺮ ﯾﻦ ﻓﺸﺮﺩﮔﯽ ﺣﺎﺻﻞ ﺷﻮﺩ‪ .‬ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯼ ﻻﺯﻡ ﺑﺮﺍﯼ ﺫﺧﯿﺮﻩ ﻫﺮ ﺣﺮﻑ‬

‫‪۱۶‬‬
‫ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﺍﮔﺮ ﺍﯾﻦ ﻫﻤﺒﺴﺘﮕﯽ ﻭﺟﻮﺩ ﻧﺪﺍﺷﺖ ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯼ ﻻﺯﻡ ﺑﺮﺍﯼ ﺫﺧﯿﺮﻩ ﻫﺮ ﺣﺮﻑ ﭼﻘﺪﺭ ﻣﯽ ﺷﺪ؟‬

‫ﺝ‪ :‬ﺍﺣﺘﻤﺎﻻﺕ ﻣﺮﺑﻮﻁ ﺑﻪ ﺗﻤﺎﻡ ﺣﺮ ﻭﻑ ﺳﻪ ﺗﺎﯾﯽ ﺭﺍ ﺑﺪﺳﺖ ﺑﯿﺎﻭﺭ ﯾﺪ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻫﻤﺒﺴﺘﮕﯽ ﻫﺎ ﻓﻘﻂ ﺩﻭﺗﺎﯾﯽ ﺍﺳﺖ ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻦ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻮﺷﺘﻪ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﯾﮏ ﮐﺪ ﺑﻬﯿﻨﻪ ﺑﺮﺍﯼ ﺍﯾﻦ ﺣﺮ ﻭﻑ‬

‫ﺑﻨﻮﯾﺴﯿﺪ ﺑﻪ ﻧﺤﻮﯼ ﮐﻪ ﻫﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﭘﺎﯾﯿﻦ ﺑﺎﺷﺪ ﻭ ﻫﻢ ﺭﺷﺘﻪ ﺍﯼ ﺻﻔﺮ ﻭ ﯾﮏ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﺑﻪ ﺣﺮ ﻭﻑ ﻧﮕﺎﺷﺘﻪ ﺷﻮﺩ‪.‬‬

‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬


‫= )‪P (A‬‬ ‫= )‪P (B‬‬ ‫= )‪P (C‬‬ ‫= )‪P (D‬‬ ‫= )‪P (E‬‬ ‫= ) ‪P (F‬‬ ‫)‪(۵۳‬‬
‫‪32‬‬ ‫‪32‬‬ ‫‪16‬‬ ‫‪8‬‬ ‫‪4‬‬ ‫‪2‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻦ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻮﺷﺘﻪ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﯾﮏ ﮐﺪ ﺑﻬﯿﻨﻪ ﺑﺮﺍﯼ ﺍﯾﻦ‬

‫ﺣﺮ ﻭﻑ ﺑﻨﻮﯾﺴﯿﺪ ﺑﻪ ﻧﺤﻮﯼ ﮐﻪ ﻫﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﭘﺎﯾﯿﻦ ﺑﺎﺷﺪ ﻭ ﻫﻢ ﺭﺷﺘﻪ ﺍﯼ ﺻﻔﺮ ﻭ ﯾﮏ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﺑﻪ ﺣﺮ ﻭﻑ ﻧﮕﺎﺷﺘﻪ‬

‫ﺷﻮﺩ‪.‬‬

‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬


‫= )‪P (A‬‬ ‫= )‪P (B‬‬ ‫= )‪P (C‬‬ ‫= )‪P (D‬‬
‫‪128‬‬ ‫‪128‬‬ ‫‪64‬‬ ‫‪32‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫= )‪P (E‬‬ ‫= ) ‪P (F‬‬ ‫= )‪P (G‬‬ ‫= )‪P (H‬‬ ‫)‪(۵۴‬‬
‫‪16‬‬ ‫‪8‬‬ ‫‪4‬‬ ‫‪2‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻦ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻮﺷﺘﻪ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﯾﮏ ﮐﺪ ﺑﻬﯿﻨﻪ ﺑﺮﺍﯼ ﺍﯾﻦ‬

‫ﺣﺮ ﻭﻑ ﺑﻨﻮﯾﺴﯿﺪ ﺑﻪ ﻧﺤﻮﯼ ﮐﻪ ﻫﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﭘﺎﯾﯿﻦ ﺑﺎﺷﺪ ﻭ ﻫﻢ ﺭﺷﺘﻪ ﺍﯼ ﺻﻔﺮ ﻭ ﯾﮏ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﺑﻪ ﺣﺮ ﻭﻑ ﻧﮕﺎﺷﺘﻪ‬

‫ﺷﻮﺩ‪.‬‬

‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬


‫= )‪P (A‬‬ ‫= )‪P (B‬‬ ‫= )‪P (C‬‬ ‫= )‪P (D‬‬
‫‪256‬‬ ‫‪256‬‬ ‫‪128‬‬ ‫‪128‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫= )‪P (E‬‬ ‫= ) ‪P (F‬‬ ‫= )‪P (G‬‬ ‫= )‪P (H‬‬
‫‪128‬‬ ‫‪32‬‬ ‫‪16‬‬ ‫‪8‬‬
‫‪1‬‬ ‫‪1‬‬
‫= )‪P (K‬‬ ‫‪P (L) = .‬‬ ‫)‪(۵۵‬‬
‫‪4‬‬ ‫‪2‬‬

‫ﺑﻌﺪﺍﺯﺫﮐﺮﺍﯾﻦ ﻣﺜﺎﻝ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺑﻔﻬﻤﯿﻢ ﮐﻪ ﺩﺭﺣﺎﻟﺖ ﮐﻠﯽ ﭼﮕﻮﻧﻪ ﻣﯽ ﺗﻮﺍﻥ ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭ ﯾﮏ ﻣﻨﺒﻊ ‪ X‬ﺭﺍ ﻓﺸﺮﺩﻩ ﮐﺮﺩ‪ .‬ﻓﺮﺽ‬

‫ﮐﻨﯿﺪ ﮐﻪ ﻣﻨﺒﻊ ﻣﺘﻦ ﻫﺎﯾﯽ ﺗﻮﻟﯿﺪ ﻣﯽ ﮐﻨﺪ ﮐﻪ ﺍﯾﻦ ﻣﺘﻦ ﻫﺎﺍﺯﺍﻟﻔﺒﺎﯼ } ‪ A = {x1 , x2 , · · · xN‬ﺗﺸﮑﯿﻞ ﺷﺪﻩﺍﻧﺪ ﻭ ﺍﺣﺘﻤﺎﻝ ﻇﺎﻫﺮﺷﺪﻥ ﻫﺮﺣﺮﻑ‬

‫ﻣﺜﻞ ‪ xi‬ﺩﺭﺍﯾﻦ ﻣﺘﻦ ﻫﺎ ﺑﺎ ‪ pi‬ﺩﺍﺩﻩ ﻣﯽ ﺷﻮﺩ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﯾﮏ ﻣﻨﺒﻊ ﺭﺍﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﻋﻨﻮﺍﻥ ﯾﮏ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﺑﺎ ﺍﻃﻼﻋﺎﺕ ﻣﻌﯿﻦ )‪H(X‬‬

‫ﺩﺭﻧﻈﺮﮔﺮﻓﺖ‪ .‬ﺑﺮﺍﯼ ﺳﺎﺩﮔﯽ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ‪ N‬ﺗﻮﺍﻧﯽ ﺍﺯ ‪ 2‬ﺍﺳﺖ ﯾﻌﻨﯽ ‪ .N = 2n‬ﺣﺎﻝ ﺍﮔﺮﺑﺪﻭﻥ ﺗﻮﺟﻪ ﺑﻪ ﺍﺣﺘﻤﺎﻻﺕ ﻇﺎﻫﺮﺷﺪﻥ ﺣﺮ ﻭﻑ‬

‫‪۱۷‬‬
‫ﻣﺨﺘﻠﻒ ﺑﺨﻮﺍﻫﯿﻢ ﻣﺘﻦ ﻫﺎﺭﺍﻣﺨﺎﺑﺮﻩ ﮐﻨﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻫﺮﺣﺮﻑ ﺍﻟﻔﺒﺎﯼ ‪ A‬ﺭﺍ ﺑﺎﯾﮏ ﺭﺷﺘﻪ ‪ n‬ﺗﺎﯼ ﺍﺯ ﺑﯿﺖ ﻫﺎﯼ ‪ 0‬ﻭ‪ 1‬ﮐﺪﮔﺬﺍﺭﯼ ﮐﻨﯿﻢ‪.‬‬

‫ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺮﺍﯼ ﻫﺮ ﻣﺘﻦ ﮐﻪ ﺷﺎﻣﻞ ‪ M‬ﺣﺮﻑ ﺍﺳﺖ ﺗﻌﺪﺍﺩ ‪ M n‬ﺑﯿﺖ ﻣﺼﺮﻑ ﻣﯽ ﮐﻨﯿﻢ ﯾﺎﺑﻪ ﻋﺒﺎﺭﺕ ﺩﯾﮕﺮ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﺣﺮﻑ ﺍﻟﻔﺒﺎ ‪n‬‬

‫ﺑﯿﺖ ﻣﺼﺮﻑ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﻭﻟﯽ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺭ ﻭﺵ ﮐﺪﮔﺬﺍﺭﯼ ﺑﻬﺘﺮﯼ ﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮﺑﮑﺎﺭﺑﺒﺮ ﯾﻢ‪.‬‬

‫ﺑﻪ ﺟﺎﯼ ﺍﯾﻨﮑﻪ ﺗﮏ ﺗﮏ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎ ﺭﺍ ﮐﺪﮔﺬﺍﺭﯼ ﮐﻨﯿﻢ‪ ،‬ﺳﻌﯽ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺭﺷﺘﻪ ‪ M‬ﺗﺎﯾﯽ ﺭﺍ ﺑﻪ ‪ K‬ﺭﺷﺘﻪ ﮐﻮﭼﮑﺘﺮ ﯾﻌﻨﯽ ﺭﺷﺘﻪ‬

‫ﻫﺎﯾﯽ ﺑﻪ ﻃﻮﻝ ‪ m‬ﺗﻘﺴﯿﻢ ﮐﻨﯿﻢ ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺩﺍﺭ ﯾﻢ‬

‫‪M = Km.‬‬

‫ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ‪ m‬ﻧﯿﺰ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ﮐﺎﻓﯽ ﺑﺰ ﺭﮒ ﺍﺳﺖ ‪ .‬ﺗﻌﺪﺍﺩ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ‪ m‬ﺣﺮﻓﯽ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ . N m‬ﻭﻟﯽ ﻧﮑﺘﻪ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ‬

‫ﻣﺎ ﺗﻨﻬﺎ ﻣﯽ ﺑﺎﯾﺴﺖ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ ﮐﺪ ﮐﻨﯿﻢ‪ .‬ﺑﻌﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺩﺭﺳﺖ ﺍﺳﺖ ﮐﻪ ﻫﺮﺣﺮﻑ ﺍﺯ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺑﺎ ﯾﮏ ﻓﺮﮐﺎﻧﺲ‬

‫ﻣﺸﺨﺺ ﺩﺭ ﻧﻮﺷﺘﺎﺭﻫﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﻇﺎﻫﺮ ﻣﯽ ﺷﻮﺩ ﺍﻣﺎ ﺭﺷﺘﻪ ﻫﺎﯾﯽ‪ m‬ﺣﺮﻓﯽ ﻣﺜﻞ‬

‫‪AAAAAAAAAAAAAAAAAAA‬‬

‫ﯾﺎ‬

‫‪AAABBBBAAABBBAAABBB‬‬

‫ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﻫﺴﺘﻨﺪ ﮐﻪ ﺑﻪ ﻧﺪﺭﺕ ﻇﺎﻫﺮ ﻣﯽ ﺷﻮﻧﺪ‪ .‬ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﻓﻌﻼ ﮐﺎﺭﯼ ﺑﻪ ﻣﻌﻨﺎﯼ ﺟﻤﻼﺕ ﻧﺪﺍﺭ ﯾﻢ ﺑﻠﮑﻪ ﺗﻨﻬﺎ ﺑﻪ ﻓﺮﮐﺎﻧﺲ‬

‫ﻇﺎﻫﺮﺷﺪﻥ ﺣﺮ ﻭﻑ ﺗﻮﺟﻪ ﺩﺍﺭ ﯾﻢ‪ .‬ﺩﺭ ﺩﻭ ﻣﺜﺎﻝ ﺑﺎﻻ ﻣﻨﻈﻮﺭ ﻣﺎ ﺍﯾﻦ ﻧﯿﺴﺖ ﮐﻪ ﭼﻨﯿﻦ ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﺍﺯ ﻧﻈﺮ ﻣﻌﻨﺎﯾﯽ ﻧﺎﺩﺭ ﻫﺴﺘﻨﺪ ﺑﻠﮑﻪ ﻣﻨﻈﻮﺭﻣﺎ‬

‫ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺍﺯ ﻧﻈﺮ ﻓﺮﺍﻭﺍﻧﯽ ﺣﺮ ﻭﻑ ﻇﺎﻫﺮﺷﺪﻩ ﻧﺎﯾﺎﺏ ﻫﺴﺘﻨﺪ‪ .‬ﺩﺭ ﻋﻮﺽ ﺭﺷﺘﻪ ﺍﯼ ﻣﺜﻞ‬

‫‪ABQU QIP QU T N V IABU RQOR‬‬ ‫)‪(۵۶‬‬

‫ﺍﺯ ﻧﻈﺮ ﻓﺮﺍﻭﺍﻧﯽ ﺣﺮ ﻭﻑ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺍﺳﺖ‪ .‬ﯾﻌﻨﯽ ﺍﯾﻨﮑﻪ ﺍﮔﺮ ﯾﮏ ﺭﺷﺘﻪ ﺑﻠﻨﺪ ﺍﺯ ﯾﮏ ﻣﺘﻦ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﻭ ﻓﺮﺍﻭﺍﻧﯽ‬

‫ﺣﺮ ﻭﻑ ﺁﻥ ﺭﺍ ﺑﺎ ﺭﺷﺘﻪ ﺑﺎﻻ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﻢ ﺍﺧﺘﻼﻑ ﭼﻨﺪﺍﻧﯽ ﻣﺸﺎﻫﺪﻩ ﻧﻤﯽ ﮐﻨﯿﻢ‪.‬‬

‫ﺍﮔﺮ ﺗﻌﺪﺍﺩ ﺣﺮ ﻭﻑ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﻫﻤﺮﺍﻩ ﺑﺎ ﺣﺮ ﻭﻑ ﺍﺿﺎﻓﻪ ﻭ ﻓﺎﺻﻠﻪ ﻫﺎ ﺗﻌﺪﺍﺩ ‪ 32‬ﺗﺎ ﺑﮕﯿﺮ ﯾﻢ ﺁﻧﮕﺎﻩ ﻫﺮ ﮐﺪﺍﻡ ﺍﺯ ﺣﺮ ﻭﻑ ﺭﺍ ﺑﺎ ‪ 5‬ﺑﯿﺖ ﻣﯽ‬

‫ﺗﻮﺍﻧﯿﻢ ﮐﺪ ﮐﻨﯿﻢ‪ .‬ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﯾﮏ ﺭﺷﺘﻪ ﺑﺎ ﻃﻮﻝ ‪ N‬ﻣﯽ ﺑﺎﯾﺴﺖ ﺑﺎ ‪ 5N‬ﺑﯿﺖ ﮐﺪ ﮐﻨﯿﻢ‪.‬‬

‫‪۱۸‬‬
‫‪ABCDEIOQUANUPNQPOURUOUQOJNNKLPQOIUTUQCITANQWERUPOURQRIZQAGUEZNBPO‬‬
‫{‬
‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪K‬‬

‫ﺷﮑﻞ ‪ :۱‬ﯾﮏ ﺭﺷﺘﻪ ﺑﻠﻨﺪ ﺭﺍ ﺑﻪ ﺭﺷﺘﻪ ﻫﺎﯼ ﺑﺎ ﻃﻮﻝ ‪ m‬ﺗﻘﺴﯿﻢ ﻭ ﺳﭙﺲ ﻫﺮﮐﺪﺍﻡ ﺭﺍ ﺑﻪ ﻋﻨﻮﺍﻥ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﮐﺪ ﻣﯽ ﮐﻨﯿﻢ‪.‬‬

‫ﺣﺎﻝ ﺩﻗﺖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﻇﺎﻫﺮﺷﺪﻥ ﺑﺴﯿﺎﺭﯼ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎﺁﻧﻘﺪﺭ ﻧﺎﭼﯿﺰﺍﺳﺖ ﮐﻪ ﻧﯿﺎﺯﯼ ﺑﻪ ﮐﺪﮐﺮﺩﻥ ﺁﻧﻬﺎﻧﯿﺴﺖ ﻭﺑﺎﮐﺪﮐﺮﺩﻥ‬

‫ﺗﻨﻬﺎ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ )ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﮐﻪ ﺯﯾﺎﺩ ﻇﺎﻫﺮﻣﯽ ﺷﻮﻧﺪ( ﭼﯿﺰﯼ ﺍﺯﺩﺳﺖ ﻧﻤﯽ ﺩﻫﯿﻢ‪ .‬ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﯾﻌﻨﯽ ﺑﺎﮐﺪﮐﺮﺩﻥ ﺗﻨﻬﺎﺭﺷﺘﻪ‬

‫ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﻣﺎﻗﺎﺩﺭﻣﯽ ﺷﻮﯾﻢ ﮐﻪ ﺑﯿﺖ ﻫﺎﯼ ﮐﻤﺘﺮﯼ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﻣﺘﻦ ﻫﺎﯼ ﻣﻨﺒﻊ ‪ X‬ﻣﺼﺮﻑ ﮐﻨﯿﻢ‪ .‬ﺍﻣﺎ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﮐﺪﺍﻡ‬

‫ﻫﺎﻫﺴﺘﻨﺪ؟ ﻭ ﮐﺪﮐﺮﺩﻥ ﺁﻧﻬﺎ ﭼﻘﺪﺭﺑﺎﻋﺚ ﻓﺸﺮﺩﻩ ﺷﺪﻥ ﭘﯿﺎﻡ ﻫﺎﻣﯽ ﺷﻮﺩ‪ .‬ﺩﺭ ﻫﺮ ﺭﺷﺘﻪ ‪ m‬ﺣﺮﻓﯽ ﺑﻪ ﺷﺮﻃﯽ ﮐﻪ ‪ m‬ﺑﻪ ﺍﻧﺪﺍﺯﻩ ﮐﺎﻓﯽ ﺑﺰ ﺭﮒ‬

‫ﺑﺎﺷﺪ ﺑﻪ ﺗﻘﺮ ﯾﺐ ﺗﻌﺪﺍﺩ ‪ mp1‬ﺣﺮﻑ ﺁﻥ ‪ mp2 ،x1‬ﺣﺮﻑ ﺁﻥ ‪ x2‬ﻭ ‪ mpN‬ﺗﺎ ﺣﺮﻑ ﺁﻥ ‪ xN‬ﺧﻮﺍﻫﺪﺑﻮﺩ‪ .‬ﻫﺮ ﻗﺪﺭ ﮐﻪ ﻃﻮﻝ ﺭﺷﺘﻪ ﯾﻌﻨﯽ ‪m‬‬

‫ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ‪ ،‬ﺍﻓﺖ ﻭ ﺧﯿﺰ ﺗﻌﺪﺍﺩ ﻭﺍﻗﻌﯽ ﺣﺮﻑ ﻫﺎ ﺣﻮﻝ ﺍﯾﻦ ﻣﻘﺎﺩﯾﺮ ﻣﺘﻮﺳﻂ ﮐﻤﺘﺮ ﺧﻮﺍﻫﺪ ﺑﻮﺩ‪ .‬ﺣﺎﻝ ﺳﻮﺍﻝ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﭼﻪ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ‬

‫ﻣﺘﻌﺎﺭﻑ ﺑﺎ ﻃﻮﻝ ‪ m‬ﻭﺟﻮﺩ ﺩﺍﺭﺩ‪ .‬ﺍﮔﺮ ﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺭﺍ ﺑﺎ ‪ Qm‬ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‬

‫!‪m‬‬
‫= ‪Qm‬‬ ‫)‪(۵۷‬‬
‫!) ‪(mp1 )!(mp2 )! · · · (mpN‬‬

‫ﺍﻣﺎ ﺑﺎﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺗﻘﺮ ﯾﺐ ﺍﺳﺘﺮﻟﯿﻨﮓ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻨﻮﯾﺴﯿﻢ‪:‬‬

‫!‪m‬‬ ‫∑‬ ‫‪N‬‬


‫‪1‬‬
‫( ‪log2 Qm = log2‬‬ ‫(‪) ≈ m‬‬ ‫)‪pi log2 ) ≡ mH(X‬‬ ‫)‪(۵۸‬‬
‫!) ‪(mp1 )!(mp2 )! · · · (mpn‬‬ ‫‪i=1‬‬
‫‪p‬‬‫‪i‬‬

‫‪۱۹‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺎﺑﻊ )‪ H(X‬ﺑﻪ ﺻﻮﺭﺕ ﺯﯾﺮﺗﻌﺮ ﯾﻒ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬

‫∑‬
‫‪N‬‬
‫‪1‬‬
‫=‪H(X) :‬‬ ‫( ‪pi log2‬‬ ‫)‬ ‫)‪(۵۹‬‬
‫‪i=1‬‬
‫‪pi‬‬

‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺟﻤﻼﺕ ﻣﺘﻌﺎﺭﻑ ﺑﺎ ﻃﻮﻝ ‪ m‬ﺑﺎﺗﻘﺮ ﯾﺐ ﺑﺴﯿﺎﺭﺧﻮﺏ ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ‬

‫)‪Qm ≈ 2mH(X‬‬ ‫)‪(۶۰‬‬

‫ﺣﺎﻝ ﺍﮔﺮ ﺗﻌﺪﺍﺩ ﺟﻤﻼﺕ ﻣﺘﻌﺎﺭﻑ ﺑﺮﺍﺑﺮﺑﺎﺷﺪﺑﺎ ﻣﻘﺪﺍﺭﻓﻮﻕ‪ ،‬ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻫﺮﮐﺪﺍﻡ ﺍﺯ ﺍﯾﻦ ﺟﻤﻼﺕ ﺭﺍ ﺑﺎ ﯾﮏ ﺭﺷﺘﻪ ﺑﯿﺖ ﻫﺎﯼ ‪ 0‬ﻭ ‪ 1‬ﮐﺪﮔﺬﺍﺭﯼ‬

‫ﮐﻨﯿﻢ ﻭ ﻣﺴﻠﻢ ﺍﺳﺖ ﮐﻪ ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯾﯽ ﮐﻪ ﺑﺮﺍﯼ ﺍﯾﻦ ﮐﺎﺭﺍﺣﺘﯿﺎﺝ ﺩﺍﺭ ﯾﻢ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ )‪ .mH(X‬ﺍﺯﺁﻧﺠﺎ ﮐﻪ ﻫﺮ ﺭﺷﺘﻪ ﺩﺍﺭﺍﯼ ‪ m‬ﺣﺮﻑ‬

‫ﺑﻮﺩﻩ ﺍﺳﺖ ﻣﺜﻞ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺩﺭﻋﻤﻞ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﻫﺮﺣﺮﻑ )‪ k := H(X‬ﺑﯿﺖ ﺑﮑﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ‪ .‬ﺍﺯﺁﻧﺠﺎ ﮐﻪ ‪H(X) ≤ log2 N = n‬‬

‫ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ ﺩﺭ ﺍﺭﺳﺎﻝ ﺑﯿﺖ ﻫﺎ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﭘﯿﺎﻡ ﺻﺮﻓﻪ ﺟﻮﯾﯽ ﻣﻬﻤﯽ ﺍﻧﺠﺎﻡ ﺩﺍﺩﻩ ﺍﯾﻢ ﺯﯾﺮﺍ ﺑﺎﺍﯾﻦ ﺭ ﻭﺵ ﮐﺪﮐﺮﺩﻥ ﮐﻪ ﺁﻥ ﺭﺍ‬

‫‪ Block coding‬ﻣﯽ ﮔﻮﯾﯿﻢ ﺑﺮﺍﯼ ﻫﺮﺣﺮﻑ ﺑﻪ ﺟﺎﯼ ‪ n‬ﺑﯿﺖ )‪ H(X‬ﺑﯿﺖ ﻣﺼﺮﻑ ﮐﺮﺩﻩ ﺍﯾﻢ ﮐﻪ ﺍﺯ‪ n‬ﮐﻤﺘﺮﺍﺳﺖ‪.‬‬

‫ﺁﻧﭽﻪ ﮐﻪ ﺩﺭﺑﺎﻻﮔﻔﺘﻪ ﺷﺪ ﻣﺤﺘﻮﺍﯼ ﮐﻠﯽ ﻗﻀﯿﻪ ﺷﺎﻧﻮﻥ ﺩﺭﻣﻮﺭﺩ ﮐﺪﮔﺬﺍﺭﯼ ﺑﺪﻭﻥ ﻧﻮﻓﻪ ﺑﻮﺩ‪ .‬ﻭﻟﯽ ﭼﮕﻮﻧﻪ ﻣﯽ ﺗﻮﺍﻥ ﺍﯾﻦ ﺣﺮﻑ ﺭﺍ ﺩﻗﯿﻖ ﮐﺮﺩ؟‬

‫ﭼﮕﻮﻧﻪ ﻣﯽ ﺗﻮﺍﻥ ﺗﻌﺮ ﯾﻒ ﺩﻗﯿﻘﯽ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﺑﺪﺳﺖ ﺩﺍﺩ؟ ﺑﺎ ﮐﺪ ﻧﮑﺮﺩﻥ ﺭﺷﺘﻪ ﻫﺎﯼ ﻏﯿﺮﻣﺘﻌﺎﺭﻑ ﭼﻪ ﻣﻘﺪﺍﺭﻣﺮﺗﮑﺐ ﺧﻄﺎﻣﯽ‬

‫ﺷﻮﯾﻢ؟ ﺁﯾﺎ ﺑﯿﺶ ﺍﺯ ﺍﯾﻦ ﻫﻢ ﻣﯽ ﺗﻮﺍﻥ ﭘﯿﺎﻡ ﻫﺎﯼ ﻣﻨﺒﻊ ‪ X‬ﺭﺍ ﻓﺸﺮﺩﻩ ﮐﺮﺩ؟ ﺑﺮﺍﯼ ﭘﺎﺳﺦ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍﻻﺕ ﺳﻌﯽ ﻣﯽ ﮐﻨﯿﻢ ﺍﺑﺘﺪﺍﺗﻌﺎﺭ ﯾﻒ‬

‫ﺩﻗﯿﻘﯽ ﺍﺯ ﻣﻔﺎﻫﯿﻢ ﮔﻔﺘﻪ ﺷﺪﻩ ﺑﺪﺳﺖ ﺩﻫﯿﻢ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺍﻟﻔﺒﺎﯼ ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﺷﻤﺎ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﻓﺮﮐﺎﻧﺲ ﻫﺎﯼ ﺩﺍﺩﻩ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬

‫‪a‬‬ ‫‪b‬‬ ‫‪c‬‬ ‫‪d‬‬ ‫‪e‬‬ ‫‪f‬‬ ‫‪g‬‬ ‫‪h‬‬ ‫‪g‬‬ ‫‪k‬‬
‫)‪(۶۱‬‬
‫)‪P (x‬‬ ‫‪1/4‬‬ ‫‪1/4‬‬ ‫‪1/8‬‬ ‫‪1/8‬‬ ‫‪1/16‬‬ ‫‪1/16‬‬ ‫‪1/32‬‬ ‫‪1/32‬‬ ‫‪1/32‬‬ ‫‪1/32‬‬

‫ﺑﺮﺍﯼ ﺍﯾﻦ ﺣﺮ ﻭﻑ ﯾﮏ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎ ﻭ ﺑﻬﯿﻨﻪ ﺑﻨﻮﯾﺴﯿﺪ‪.‬‬

‫ﺗﺎ ﮐﻨﻮﻥ ﺑﺤﺚ ﻣﺎ ﺩﺭ ﺑﺎﺭﻩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﯾﺎ ﻣﺘﻌﺎﺭﻑ ﯾﮏ ﺑﺤﺚ ﺗﻘﺮ ﯾﺒﯽ ﺑﻮﺩ‪ .‬ﺣﺎﻻ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺍﯾﻦ ﺗﻌﺮ ﯾﻒ ﻭ ﻧﺘﺎﯾﺞ ﻧﺎﺷﯽ ﺍﺯ ﺁﻥ ﺭﺍ‬

‫‪۲۰‬‬
‫ﺑﻪ ﻃﻮﺭ ﺩﻗﯿﻖ ﺗﺮ ﺑﺮ ﺭﺳﯽ ﮐﻨﯿﻢ‪.‬‬

‫ﻧﮕﺎﻫﯽ ﺩﻭﺑﺎﺭﻩ ﺑﻪ ﺍﻃﻼﻋﺎﺕ ﺷﺮﻃﯽ ﻭﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ‬ ‫‪۵‬‬

‫ﺑﻌﺪﺍﺯﻓﻬﻢ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﻭﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻧﮕﺎﻫﯽ ﺩﻭﺑﺎﺭﻩ ﺑﻪ ﺍﻃﻼﻋﺎﺕ ﺷﺮﻃﯽ ﻭﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺑﯿﻨﺪﺍﺯﯾﻢ‪ .‬ﺍﺯﺍﯾﻦ ﺯﺍﻭﯾﻪ‬

‫ﺟﺪﯾﺪ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺗﻌﺮ ﯾﻒ ﻣﺘﻔﺎﻭﺗﯽ ﺑﺮﺍﯼ ﺗﺎﺑﻊ )‪ H(X‬ﭘﯿﺪﺍﮐﻨﯿﻢ‪ .‬ﯾﺎﺩﮔﺮﻓﺘﯿﻢ ﮐﻪ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ‪ m‬ﺣﺮﻓﯽ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ )‪.2mH(X‬‬

‫ﺍﯾﻦ ﺣﺮﻑ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﺍﮔﺮﮐﺴﯽ ﯾﮏ ﺭﺷﺘﻪ ﻣﻌﯿﻦ ﺭﺍ ﺑﻪ ﻋﻨﻮﺍﻥ ﺳﻮﺍﻝ ﺑﺮﺍﯼ ﻣﺎﺩﺭﻧﻈﺮﮔﺮﻓﺘﻪ ﺑﺎﺷﺪ ﻭ ﺍﺯﻣﺎﺑﺨﻮﺍﻫﺪ ﺩﺭ ﯾﮏ ﻣﺴﺎﺑﻘﻪ ﺑﻪ‬

‫ﺍﺻﻄﻼﺡ » ﺑﯿﺴﺖ ﺳﻮﺍﻟﯽ« ﺑﺎﭘﺮﺳﯿﺪﻥ ﺳﻮﺍﻝ ﻫﺎﯾﯽ ﮐﻪ ﭘﺎﺳﺦ ﺁﻧﻬﺎﺗﻨﻬﺎ ﺁﺭﯼ ﯾﺎ ﺧﯿﺮﺍﺳﺖ ﺑﻪ ﺁﻥ ﺭﺷﺘﻪ ﻣﻌﯿﻦ ﺩﺳﺖ ﭘﯿﺪﺍﮐﻨﯿﻢ ﺩﺭﺑﻬﺘﺮ ﯾﻦ‬

‫ﺣﺎﻟﺖ ﻣﯽ ﺑﺎﯾﺴﺖ ﺗﻌﺪﺍﺩ )‪ mH(X‬ﺑﺎﺭﺳﻮﺍﻝ ﮐﻨﯿﻢ‪ .‬ﺯﯾﺮﺍﺑﻬﺘﺮ ﯾﻦ ﻧﺤﻮﻩ ﺳﻮﺍﻝ ﮐﺮﺩﻥ ﻧﺤﻮﻩ ﺍﯼ ﺍﺳﺖ ﮐﻪ ﺩﺭﺍﻥ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺭﺍ‬

‫ﺑﻪ ﻧﺼﻒ ﻣﻘﺪﺍﺭﻗﺒﻠﯽ ﮐﺎﻫﺶ ﻣﯽ ﺩﻫﺪ ﻭ )‪ 2mH(X‬ﺭﺍ ﺑﻪ ‪ 2mH(X)−2 ،2mH(X)−1‬ﻭﺳﺮﺍﻧﺠﺎﻡ ﺑﻪ ‪ ۱‬ﺗﻘﻠﯿﻞ ﻣﯽ ﺩﻫﺪ‪ .‬ﻣﻄﺎﻟﺐ ﺑﺎﻻ ﺭﺍ ﻣﯽ‬

‫ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﺗﻌﻤﯿﻢ ﺩﻫﯿﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺑﺎ ﺁﻧﺘﺮ ﻭﭘﯽ )‪ H(X‬ﺩﺍﺭ ﯾﻢ‪ .‬ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﻃﻮﻻﻧﯽ ﺑﺎ ﻃﻮﻝ ‪ m‬ﺩﺭ ﻧﻈﺮ‬

‫ﻣﯽ ﮔﯿﺮ ﯾﻢ‪ .‬ﻣﺠﻤﻮﻋﻪ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ )‪ .2mH(X‬ﻣﺎ ﺑﺎ ﭘﺮﺳﯿﺪﻥ )‪ mH(X‬ﺳﻮﺍﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﯾﮏ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺑﺮﺳﯿﻢ‪.‬‬

‫ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﺴﯽ ﺍﻃﻼﻋﯽ ﺍﺯ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺩﯾﮕﺮ ﻣﺜﻞ � ﺑﻪ ﻣﺎ ﺩﺍﺩﻩ ﺑﺎﺷﺪ‪ .‬ﺍﯾﻦ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺩﯾﮕﺮ ﻣﯽ ﺗﻮﺍﻧﺪ‬

‫ﯾﮏ ﭼﯿﺰ ﺑﺎ ﺭﺑﻂ ﻣﺜﻞ ﺭﻗﻢ ﻫﺎﯼ ﺳﻤﺖ ﺭﺍﺳﺖ ﺍﯾﻦ ﺭﺷﺘﻪ ﯾﺎ ﺗﻌﺪﺍﺩ ﺻﻔﺮﻫﺎﯼ ﺭﺷﺘﻪ ﻭ ﻧﻈﺎﯾﺮ ﺁﻥ ﯾﺎ ﯾﮏ ﭼﯿﺰ ﺑﯽ ﺭﺑﻂ ﻣﺜﻞ ﻭﺿﻊ ﻫﻮﺍﯼ‬

‫ﺍﻣﺮ ﻭﺯ ﺑﺎﺷﺪ‪ .‬ﺩﺭ ﻫﺮ ﺻﻮﺭﺕ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺭﺷﺘﻪ ﻫﺎ ﺍﺯ )‪ P (X‬ﺑﻪ )‪ P (X| | y‬ﺗﻐﯿﯿﺮ ﻣﯽ ﮐﻨﺪ‪ .‬ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﮐﻪ ﻣﯽ‬

‫ﺑﺎﯾﺴﺖ ﺟﺴﺘﺠﻮ ﮐﻨﯿﻢ ﺑﻪ )‪ 2mH(X|y‬ﺗﻘﻠﯿﻞ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ‪ .‬ﺩﺭ ﻧﺘﯿﺠﻪ ﺑﺎ ﭘﺮﺳﯿﺪﻥ ��)‪ mH(X|y‬ﺳﻮﺍﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺑﺮﺳﯿﻢ‪.‬‬

‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺩﺍﻧﺴﺘﻦ ﻣﻘﺪﺍﺭ ‪ y‬ﺗﻌﺪﺍﺩ ﺳﻮﺍﻻﺕ ﻻﺯﻡ ﺑﺮﺍﯼ ﺭﺳﯿﺪﻥ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ‪ x‬ﺭﺍ ﺍﺯ )‪ mH(X‬ﺑﻪ )‪ mH(X|y‬ﮐﺎﻫﺶ ﺩﺍﺩﻩ ﺍﺳﺖ‪.‬‬

‫ﯾﻌﻨﯽ ﺍﯾﻨﮑﻪ ﺩﺍﻧﺴﺘﻦ ‪ y‬ﺑﻪ ﺍﻧﺪﺍﺯﻩ )‪ mH(X) − mH(X|y‬ﺑﯿﺖ ﺑﻪ ﻣﺎ ﺍﻃﻼﻉ ﺩﺍﺩﻩ ﺍﺳﺖ‪ .‬ﺍﮔﺮ ﺭ ﻭﯼ ‪ y‬ﻣﺘﻮﺳﻂ ﺑﮕﯿﺮ ﯾﻢ‪ ،‬ﻭ ﺑﺮ ‪ m‬ﺗﻘﺴﯿﻢ‬

‫ﮐﻨﯿﻢ‪ ،‬ﭼﯿﺰﯼ ﮐﻪ ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ‬

‫) ‪I(X : Y ) = H(X) − H(X | Y‬‬ ‫)‪(۶۲‬‬

‫‪۲۱‬‬
‫ﻫﻤﺎﻥ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺍﺳﺖ‪.‬‬

‫ﺩﺭ ﻭﺍﻗﻊ ﻣﻬﻤﺘﺮ ﯾﻦ ﻣﺜﺎﻝ ﻣﺸﺨﺺ ﺍﺯ ﺍﯼ ﻧﻮﻉ ﻭﻗﺘﯽ ﺍﺳﺖ ﮐﻪ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ‪ X‬ﺭﺷﺘﻪ ﻫﺎﯼ ﻭﺭ ﻭﺩﯼ ﯾﮏ ﮐﺎﻧﺎﻝ ﮐﻼﺳﯿﮏ ﻭ ﻣﺘﻐﯿﺮ‬

‫ﺗﺼﺎﺩﻓﯽ ‪ Y‬ﺭﺷﺘﻪ ﻫﺎﯼ ﺧﺮ ﻭﺟﯽ ﻫﻤﺎﻥ ﮐﺎﻧﺎﻝ ﺭﺍ ﺗﻌﯿﯿﻦ ﻣﯽ ﮐﻨﺪ‪ .‬ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ )‪ P (x, y‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺭﺷﺘﻪ ‪ x‬ﻓﺮﺳﺘﺎﺩﻩ ﻭ ﺭﺷﺘﻪ‬

‫‪ y‬ﺩﺭ ﯾﺎﻓﺖ ﺷﻮﺩ‪ .‬ﺣﺎﻝ ﺳﻮﺍﻝ ﻣﯽ ﮐﻨﯿﻢ ﺍﮔﺮ ﺭﺷﺘﻪ ‪ y‬ﺩﺭ ﯾﺎﻓﺖ ﺷﺪﻩ ﺑﺎﺷﺪ‪ ،‬ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﭼﻪ ﻣﻘﺪﺍﺭ ﺍﻃﻼﻋﺎﺕ ﺩﺭ ﻣﻮﺭﺩ ﺭﺷﺘﻪ ﺍﺭﺳﺎﻝ ﺷﺪﻩ‬

‫ﺩﺍﺭ ﯾﻢ؟ ﯾﺎ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺑﺎ ﭼﻪ ﺗﻌﺪﺍﺩ ﺳﻮﺍﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺭﺷﺘﻪ ﻭﺭ ﻭﺩﯼ ﺭﺍ ﺑﻔﻬﻤﯿﻢ‪ .‬ﻣﻌﻤﻮﻻ ﯾﮏ ﮐﺎﻧﺎﻝ ﺩﺍﺭﺍﯼ ﺧﻄﺎﺳﺖ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﯽ‬

‫ﮐﻪ ﻭﻗﺘﯽ ﺭﺷﺘﻪ ﺍﯼ ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ ﻣﯽ ﮐﻨﯿﻢ‪ ،‬ﺍﺣﺘﻤﺎﻝ ﺩﺍﺭﺩ ﮐﻪ ﺭﺷﺘﻪ ﺍﯼ ﮐﻪ ﻓﺮﺳﺘﺎﺩﻩ ﺷﺪﻩ ﻫﻤﯿﻦ ﺭﺷﺘﻪ ﻧﺒﺎﺷﺪ ﺑﻠﮑﻪ ﺩﺭ ﺍﺛﺮ ﺧﻄﺎﯼ ﮐﺎﻧﺎﻝ‪،‬‬

‫ﺭﺷﺘﻪ ‪ x‬ﺑﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﺗﺒﺪﯾﻞ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺗﻌﺪﺍﺩ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ ) ‪ .2mH(X|Y‬ﻫﺪﻑ ﻣﺎ ﯾﺎﻓﺘﻦ ﺭﺷﺘﻪ ‪ x‬ﺍﺯ‬

‫ﺭ ﻭﯼ ﺭﺷﺘﻪ ﺩﺭ ﯾﺎﻓﺖ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﺗﻤﺎﻡ ﺁﻧﭽﻪ ﮐﻪ ﺩﺭ ﺑﺎﻻ ﮔﻔﺘﯿﻢ‪ ،‬ﺩﺭ ﺍﯾﻦ ﺟﺎ ﻣﻌﻨﺎ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎ ﮐﻪ ﺍﺯ ﺭ ﻭﯼ ﺭﺍﺑﻄﻪ )‪ (۶۲‬ﻣﯽ‬

‫ﻓﻬﻤﯿﻢ ﮐﻪ ﺍﮔﺮ ﮐﺎﻧﺎﻝ ﺩﺍﺭﺍﯼ ﻫﯿﭻ ﻧﻮﻉ ﺧﻄﺎﯾﯽ ﻧﺒﺎﺷﺪ‪ ،‬ﺁﻧﮕﺎﻩ ﺩﺍﻧﺴﺘﻦ ﺭﺷﺘﻪ ﺧﺮ ﻭﺟﯽ ﺩﻗﯿﻘﺎ ﺭﺷﺘﻪ ﻭﺭ ﻭﺩﯼ ﺭﺍ ﺗﻌﯿﯿﻦ ﻣﯽ ﮐﻨﺪ ﻭ ﺩﺭ ﻧﺘﯿﺠﻪ‬

‫‪H(X|Y ) = 0‬‬ ‫‪−→ I(X : Y ) = H(X).‬‬ ‫)‪(۶۳‬‬

‫ﻫﺮ ﭼﻪ ﮐﻪ ﺧﻄﺎﯼ ﮐﺎﻧﺎﻝ ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ‪ ،‬ﺍﺳﺘﻘﻼﻝ ﺭﺷﺘﻪ ﻫﺎﯼ ﻭﺭ ﻭﺩﯼ ﻭ ﺧﺮ ﻭﺟﯽ ﺍﺯ ﻫﻢ ﺑﯿﺸﺘﺮ ﺷﺪﻩ ﻭ ﺩﺭ ﻧﻬﺎﯾﺖ ﻭﻗﺘﯽ ﮐﻪ ﺧﻄﺎﯼ ﮐﺎﻧﺎﻝ‬

‫ﺑﻪ ﺣﺪﯼ ﻣﯽ ﺭﺳﺪ ﮐﻪ ﺍﯾﻦ ﺩﻭ ﺭﺷﺘﻪ ﺍﺯ ﻫﻢ ﻣﺴﺘﻘﻞ ﻣﯽ ﺷﻮﻧﺪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‬

‫)‪H(X|Y ) = H(X‬‬ ‫‪−→ I(X : Y ) = 0.‬‬ ‫)‪(۶۴‬‬

‫ﺗﻌﺮ ﯾﻒ ﺩﻗﯿﻖ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ‬ ‫‪۶‬‬

‫‪۱‬‬
‫ﺭﺍ ﺑﻪ ﻃﻮﺭ ﺷﻬﻮﺩﯼ ﺗﻌﺮ ﯾﻒ ﮐﺮﺩﻩ ﺍﯾﻢ ﻭ ﮔﻔﺘﻪ ﺍﯾﻢ ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﻫﺴﺘﻨﺪ ﮐﻪ ﺗﻌﺪﺍﺩ‬ ‫ﺗﺎ ﮐﻨﻮﻥ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﯾﺎ ﺭﺷﺘﻪ ﻣﺘﻌﺎﺭﻑ‬

‫ﺣﺮ ﻭﻑ ‪ xi‬ﺩﺭ ﺁﻧﻬﺎ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ mpi‬ﺑﺎﺷﺪ‪ .‬ﺍﻣﺎ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﺗﻌﺪﺍﺩ ‪ xi‬ﻫﯿﭽﮕﺎﻩ ﺩﻗﯿﻘﺎ ﺑﺮﺍﺑﺮ ﺑﺎ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﻧﯿﺴﺖ ﺑﻠﮑﻪ ﻫﻤﻮﺍﺭﻩ ﯾﮏ ﺍﻓﺖ ﻭ‬

‫ﺧﯿﺰ ﺣﻮﻝ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﻣﯿﺎﻧﮕﯿﻦ ﻭﺟﻮﺩ ﺩﺍﺭﺩ‪ .‬ﺍﮔﺮ ﺩﺭ ﻫﺮ ﻣﮑﺎﻥ ﺍﺯ ﯾﮏ ﺭﺷﺘﻪ ‪ m‬ﺗﺎﯾﯽ‪ ،‬ﻭﺟﻮﺩ ﯾﮏ ﻣﺘﻐﯿﺮ ﻣﺜﻞ ‪ xi‬ﺭﺍ ﺑﺎ ﺍﺣﺘﻤﺎﻝ ‪ pi‬ﻭ ﻧﺒﻮﺩ‬

‫‪� �۱‬‬

‫‪۲۲‬‬
‫ﺷﮑﻞ ‪ :۲‬ﺗﻌﺪﺍﺩ ﺣﺮﻑ ﻫﺎﯼ ‪ xi‬ﺩﺭ ﯾﮏ ﺭﺷﺘﻪ ﻣﺜﻞ ‪ a‬ﺍﺯ ﯾﮏ ﺗﺎﺑﻊ ﺍﺣﺘﻤﺎﻝ ﮔﺎﻭﻭﺳﯽ ﺗﺒﻌﯿﺖ ﻣﯽ ﮐﻨﺪ ﻭ ﺑﻨﺎﺑﺮﺍﯾﻦ ﻣﺘﻮﺳﻂ ﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺑﺮﺍﺑﺮ‬
‫√‬
‫ﺑﺎ ‪ mpi‬ﺍﺳﺖ ﻭﻟﯽ ﺍﯾﻦ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﯾﮏ ﭘﻬﻨﺎ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ) ‪ σi = mpi (1 − pi‬ﺩﺍﺭﺩ ﮐﻪ ﻧﺸﺎﻥ ﺩﻫﻨﺪﻩ ﺍﯾﻦ ﺍﺳﺖ ﺩﺭ ﺧﯿﻠﯽ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎ‬

‫ﺗﻌﺪﺍﺩ ‪ xi‬ﺑﺎ ﻣﻘﺪﺍﺭ ﻣﺘﻮﺳﻂ ‪ mpi‬ﻣﺘﻔﺎﻭﺕ ﺍﺳﺖ‪ .‬ﺩﺭ ﺍﯾﻦ ﻧﻤﻮﺩﺍﺭ )‪ pi (a‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﺩﺍﺭﺍﯼ ﯾﮏ ﺗﻌﺪﺍﺩ ﻣﻌﯿﻦ ‪xi‬‬

‫ﺑﺎﺷﺪ‪.‬‬

‫ﺁﻥ ﺭﺍ ﺑﺎ ﺍﺣﺘﻤﺎﻝ ‪ 1 − pi‬ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﻢ‪ ،‬ﺁﻧﮕﺎﻩ ﺑﺎ ﯾﮏ ﺗﺎﺑﻊ ﺍﺣﺘﻤﺎﻝ ﺩﻭﺟﻤﻠﻪ ﺍﯼ )ﻭ ﺩﺭ ﺣﺪ ‪ m‬ﻫﺎﯼ ﺑﺰ ﺭﮒ ﺑﺎ ﯾﮏ ﺗﺎﺑﻊ ﮔﺎﻭﻭﺳﯽ(‬
‫√‬
‫ﺭ ﻭﺑﺮ ﻭ ﻫﺴﺘﯿﻢ ﮐﻪ ﺗﻌﺪﺍﺩ ﻣﺘﻮﺳﻂ ‪ xi‬ﺭﺍ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ mpi‬ﻭ ﻭﺍﺭ ﯾﺎﻧﺲ ﺁﻥ ﺭﺍ ﺑﺮﺍﺑﺮ ﺑﺎ ) ‪ σi = mpi (1 − pi‬ﺑﺪﺳﺖ ﻣﯽ ﺩﻫﺪ‪) ،‬ﺷﮑﻞ )؟؟(‬

‫(‪.‬‬

‫ﺍﺯ ﺭ ﻭﯼ ﻫﻤﯿﻦ ﺷﮑﻞ ﻭﺍﺿﺢ ﺍﺳﺖ ﮐﻪ ﻣﯽ ﺑﺎﯾﺴﺖ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﯾﺎ ﻣﺘﻌﺎﺭﻑ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺑﻬﺘﺮﯼ ﺗﻌﺮ ﯾﻒ ﮐﻨﯿﻢ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ‬

‫ﺍﺯ ﺧﻮﺩ ﻣﯽ ﭘﺮﺳﯿﻢ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻣﺘﻌﺎﺭﻑ ﺩﻗﯿﻘﺎ ﭼﻪ ﺭﺷﺘﻪ ﺍﯼ ﺍﺳﺖ؟ ﺩﺭ ﺍﯾﻦ ﺗﻌﺮ ﯾﻒ ﺣﺘﻤﺎ ﻣﯽ ﺑﺎﯾﺴﺖ ﯾﮏ ﺣﺪ ﻭ ﺍﻧﺪﺍﺯﻩ ﻭﺟﻮﺩ‬

‫ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﺪ‪ .‬ﺑﺪﻭﻥ ﺍﯾﻦ ﺣﺪ ﻭ ﺍﻧﺪﺍﺯﻩ ﯾﺎ ﻣﻌﯿﺎﺭ ﻧﻤﯽ ﺗﻮﺍﻥ ﺩﻗﯿﻘﺎ ﮔﻔﺖ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻣﺜﻞ ﺁﯾﺎ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺍﺳﺖ ﯾﺎ ﺧﯿﺮ؟‬

‫ﺭﺷﺘﻪ ‪ α = α1 α2 α3 · · · αm‬ﺭﺍ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﺪ‪ .‬ﺗﻌﺪﺍﺩ ﺣﺮ ﻭﻑ ‪ xj‬ﺩﺭﺍﯾﻦ ﺭﺷﺘﻪ ﺭﺍ ﺑﺎ )‪ fj (α‬ﻧﺸﺎﻥ ﺩﻫﯿﺪ‪ .‬ﺗﻌﺪﺍﺩ ﺣﺮ ﻭﻑ ‪xj‬‬

‫ﺩﺭ ﺭﺷﺘﻪ ﻫﺎﯼ ﺑﻪ ﻃﻮﻝ ‪ m‬ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ mpj‬ﻭﻭﺍﺭ ﯾﺎﻧﺲ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺣﻮﻝ ﺍﯾﻦ ﻣﻘﺪﺍﺭﻣﺘﻮﺳﻂ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‬
‫√‬
‫) ‪ .σj := mpj (1 − pj‬ﺭﺷﺘﻪ ﻣﺘﻌﺎﺭﻑ ﺭﺷﺘﻪ ﺍﯼ ﺍﺳﺖ ﮐﻪ ﺗﻔﺎﻭﺕ ﺗﻌﺪﺍﺩ ﻭﺍﻗﻌﯽ ﻫﺮﮐﺪﺍﻡ ﺍﺯﺣﺮ ﻭﻑ ﻣﺜﻞ ‪ xj‬ﺍﺯﺗﻌﺪﺍﺩ ﻣﺘﻮﺳﻂ ﺁﻥ‬

‫ﯾﻌﻨﯽ ‪ mpj‬ﺩﺭﻣﻘﺎﯾﺴﻪ ﺑﺎﻭﺍﺭ ﯾﺎﻧﺲ ‪ σj‬ﻣﻘﺪﺍﺭ ﻣﻌﯿﻨﯽ ﺑﺎﺷﺪ‪.‬‬

‫‪۲۳‬‬
‫‪ n‬ﺗﻌﺮ ﯾﻒ‪ :‬ﺭﺷﺘﻪ ‪ α‬ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ‪ k‬ﯾﺎ ‪ k-typical‬ﺧﻮﺍﻧﺪﻩ ﻣﯽ ﺷﻮﺩ ﺍﮔﺮ ﺷﺮﻁ ﺯﯾﺮ ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ‪:‬‬

‫‪fi (α) − mpi‬‬


‫√|‬ ‫‪|< k‬‬ ‫‪∀ i = 1, 2, · · · N.‬‬ ‫)‪(۶۵‬‬
‫) ‪mpi (1 − pi‬‬

‫ﺑﺮﺍﯼ ﺍﺩﺍﻣﻪ ﺑﺤﺚ ﺧﻮﺩ ﺍﺣﺘﯿﺎﺝ ﺑﻪ ﺩﻭ ﻟﻢ ﺧﯿﻠﯽ ﺳﺎﺩﻩ ﺩﺭ ﻧﻈﺮ ﯾﻪ ﺍﺣﺘﻤﺎﻝ ﺩﺍﺭ ﯾﻢ‪ .‬ﺍﯾﻦ ﻟﻢ ﻫﺎ ﺩﺍﻣﻨﻪ ﮐﺎﺭﺑﺮﺩ ﺧﯿﻠﯽ ﻭﺳﯿﻌﯽ ﺩﺍﺭﻧﺪ ﻭ ﯾﺎﺩﮔﯿﺮﯼ‬

‫ﺁﻧﻬﺎ ﺍﻫﻤﯿﺖ ﺩﺍﺭﺩ‪.‬‬

‫‪ n‬ﻟﻢ ﺍﻭﻝ ‪ :‬ﻧﺎﻣﺴﺎﻭﯼ ﺍﻭﻝ ﭼﺒﯿﺸﻒ )‪:(Chebyshev inequlity‬‬

‫ﺍﻟﻒ ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﻣﻘﺎﺩﯾﺮ ﻣﺜﺒﺖ } ‪ {x1 , x2 , · · · xN‬ﺭﺍ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ } ‪ {p1 , p2 , · · · pN‬ﺍﺧﺘﯿﺎﺭﻣﯽ ﮐﻨﺪ ‪.‬‬

‫ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﻋﺪﺩ ﻣﺜﺒﺖ ‪،α‬‬

‫‪X‬‬
‫≤ )‪P (X ≥ α‬‬ ‫)‪(۶۶‬‬
‫‪α‬‬

‫ﮐﻪ ﺩﺭﺁﻥ ‪ X‬ﻣﺘﻮﺳﻂ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ‪ X‬ﺍﺳﺖ‪.‬‬

‫‪ n‬ﺍﺛﺒﺎﺕ ‪:‬‬

‫∞‬
‫∑‬ ‫∑‬‫∞‬
‫‪x‬‬ ‫‪X‬‬
‫= )‪P (X ≥ α‬‬ ‫≤ )‪P (x‬‬ ‫‪P (x) ≤ .‬‬ ‫)‪(۶۷‬‬
‫‪x=α‬‬ ‫‪x=α‬‬
‫‪α‬‬ ‫‪α‬‬

‫‪ n‬ﻟﻢ ﺩﻭﻡ ‪ :‬ﻧﺎﻣﺴﺎﻭﯼ ﺩﻭﻡ ﭼﺒﯿﺸﻒ )‪:(Chebyshev inequlity‬‬

‫ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﻣﻘﺎﺩﯾﺮ ﺩﻟﺨﻮﺍﻩ ﻣﺜﺒﺖ ﯾﺎﻣﻨﻔﯽ ﺍﺧﺘﯿﺎﺭﻣﯽ ﮐﻨﺪ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﻋﺪﺩ ‪k‬‬

‫‪1‬‬
‫≤ ) ‪P ((X − X)2 ≥ k 2 σx2‬‬ ‫‪.‬‬ ‫)‪(۶۸‬‬
‫‪k2‬‬

‫ﺍﺛﺒﺎﺕ ‪ :‬ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ‪ T = (X − X)2‬ﺭﺍ ﺩﺭﻧﻈﺮﻣﯽ ﮔﯿﺮ ﯾﻢ‪ .‬ﺍﯾﻦ ﻣﺘﻐﯿﺮﻓﻘﻂ ﻣﻘﺎﺩﯾﺮ ﻣﺜﺒﺖ ﺭﺍ ﺍﺧﺘﯿﺎﺭ ﻣﯽ ﮐﻨﺪ‪.‬‬

‫‪۲۴‬‬
‫ﺿﻤﻨﺎً ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ‪ .T = σx2‬ﺍﺯ ﻗﺴﻤﺖ ﺍﻟﻒ ﺩﺍﺭ ﯾﻢ‪:‬‬

‫‪T‬‬
‫≤ )‪P (T ≥ α‬‬ ‫‪.‬‬ ‫)‪(۶۹‬‬
‫‪α‬‬

‫ﻫﺮﮔﺎﻩ ﺑﻪ ﺟﺎﯼ ‪ α‬ﺩﺭﻧﺎﻣﺴﺎﻭﯼ ﺍﺧﯿﺮ ﻗﺮﺍﺭﺩﻫﯿﻢ ‪ k 2 σx2‬ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ‪:‬‬

‫‪σx2‬‬ ‫‪1‬‬
‫≤ ) ‪P ((X − X)2 ≥ k 2 σx2‬‬ ‫‪= 2.‬‬ ‫)‪(۷۰‬‬
‫‪k 2 σx2‬‬ ‫‪k‬‬

‫ﺍﯾﻦ ﻧﺎﻣﺴﺎﻭﯼ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﻧﯿﺰ ﻣﯽ ﺗﻮﺍﻥ ﻧﻮﺷﺖ‪:‬‬

‫‪1‬‬
‫≤ ) ‪P (|X − X| ≥ kσx‬‬ ‫‪,‬‬ ‫)‪(۷۱‬‬
‫‪k2‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺩﺭ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺣﺮﻑ‪ Z‬ﮐﻤﺘﺮ ﯾﻦ ﻓﺮﮐﺎﻧﺲ ﺭﺍ ﺩﺍﺭﺩ ﻭ ﺍﺣﺘﻤﺎﻝ ﯾﺎﻓﺘﻦ ﺁﻥ ﺩﺭ ﻣﺘﻦ ﻫﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‬

‫‪.P (z) = 0.074‬‬

‫ﺍﻟﻒ‪ :‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺩﺭ ﯾﮏ ﻣﺘﻦ ﮐﻪ ﺩﺍﺭﺍﯼ ‪ N‬ﺣﺮﻑ ﺍﺳﺖ‪ ،‬ﺗﻌﺪﺍﺩ ‪ k‬ﺣﺮﻑ ‪ z‬ﺣﻀﻮﺭ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﭼﻘﺪﺭ ﺍﺳﺖ؟‬

‫ﺏ‪ :‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺍﺯ ﺗﻌﺪﺍﺩ ﻣﺘﻮﺳﻂ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ﮐﻤﺘﺮ ﺍﺯ ﺩﻭ ﻭﺍﺭ ﯾﺎﻧﺲ ﻓﺎﺻﻠﻪ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﭼﻘﺪﺭ ﺍﺳﺖ؟‬

‫ﺭﺍﻫﻨﻤﺎﯾﯽ‪ :‬ﻣﯽ ﺗﻮﺍﻧﯿﺪ ﺍﺯ ﺗﻮﺯﯾﻊ ﺩﻭﺟﻤﻠﻪ ﺍﯼ ﯾﺎ ﺗﻮﺯﯾﻊ ﭘﻮﺍﺳﻮﻥ ﮐﻪ ﺣﺪ ﺗﻮﺯﯾﻊ ﺩﻭﺟﻤﻠﻪ ﺍﯼ ﺑﺮﺍﯼ ﻭﻗﺘﯽ ﺍﺳﺖ ﮐﻪ ‪ p << 1‬ﺑﺎﺷﺪ‬

‫ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﺪ‪.‬‬

‫ﺟﻮﺍﺏ ﻗﺴﻤﺖ ﺏ ﺭﺍ ﺑﺮﺍﯼ ﻭﻗﺘﯽ ﮐﻪ ‪ N = 100, 000‬ﺍﺳﺖ ﺑﺪﺳﺖ ﺁﻭﺭ ﯾﺪ‪.‬‬

‫ﭘﺲ ﺍﺯ ﺍﯾﻦ ﻣﻘﺪﻣﺎﺕ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﭘﺎﺳﺦ ﺳﻮﺍﻝ ﺍﻭﻝ ﺑﭙﺮﺩﺍﺯﯾﻢ‪ .‬ﺍﺯ ﺧﻮﺩ ﻣﯽ ﭘﺮﺳﯿﻢ ﮐﻪ ﺍﮔﺮ ﺩﺭ ﯾﮏ ﻣﺘﻦ ﯾﮏ ﺭﺷﺘﻪ ﺑﻪ ﻃﻮﻝ ‪ m‬ﺭﺍ ﺑﻪ‬

‫ﻃﻮﺭ ﺗﺼﺎﺩﻓﯽ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﻧﺒﺎﺷﺪ ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﭘﺎﺳﺦ ﺍﯾﻦ ﺳﻮﺍﻝ ﺩﺭ ﻗﻀﯿﻪ ﺯﯾﺮ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬

‫‪۲۵‬‬
‫ﺷﮑﻞ ‪ :۳‬ﻧﺎﺣﯿﻪ ﻭﺳﻂ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﺪ‪ .‬ﺍﯾﻦ ﻧﺎﺣﯿﻪ ﺷﺎﻣﻞ ‪ T‬ﺗﺎ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺍﺳﺖ‪ .‬ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ‬

‫ﺣﺴﺎﺏ ﮐﺮﺩﻩ ﺍﯾﻢ‪ .‬ﻫﺮﮔﺎﻩ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﺭﺍ ﮐﻪ ﻫﺮ ﺭﺷﺘﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ‪ ،‬ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﻢ‪ .‬ﺑﺮﺍﯼ‬

‫ﺗﻮﺿﯿﺢ ﺩﻗﯿﻖ ﺗﺮ ﺑﻪ ﻣﺘﻦ ﻣﺮﺍﺟﻌﻪ ﮐﻨﯿﺪ‪.‬‬

‫ﺍﺳﺖ‪.‬‬ ‫‪N‬‬
‫‪k2‬‬ ‫‪ n‬ﻗﻀﯿﻪ‪ :‬ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻏﯿﺮﻣﺘﻌﺎﺭﻑ ﮐﻤﺘﺮ ﺍﺯ‬

‫ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﺣﺪ ﻣﺴﺘﻘﻞ ﺍﺯ ﻃﻮﻝ ﺭﺷﺘﻪ ﯾﻌﻨﯽ ‪ m‬ﺍﺳﺖ ﻭ ﺩﺭ ﺿﻤﻦ ﺑﻪ ﻋﺪﺩ‪ k‬ﺑﺴﺘﮕﯽ ﺩﺍﺭﺩ‪ .‬ﻫﺮﭼﻪ ﮐﻪ ﻣﺎ ﻋﺪﺩ‪ k‬ﺭﺍ ﺑﺰ ﺭﮒ ﺗﺮ‬

‫ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﯾﻌﻨﯽ ﺍﯾﻦ ﮐﻪ ﺗﻌﺮ ﯾﻒ ﺧﻮﺩ ﺭﺍ ﺍﺯ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﻓﺮﺍﺥ ﺗﺮ ﮐﻨﯿﻢ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ ﮐﻤﺘﺮ ﻣﯽ ﺷﻮﺩ ﮐﻪ ﺍﻟﺒﺘﻪ ﻃﺒﯿﻌﯽ ﺍﺳﺖ‪.‬‬

‫‪ n‬ﺍﺛﺒﺎﺕ‪ :‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﯾﮏ ﺭﺷﺘﻪ ‪ α‬ﻣﺘﻌﺎﺭﻑ ﻧﺒﺎﺷﺪ ﺭﺍ ﺑﺎ ‪ P0‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺑﻨﺎﺑﺮﺗﻌﺮ ﯾﻒ ﺩﺍﺭ ﯾﻢ‪:‬‬

‫‪fi (α) − mpi‬‬ ‫∑‬ ‫‪N‬‬


‫‪fi (α) − mpi‬‬
‫√ |{‪P0 = P rob‬‬ ‫= } ﺑﺮﺍﯼ ﺣﺪﺍﻗﻞ ﯾﮏ ‪|≥ k, i‬‬ ‫√ |( ‪P‬‬ ‫‪|≥ k).‬‬ ‫)‪(۷۲‬‬
‫) ‪mpi (1 − pi‬‬ ‫‪i=1‬‬
‫) ‪mpi (1 − pi‬‬

‫ﺑﺎﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻧﺎﻣﺴﺎﻭﯼ ﭼﺒﯿﺸﻒ ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ‬

‫∑‬‫‪N‬‬
‫‪1‬‬ ‫‪N‬‬
‫≤ ‪P0‬‬ ‫‪2‬‬
‫‪= 2 ≤ ϵ.‬‬ ‫)‪(۷۳‬‬
‫‪i=1‬‬
‫‪k‬‬ ‫‪k‬‬

‫ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻣﯽ ﮔﻮﯾﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺍﺯ ‪ 1 − kN2‬ﺑﯿﺸﺘﺮ ﺍﺳﺖ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﮔﺮ ﯾﮏ ﺭﺷﺘﻪ ‪ m‬ﺗﺎﯾﯽ ﺑﻪ ﻃﻮﺭ ﺗﺼﺎﺩﻓﯽ‬

‫‪۲۶‬‬
‫ﺍﺯ ﯾﮏ ﻣﺘﻦ ﺑﺮﺩﺍﺭ ﯾﻢ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺍﺯ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﺑﯿﺸﺘﺮ ﺍﺳﺖ‪ .‬ﺍﮔﺮ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ ﺭﺍ ﺑﺎ ‪ Ptypical‬ﻧﺸﺎﻥ ﺩﻫﯿﻢ‬

‫ﺩﺍﺭ ﯾﻢ‪:‬‬

‫‪N‬‬
‫‪1−‬‬ ‫‪≤ Ptypical ≤ 1.‬‬ ‫)‪(۷۴‬‬
‫‪k2‬‬

‫ﻫﺮﮔﺎﻩ ﻗﺮﺍﺭ ﺩﻫﯿﻢ ‪ k = 10‬ﻭ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ‪ ۳۲‬ﺗﺎ ﺑﮕﯿﺮ ﯾﻢ ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺍﺯ‬

‫‪ ۰.۶۸‬ﺑﯿﺸﺘﺮ ﺍﺳﺖ‪ .‬ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﯾﮏ ﺣﺪ ﭘﺎﯾﯿﻦ ﺍﺳﺖ‪ .‬ﻣﻤﮑﻦ ﺍﺳﺖ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﻭﺍﻗﻌﯽ ﺑﯿﺸﺘﺮ ﺍﺯ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﺑﺎﺷﺪ‪.‬‬

‫‪ n‬ﻗﻀﯿﻪ‪ :‬ﻫﺮﮔﺎﻩ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﺭﺍ ﺑﺎ ‪ T‬ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﺁﻧﮕﺎﻩ‬

‫√‬ ‫√‬
‫‪2mH(X)−‬‬ ‫‪mA‬‬
‫‪≤ T ≤ 2mH(X)+‬‬ ‫‪mA‬‬
‫)‪(۷۵‬‬

‫ﮐﻪ ﺩﺭ ﺁﻥ‬

‫∑‬
‫√ ‪N‬‬
‫‪A=−‬‬ ‫‪pi (1 − pi ) log pi .‬‬ ‫)‪(۷۶‬‬
‫‪i=1‬‬

‫ﺍﺛﺒﺎﺕ‪ :‬ﺑﻪ ﺷﮑﻞ )‪ (۳‬ﻧﮕﺎﻩ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ‪ ،‬ﯾﻌﻨﯽ ‪ ،‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﺩﺭ ﻭﻥ ﻧﺎﺣﯿﻪ ﺭﻧﮕﯽ‬

‫ﺑﺎﺷﺪ ﺭﺍ ﯾﮏ ﺑﺎﺭ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻗﻀﯿﻪ ﭼﺒﯿﺸﻒ ﺣﺴﺎﺏ ﮐﺮﺩﻩ ﺍﯾﻢ‪ .‬ﺣﺎﻝ ﯾﮏ ﺑﺎﺭ ﺩﯾﮕﺮ ﻫﻢ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ ﺭﺍ ﺑﻪ ﺷﯿﻮﻩ ﻣﺘﻔﺎﻭﺗﯽ ﺣﺴﺎﺏ ﻣﯽ ﮐﻨﯿﻢ‬

‫ﻭ ﺍﺯ ﺁﻥ ﺑﺮﺍﯼ ﺑﺪﺳﺖ ﺁﻭﺭﺩﻥ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﯾﮏ ﻣﻨﺒﻊ ﺑﻪ ﺻﻮﺭﺕ ﺗﺼﺎﺩﻓﯽ ﺭﺷﺘﻪ ﻫﺎ ﺭﺍ ﺗﻮﻟﯿﺪ‬

‫ﻣﯽ ﮐﻨﺪ‪ .‬ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺻﻮﺭﺕ ﻣﺠﺎﺯﯼ ﺗﺼﻮﺭ ﮐﻨﯿﻢ ﮐﻪ ﺭﺷﺘﻪ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﺗﯿﺮﻫﺎﯼ ﯾﮏ ﺑﺎﺯﯼ ﺩﺍﺭﺕ ﻫﺴﺘﻨﺪ ﮐﻪ ﺑﻪ ﺻﻮﺭﺕ ﺗﺼﺎﺩﻓﯽ‬

‫ﺷﻠﯿﮏ ﻣﯽ ﺷﻮﻧﺪ ﻭ ﻣﻤﮑﻦ ﺍﺳﺖ ﺑﻪ ﺩﺭ ﻭﻥ ﻧﺎﺣﯿﻪ ﺭﻧﮕﯽ ﺍﺻﺎﺑﺖ ﮐﻨﻨﺪ ﯾﺎ ﻧﮑﻨﻨﺪ‪ .‬ﺩﺭ ﻣﺜﺎﻝ ﺳﺎﺩﻩ ﺍﯼ ﮐﻪ ﺍﺯ ﺍﺑﺘﺪﺍﯼ ﺍﯾﻦ ﺩﺭﺱ ﺑﻪ ﺁﻥ ﺍﺷﺎﺭﻩ‬

‫ﮐﺮﺩﻩ ﺍﯾﻢ ‪ ،‬ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺯ ﺧﻮﺩ ﺑﭙﺮﺳﯿﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺗﻮﻟﯿﺪ ﯾﮏ ﺭﺷﺘﻪ ‪ m‬ﺗﺎﯾﯽ ﻣﻌﯿﻦ ﻣﺜﻞ ‪α = AABBCDBDADDAABCCCC‬‬

‫ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﻫﺮﮔﺎﻩ ﮐﻪ ﺣﺮ ﻭﻑ ﺭﺍ ﻣﺴﺘﻘﻞ ﺍﺯ ﻫﻢ ﺑﮕﯿﺮ ﯾﻢ ﭘﺎﺳﺦ ﺍﯾﻦ ﺳﻮﺍﻝ ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ‬

‫‪P (α) = PA PA PB PB PC PC · · · .‬‬

‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺩﺭ ﺣﺎﻟﺖ ﮐﻠﯽ ﺍﺣﺘﻤﺎﻝ ﭘﯿﺪﺍﮐﺮﺩﻥ ﯾﮏ ﺭﺷﺘﻪ ﻣﺜﻞ ‪ α‬ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‪:‬‬

‫) ‪f (α1‬‬ ‫) ‪f (α2‬‬ ‫) ‪f (αN‬‬


‫‪P (α) = P1‬‬ ‫‪P2‬‬ ‫‪· · · PN‬‬ ‫‪.‬‬ ‫)‪(۷۷‬‬

‫‪۲۷‬‬
‫ﯾﮏ ﺭﺷﺘﻪ ﺩﻟﺨﻮﺍﻩ ﺍﺯ ﺍﯾﻦ ﻧﻮﻉ ﺍﻟﺰﺍﻣﺎ ﻧﻤﻮﻧﻪ ﻧﯿﺴﺖ ﻭﻟﯽ ﺍﮔﺮ ﭘﺎﺭﺍﻣﺘﺮﻫﺎﯼ ) ‪ f (αi‬ﺁﻥ ﺩﺭ ﻧﺎﻣﺴﺎﻭﯼ )‪ (۶۵‬ﺻﺪﻕ ﮐﻨﻨﺪ ﺁﻧﻮﻗﺖ ﺣﺘﻤﺎ ﻧﻤﻮﻧﻪ‬

‫ﺍﺳﺖ‪ .‬ﭘﺲ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ )ﯾﻌﻨﯽ ﺩﺭ ﺩﺭ ﻭﻥ ﻧﺎﺣﯿﻪ ﺭﻧﮕﯽ ﻗﺮﺍﺭ ﺑﮕﯿﺮﺩ( ﺭﺍ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﻃﺮ ﯾﻖ ﺯﯾﺮ ﺑﺪﺳﺖ ﺑﯿﺎﻭﺭ ﯾﻢ‪:‬‬

‫∑‬
‫‪N‬‬
‫= )‪log P (α‬‬ ‫‪fi (α) log pi‬‬ ‫)‪(۷۸‬‬
‫‪i=1‬‬

‫ﻭﺩﺭﻧﺘﯿﺠﻪ ﺗﺮﮐﯿﺐ ﺑﺎ )‪ (65‬ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ‪:‬‬

‫∑‬
‫‪N‬‬ ‫√‬ ‫∑‬
‫‪N‬‬ ‫√‬
‫≤ )‪(mpi − k mpi (1 − pi )) log pi ≤ log P (α‬‬ ‫‪(mpi + k mpi (1 − pi )) log pi .‬‬ ‫)‪(۷۹‬‬
‫‪i=1‬‬ ‫‪i=1‬‬

‫ﺣﺎﻝ ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‬

‫∑‬
‫√ ‪N‬‬
‫‪A := −k‬‬ ‫‪pi (1 − pi ) log pi .‬‬ ‫)‪(۸۰‬‬
‫‪i=1‬‬

‫ﺩﺭﻧﺘﯿﺠﻪ ﻧﺎﻣﺴﺎﻭﯼ ﻗﺒﻠﯽ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺩﺭﻣﯽ ﺁﯾﺪ‪:‬‬

‫√‬ ‫√‬
‫‪−mH + A m ≤ log P (α) ≤ −mH − A m,‬‬ ‫)‪(۸۱‬‬

‫ﮐﻪ ﺍﺯﺁﻥ ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ‬

‫√‬ ‫√‬
‫‪2−mH−A‬‬ ‫‪m‬‬
‫‪≤ Ptypical (α) ≤ 2−mH+A‬‬ ‫‪m‬‬
‫‪.‬‬ ‫)‪(۸۲‬‬

‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﯾﮏ ﺣﺪ ﺑﺎﻻ ﻭ ﭘﺎﯾﯿﻦ ﺑﺮﺍﯼ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺭﺍ ﺑﺪﺳﺖ ﺁﻭﺭﺩﯾﻢ ﯾﻌﻨﯽ‬

‫‪Pmin ≤ Ptypical (α) ≤ Pmax ,‬‬ ‫)‪(۸۳‬‬

‫ﮐﻪ ﺩﺭ ﺁﻥ‬

‫√‬ ‫√‬
‫‪Pmin = 2−mH−A‬‬ ‫‪m‬‬
‫‪,‬‬ ‫‪Pmax = 2−mH+A‬‬ ‫‪m‬‬
‫‪.‬‬ ‫)‪(۸۴‬‬

‫ﺣﺎﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺗﻮﻟﯿﺪ ﺭﺷﺘﻪ ﻫﺎ ﯼ ﻧﻮﻋﯽ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﺯﯾﺮ ﺣﺴﺎﺏ ﮐﻨﯿﻢ‪ .‬ﺍﮔﺮ ﺗﻌﺪﺍﺩ ‪ T‬ﺗﺎ ﺭﺷﺘﻪ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ ﻭ ﺁﻧﻬﺎ ﺭﺍ‬

‫ﺍﺯ ‪ 1‬ﺗﺎ ‪ T‬ﺷﻤﺎﺭﻩ ﮔﺬﺍﺭﯼ ﮐﺮﺩﻩ ﺑﺎﺷﯿﻢ ﺩﺍﺭ ﯾﻢ‪:‬‬

‫‪Ptypical = Ptypical (1) + Ptypical (2) + · · · Ptypical (T ).‬‬ ‫)‪(۸۵‬‬

‫‪۲۸‬‬
‫ﺑﺎ ﺗﺮﮐﯿﺐ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺑﺎ ﺭﺍﺑﻄﻪ ﻗﺒﻠﯽ ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ ﮐﻪ‬

‫‪Ptypical ≤ Pmax × T,‬‬ ‫‪T × Pmin ≤ Ptypical .‬‬ ‫)‪(۸۶‬‬

‫ﺍﺯ ﻃﺮﻓﯽ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ‬

‫‪N‬‬
‫‪1−‬‬ ‫‪≤ Ptypical ,‬‬ ‫‪Ptypical ≤ 1.‬‬ ‫)‪(۸۷‬‬
‫‪k2‬‬

‫ﺑﺎ ﺗﺮﮐﯿﺐ ﻣﻨﺎﺳﺐ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻫﺎ ﺑﺎ ﺭ ﻭﺍﺑﻂ )( ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ‪:‬‬

‫‪N‬‬ ‫‪N mH−√mA‬‬


‫‪1−‬‬ ‫‪≤ T × PM ax‬‬ ‫‪−→ (1 −‬‬ ‫‪)2‬‬ ‫‪≤ T,‬‬ ‫)‪(۸۸‬‬
‫‪k2‬‬ ‫‪k2‬‬

‫ﻭ‬

‫√‬
‫‪T × PM in ≤ 1‬‬ ‫‪−→ T ≤ 2mH+‬‬ ‫‪mA‬‬
‫‪.‬‬ ‫)‪(۸۹‬‬

‫ﺩﺭ ﺣﺪ ﺭﺷﺘﻪ ﻫﺎﯼ ﻃﻮﻻﻧﯽ ‪ ،‬ﯾﻌﻨﯽ )‪ (m >> 1‬ﺟﻤﻠﻪ ﺩﻭﻡ ﺩﺭ ﻣﻘﺎﯾﺴﻪ ﺑﺎ ﺭﺷﺘﻪ ﺍﻭﻝ ﺑﻪ ﺳﻤﺖ ﺻﻔﺮ ﻣﯿﻞ ﻣﯽ ﮐﻨﺪ ﻭ ﺩﺭ ﻧﺘﯿﺠﻪ ﺍﯾﻦ‬

‫ﺭﺍﺑﻄﻪ ﻣﯽ ﮔﻮﯾﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﺧﺎﺹ ﻣﺜﻞ ‪ α‬ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺑﺴﺘﮕﯽ ﺑﻪ ﻧﻮﻉ ﺁﻥ ﺭﺷﺘﻪ ﻧﺪﺍﺭﺩ ﻭ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ‬

‫ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‬

‫‪Ptypical (α) = 2−mH(X)+δm‬‬ ‫)‪(۹۰‬‬

‫ﮐﻪ ﺩﺭ ﺁﻥ‬

‫‪lim δm = 0.‬‬ ‫)‪(۹۱‬‬


‫∞∈‪m‬‬

‫ﻣﻌﻨﺎﯼ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺭ ﻭﯼ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﯾﮑﻨﻮﺍﺧﺖ ﺍﺳﺖ‪ .‬ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻧﻤﯽ ﮔﻮﯾﺪ‬

‫ﮐﻪ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺭ ﻭﯼ ﻫﻤﻪ ﺭﺷﺘﻪ ﻫﺎ ﯾﮑﻨﻮﺍﺧﺖ ﺍﺳﺖ ﺑﻠﮑﻪ ﻣﯽ ﮔﻮﯾﺪ ﮐﻪ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﻓﻘﻂ ﺭ ﻭﯼ ﻗﺴﻤﺘﯽ ﺍﺯ ﻓﻀﺎﯼ ﺗﻤﺎﻣﯽ ﺭﺷﺘﻪ ﻫﺎ ﮐﻪ‬

‫ﻣﺮﺑﻮﻁ ﺑﻪ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺍﺳﺖ ﯾﮏ ﻧﻮﺍﺧﺖ ﺍﺳﺖ‪.‬‬

‫‪۲۹‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻭﯾﮑﯿﭙﺪﯾﺎ ﯾﺎ ﻫﺮ ﻣﻨﺒﻊ ﺩﯾﮕﺮﯼ ﮐﻪ ﻣﯽ ﺩﺍﻧﯿﺪ ﻓﺮﮐﺎﻧﺲ ﺣﺮ ﻭﻑ ﻣﺨﺘﻠﻒ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﺑﺪﺳﺖ ﺁﻭﺭ ﯾﺪ‪ .‬ﺗﺎﺑﻊ‬
‫√ ∑‬
‫ﺁﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ﺭﺍ ﺑﺮﺍﯼ ﺍﯾﻦ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪ .‬ﺳﭙﺲ ﺗﺎﺑﻊ ‪ A(X) = k i pi (1 − pi ) log2 pi‬ﺭﺍ ﺑﺮﺍﯼ ﺁﻥ‬
‫√‬ ‫√‬
‫‪ 2−mH−‬ﺭﺍ ﺑﺮﺍﯼ ﻣﻘﺎﺩﯾﺮ ﻣﺨﺘﻠﻒ ‪ k‬ﻭ‪ m‬ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪ .‬ﺍﯾﻦ ﮐﻤﯿﺖ ﻫﺎ‬ ‫‪mA‬‬
‫‪ 2−mH+‬ﻭ‬ ‫‪mA‬‬
‫ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪ .‬ﺳﭙﺲ ﮐﻤﯿﺖ ﻫﺎﯼ‬

‫ﺭﺍ ﺑﻪ ﻋﻨﻮﺍﻥ ﺗﻮﺍﺑﻌﯽ ﺍﺯ ﺩﻭ ﻣﻘﺪﺍﺭ ‪ m‬ﻭ‪ k‬ﺭﺳﻢ ﮐﻨﯿﺪ ‪.‬‬

‫ﺳﻮﺍﻝ ﺁﺧﺮ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺗﻌﺪﺍﺩ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﭘﺎﺳﺦ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍﻝ ﺑﺎ ﺗﺮﮐﯿﺐ ﺩﻭ ﻧﺘﯿﺠﻪ ﻗﺒﻠﯽ ﺑﺪﺳﺖ ﻣﯽ‬

‫ﺁﻭﺭ ﯾﻢ‪ .‬ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺑﻪ ﻃﻮﻝ ‪ m‬ﺭﺍ ﺑﺎ )‪ Ntypical (m‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﯾﮑﻨﻮﺍﺧﺖ ﺑﻮﺩﻥ ﺗﺎﺑﻊ‬

‫ﺗﻮﺯﯾﻊ ﺭ ﻭﯼ ﺭﺷﺘﻪ ﻫﺎﯼ ﯾﮑﻨﻮﺍﺧﺖ ﺛﺎﺑﺖ ﮐﺮﺩﻩ ﺍﯾﻢ‬

‫)‪Ptypical = Ntypical (m)Ptypical (α‬‬ ‫)‪(۹۲‬‬

‫ﻭ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺭﺍﺑﻄﻪ ‪ ۷۴‬ﺩﺍﺭ ﯾﻢ‬

‫‪N‬‬
‫‪1−‬‬ ‫‪≤ Ntypical (m)Ptypical (α) ≤ 1.‬‬ ‫)‪(۹۳‬‬
‫‪k2‬‬

‫ﻫﺮﮔﺎﻩ ﺑﻪ ﺣﺪﻭﺩﯼ ﮐﻪ ﺭ ﻭﯼ )‪ Ptypical (α‬ﺑﺪﺳﺖ ﺁﻭﺭﺩﯾﻢ ﺩﻗﺖ ﮐﻨﯿﻢ ﻧﺘﯿﺠﻪ ﻣﯽ ﺷﻮﺩ ﮐﻪ‪:‬‬

‫)‪N mH(X‬‬
‫‪(1 −‬‬ ‫‪)2‬‬ ‫‪≤ Ntypical (m) ≤ 2mH(X) .‬‬ ‫)‪(۹۴‬‬
‫‪k2‬‬

‫ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﻧﺒﺎﺷﺪ ﺭﺍ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﺎ ﺑﺰ ﺭﮒ ﮐﺮﺩﻥ ‪ k‬ﻫﺮ ﭼﻘﺪﺭ ﮐﻪ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﮐﻮﭼﮏ ﮐﻨﯿﻢ ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺍﻟﻔﺒﺎﯾﯽ ﮐﻪ ﺩﺭ ﺭﺍﺑﻄﻪ )‪ (۴۶‬ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ ﺭﺍ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ‪.‬‬

‫ﺍﻟﻒ‪ :‬ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺍﺯ ‪ 0.95‬ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ‪ .‬ﺣﺴﺎﺏ ﮐﻨﯿﺪ ﮐﻪ ﺗﺎ ﭼﻨﺪ ﺗﺎ ﻭﺍﺭ ﯾﺎﻧﺲ ﻧﺴﺒﺖ ﺑﻪ ﻣﺘﻮﺳﻂ‬

‫ﺗﻌﺪﺍﺩ ﺣﺮ ﻭﻑ ﺭﺍ ﻣﯽ ﺑﺎﯾﺴﺖ ﺟﺰ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﻢ؟‬

‫ﺏ‪ :‬ﺍﮔﺮ ﻃﻮﻝ ﺭﺷﺘﻪ ﻫﺎ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ 100‬ﺑﺎﺷﺪ‪ ،‬ﺣﺪﻭﺩ ﺑﺎﻻ ﻭ ﭘﺎﯾﯿﻦ ﺭﺍ ﺑﺮﺍﯼ ﺗﻌﺪﺍﺩ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪ .‬ﺣﺴﺎﺏ ﮐﻨﯿﺪ‬

‫‪۳۰‬‬
‫ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺭﺍ ﺑﺎ ﭼﻨﺪ ﺗﺎ ﺑﯿﺖ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﮐﺪ ﮐﻨﯿﻢ ﯾﻌﻨﯽ ﭼﻘﺪﺭ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺁﻧﻬﺎ ﺭﺍ ﻓﺸﺮﺩﻩ ﮐﻨﯿﻢ‪.‬‬

‫ﺝ‪ :‬ﻣﻘﺪﺍﺭ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺭﺍ ﺑﺮﺍﯼ ﻭﻗﺘﯽ ﮐﻪ ﻃﻮﻝ ﺭﺷﺘﻪ ﻫﺎ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ 500‬ﺍﺳﺖ ﻧﯿﺰ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺗﻤﺮ ﯾﻦ ﻗﺒﻠﯽ ﺭﺍ ﺑﺮﺍﯼ ﺍﻟﻔﺒﺎﯼ ﻣﻌﺮﻓﯽ ﺷﺪﻩ ﺩﺭ ﺭﺍﺑﻄﻪ )‪ (۵۳‬ﻧﯿﺰ ﺍﻧﺠﺎﻡ ﺩﻫﯿﺪ‪.‬‬

‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺗﻤﺮ ﯾﻦ ﻗﺒﻠﯽ ﺭﺍ ﺑﺮﺍﯼ ﺍﻟﻔﺒﺎﯼ ﻣﻌﺮﻓﯽ ﺷﺪﻩ ﺩﺭ ﺭﺍﺑﻄﻪ )‪ (۵۵‬ﻧﯿﺰ ﺍﻧﺠﺎﻡ ﺩﻫﯿﺪ‪.‬‬

‫‪ ۷‬ﺿﻤﯿﻤﻪ‬

‫ﺍﻭﻟﯿﻦ ﻣﺴﺌﻠﻪ ﺍﯼ ﮐﻪ ﺑﺎﺁﻥ ﻣﻮﺍﺟﻪ ﻫﺴﺘﯿﻢ ﯾﮑﺘﺎﯾﯽ ﮐﺪ ﮔﺸﺎﯾﯽ ﺍﺳﺖ‪ .‬ﺑﺮﺍﯼ ﻣﺜﺎﻝ ﺑﻪ ﺟﺪﻭﻝ ﺷﻤﺎﺭﻩ ﯾﮏ ﺗﻮﺟﻪ ﮐﻨﯿﺪ‪:‬‬

‫ﮐﻪ ﺩﺭﺁﻥ ﺳﺘﻮﻥ ﺳﻤﺖ ﭼﭗ ﮐﻠﻤﻪ ﻫﺎ ﻭ ﺳﺘﻮﻥ ﺳﻤﺖ ﺭﺍﺳﺖ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﺭﺍ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﺪ‪ .‬ﺣﺎﻝ ﻫﺮﮔﺎﻩ ﮐﺪ ﭘﯿﺎﻡ ‪ 010‬ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ‬

‫ﮐﻨﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺁﻥ ﺭﺍ ﺑﻪ ﮐﺪﯼ ﺑﺮﺍﯼ ﻫﺮﮐﺪﺍﻡ ﺍﺯ ﭘﯿﺎﻡ ﻫﺎﯼ ‪ x2 , x3 x1 , x1 x4‬ﺗﻌﺒﯿﺮ ﮐﻨﯿﻢ‪ .‬ﺩﺭﻧﺘﯿﺠﻪ ﺍﯾﻦ ﻧﻮﻉ ﮐﺪ ﮔﺬﺍﺭﯼ ﺩﺍﺭﺍﯼ ﺍﺑﻬﺎﻡ‬

‫ﺯﯾﺎﺩ ﺍﺳﺖ ﻭ ﮐﺪ ﮔﺬﺍﺭﯼ ﺧﻮﺑﯽ ﻧﯿﺴﺖ‪ .‬ﻧﺨﺴﺖ ﺑﺎﯾﺪ ﯾﮏ ﺻﻔﺖ ﺍﺳﺎﺳﯽ ﺍﺯ ﻫﺮﻧﻮﻉ ﮐﺪﮔﺬﺍﺭﯼ ﺭﺍ ﻣﺸﺨﺺ ﮐﻨﯿﻢ‪.‬‬

‫ﺗﻌﺮ ﯾﻒ ‪ :‬ﯾﮏ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎﺳﺖ ﺍﮔﺮ ﻫﺮ ﮐﺪ ﭘﯿﺎﻡ ﺣﺪﺍﮐﺜﺮﻣﺘﻨﺎﻇﺮ ﺑﺎ ﯾﮏ ﭘﯿﺎﻡ ﺑﺎﺷﺪ‪.‬‬

‫ﯾﮏ ﺭﺍﻩ ﺑﺮﺍﯼ ﻧﻮﺷﺘﻦ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺗﻘﺎﺿﺎ ﮐﻨﯿﻢ ﻫﯿﭻ ﮐﺪ ﮐﻠﻤﻪﺍﯼ ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪٔ ﺩﯾﮕﺮﯼ ﻧﺒﺎﺷﺪ‪.‬‬

‫ﺗﻌﺮ ﯾﻒ‪ :‬ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ‪ A‬ﭘﯿﺸﻮﻧﺪ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ‪ B‬ﺧﻮﺍﻧﺪﻩ ﻣﯽ ﺷﻮﺩ ﺍﮔﺮ ‪ B‬ﺭﺍ ﺑﺘﻮﺍﻥ ﺑﻪ ﺻﻮﺭﺕ ‪ B = AC‬ﻧﻮﺷﺖ ﮐﻪ ﺩﺭﺁﻥ ‪C‬‬

‫ﺩﻟﺨﻮﺍﻩ ﺍﺳﺖ ﻭ ﻟﺰ ﻭﻣﯽ ﻧﺪﺍﺭﺩ ﮐﻪ ﺧﻮﺩ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ﺑﺎﺷﺪ‪ .‬ﺩﺭﺟﺪﻭﻝ )‪ x1 (7‬ﭘﯿﺸﻮﻧﺪ ‪ x2‬ﻭ ‪ x3‬ﺍﺳﺖ‪ x3 .‬ﻧﯿﺰ ﭘﯿﺸﻮﻧﺪ ‪ x2‬ﺍﺳﺖ‪.‬‬

‫ﺗﻌﺮ ﯾﻒ ‪ :‬ﯾﮏ ﮐﺪ ﮐﻪ ﺩﺭﺁﻥ ﻫﯿﭻ ﮐﺪ ﮐﻠﻤﻪ ﺍﯼ ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪ ﺩﯾﮕﺮﯼ ﻧﺒﺎﺷﺪ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺧﻮﺍﻧﺪﻩ ﻣﯽ ﺷﻮﺩ‪.‬‬

‫‪۳۱‬‬
‫‪0‬‬ ‫‪x1‬‬

‫‪010‬‬ ‫‪x2‬‬

‫‪01‬‬ ‫‪x3‬‬

‫‪10‬‬ ‫‪x4‬‬

‫ﺟﺪﻭﻝ ‪ :۱‬ﻣﺜﺎﻟﯽ ﺍﺯ ﯾﮏ ﮐﺪ ﮐﻪ ﺩﺭﺁﻥ ﺑﻌﻀﯽ ﺍﺯﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺩﯾﮕﺮﻧﺪ‬

‫‪0‬‬ ‫‪x1‬‬

‫‪100‬‬ ‫‪x2‬‬

‫‪101‬‬ ‫‪x3‬‬

‫‪11‬‬ ‫‪x4‬‬

‫ﺟﺪﻭﻝ ‪ :۲‬ﻣﺜﺎﻟﯽ ﺍﺯﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ‬

‫ﻣﺜﺎﻝ ‪ :‬ﮐﺪ ﺯﯾﺮ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺍﺳﺖ‪.‬‬

‫ﻧﮑﺘﻪ ﻣﻬﻢ ﺩﺭﻣﻮﺭﺩ ﺍﯾﻦ ﻧﻮﻉ ﮐﺪ ﻫﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﻫﺮﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺳﺖ‪ .‬ﺍﻟﺒﺘﻪ ﻣﻌﮑﻮﺱ ﺍﯾﻦ ﻗﻀﯿﻪ ﺩﺭﺳﺖ ﻧﯿﺴﺖ‪.‬‬

‫ﺑﺎﺯﻫﻢ ﺑﻪ ﮐﺪ ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﺷﺪﻩ ﺩﺭﺟﺪﻭﻝ ؟؟ ﺩﻗﺖ ﮐﻨﯿﺪ‪ .‬ﻫﺮﮔﺎﻩ ﮐﺪ ﭘﯿﺎﻣﯽ ﻣﺜﻞ ﺭﺷﺘﻪ‬

‫‪101110100101‬‬ ‫)‪(۹۵‬‬

‫ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ ﮐﻨﯿﻢ ﺗﻨﻬﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺁﻥ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﭘﯿﺎﻡ ﺯﯾﺮ ﺑﺎﺯﮔﺸﺎﯾﯽ ﮐﻨﯿﻢ‪:‬‬

‫‪x3 x4 x1 x2 x3 .‬‬ ‫)‪(۹۶‬‬

‫ﺣﺎﻝ ﮐﺪ ﺯﯾﺮ ﺭﺍ ﺩﺭﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ‪:‬‬

‫‪0‬‬ ‫‪x1‬‬

‫‪01‬‬ ‫‪x2‬‬

‫ﺟﺪﻭﻝ ‪ :۳‬ﯾﮏ ﮐﺪ ﮐﻪ ﺑﻪ ﻃﻮﺭ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ ﻭﻟﯽ ﻟﺤﻈﻪ ﺍﯼ ﻧﯿﺴﺖ‪.‬‬

‫‪۳۲‬‬
‫ﺍﯾﻦ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﻧﯿﺴﺖ ﺯﯾﺮﺍ ‪ x1‬ﭘﯿﺸﻮﻧﺪ ‪ x2‬ﺍﺳﺖ‪ .‬ﺑﺎﺍﯾﻦ ﻭﺟﻮﺩ ﺍﯾﻦ ﮐﺪ ﺑﻪ ﻃﻮﺭ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ‪ .‬ﺯﯾﺮﺍ ﻫﺮ ﺭﺷﺘﻪ ﺍﯼ ﺭﺍ ﮐﻪ‬

‫ﺩﺭ ﯾﺎﻓﺖ ﻣﯽ ﮐﻨﯿﻢ ﺭﺷﺘﻪ ﺍﯼ ﺍﺯ ‪ 0‬ﻫﺎﺳﺖ ﮐﻪ ﺩﺭﺑﻌﻀﯽ ﺟﺎﻫﺎﯼ ﺁﻥ ‪ 1‬ﻫﺎﯼ ﻣﻨﻔﺮﺩ ﻗﺮﺍﺭﮔﺮﻓﺘﻪ ﺍﻧﺪ‪ ،‬ﻣﺜﻞ ﺭﺷﺘﻪ ﺯﯾﺮ‪:‬‬

‫‪0 0 1 0 0 0 1 0 1 0 1 0 0 0 0 0 0 1.‬‬ ‫)‪(۹۷‬‬

‫ﭼﻨﯿﻦ ﺭﺷﺘﻪ ﺍﯼ ﺑﻪ ﺁﺳﺎﻧﯽ ﻗﺎﺑﻞ ﮔﺸﺎﯾﺶ ﺍﺳﺖ ﻭ ﮐﺪﯼ ﺑﺮﺍﯼ ﭘﯿﺎﻡ ﺯﯾﺮﺍﺳﺖ‪:‬‬

‫‪x1 x2 x1 x1 x2 x2 x2 x1 x1 x1 x1 x2 .‬‬ ‫)‪(۹۸‬‬

‫ﺩﺭ ﺯﯾﺮ ﺭ ﻭﺷﯽ ﺭﺍ ﺑﯿﺎﻥ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺑﻪ ﮐﻤﮏ ﺁﻥ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺗﺸﺨﯿﺺ ﺑﺪﻫﯿﻢ ﮐﻪ ﺁﯾﺎ ﯾﮏ ﮐﺪ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ ﯾﺎﺧﯿﺮ‪.‬‬

‫ﻓﺮﺽ ﮐﻨﯿﺪﮐﻪ ‪ S0‬ﻣﺠﻤﻮﻋﻪ ﻫﻤﻪ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎ ﺑﺎﺷﺪ‪ .‬ﻣﺠﻤﻮﻋﻪ ﺗﻤﺎﻡ ﭘﺴﻮﻧﺪﻫﺎﯾﯽ ﺭﺍ ﮐﻪ ﺩﺭ ‪ S0‬ﻭﺟﻮﺩ ﺩﺍﺭﺩ ﺩﺭﻣﺠﻤﻮﻋﻪ ﺩﯾﮕﺮﯼ ﺑﻪ‬

‫ﻧﺎﻡ ‪ S1‬ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺣﺎﻝ ﻣﺠﻤﻮﻋﻪ ‪ S2 , S3 , · · · Sn‬ﺭﺍ ﺑﻪ ﻃﺮ ﯾﻖ ﺯﯾﺮ ﺗﺸﮑﯿﻞ ﻣﯽ ﺩﻫﯿﻢ‪:‬‬

‫ﺍﻟﻒ ‪ :‬ﺍﮔﺮ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ‪ A ∈ S0‬ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪ ﺍﯼ ﻣﺜﻞ ‪ w = AB ∈ Sn−1‬ﺑﺎﺷﺪ‪ B ،‬ﺭﺍ ﺩﺭ ‪ Sn‬ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‪.‬‬

‫ﺏ ‪ :‬ﺍﮔﺮ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ‪ A ∈ Sn−1‬ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪ ﺍﯼ ﻣﺜﻞ ‪ w = AB ∈ S0‬ﺑﺎﺷﺪ‪ B ،‬ﺭﺍ ﺩﺭ ‪ Sn‬ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‪.‬‬

‫‪ n‬ﻗﻀﯿﻪ‪ :‬ﯾﮏ ﮐﺪ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ ﺍﮔﺮ ﻭﻓﻘﻂ ﺍﮔﺮ ‪.S0 ∩ [S1 ∪ S2 ∪ S3 · · ·] = ϕ‬‬

‫ﻣﺜﺎﻝ ‪:‬ﮐﺪ ﺯﯾﺮ ﯾﮑﺘﺎ ﮔﺸﺎﻧﯿﺴﺖ‪.‬‬

‫ﺯﯾﺮﺍ‪:‬‬

‫}‪S0 = {0, 010, 01, 10‬‬ ‫}‪S1 = {10, 1, 0‬‬ ‫)‪(۹۹‬‬

‫ﻭ ‪.S0 ∩ S1 ̸= ϕ‬‬

‫ﻣﺜﺎﻝ ‪ :‬ﮐﺪ ﺯﯾﺮ ﯾﮑﺘﺎ ﮔﺸﺎﺳﺖ‪:‬‬

‫‪۳۳‬‬
‫‪0‬‬ ‫‪x1‬‬

‫‪010‬‬ ‫‪x2‬‬

‫‪01‬‬ ‫‪x3‬‬

‫‪10‬‬ ‫‪x4‬‬

‫ﺟﺪﻭﻝ ‪ :۴‬ﻣﺜﺎﻟﯽ ﺍﺯ ﯾﮏ ﮐﺪ ﮐﻪ ﺑﻪ ﻃﻮﺭ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻧﻤﯽ ﺷﻮﺩ‪.‬‬

‫‪0‬‬ ‫‪x1‬‬

‫‪001‬‬ ‫‪x2‬‬

‫ﺟﺪﻭﻝ ‪ :۵‬ﻣﺜﺎﻟﯽ ﺍﺯ ﯾﮏ ﮐﺪ ﯾﮑﺘﺎﮔﺸﺎ‬

‫ﺯﯾﺮﺍ‪:‬‬

‫}‪S0 = {0, 001‬‬ ‫}‪S1 = {01‬‬ ‫‪S2 = {1},‬‬ ‫)‪(۱۰۰‬‬

‫ﻭ ‪.S0 ∩ [S1 ∪ S2 ] = ϕ‬‬

‫ﻣﺜﺎﻝ ‪ :‬ﮐﺪ ﺯﯾﺮ ﺭﺍ ﺩﺭﻧﻈﺮﻣﯽ ﮔﯿﺮ ﯾﻢ‪:‬‬

‫‪a‬‬ ‫‪x1‬‬

‫‪c‬‬ ‫‪x2‬‬

‫‪ad‬‬ ‫‪x3‬‬

‫‪abb‬‬ ‫‪x4‬‬ ‫)‪(۱۰۱‬‬

‫‪bad‬‬ ‫‪x5‬‬

‫‪deb‬‬ ‫‪x6‬‬

‫‪bbcde‬‬ ‫‪x7‬‬

‫ﺑﺮﺍﯼ ﺍﯾﻦ ﮐﺪ ﺩﺍﺭ ﯾﻢ‪:‬‬

‫‪S0‬‬ ‫}‪= {a, c, ad, abb, bad, deb, bbcde‬‬

‫‪۳۴‬‬
‫‪S1‬‬ ‫}‪= {d, bb‬‬

‫‪S2‬‬ ‫}‪= {eb, cde‬‬

‫‪S3‬‬ ‫}‪= {de‬‬

‫‪S4‬‬ ‫}‪= {b‬‬

‫‪S5‬‬ ‫}‪= {ad, bcde‬‬

‫‪S6‬‬ ‫}‪= {d‬‬

‫‪S7‬‬ ‫}‪= {eb‬‬ ‫)‪(۱۰۲‬‬

‫ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺍﯾﻦ ﺭ ﻭﺍﺑﻂ ﺧﻮﺍﻫﯿﻢ ﺩﯾﺪ ﮐﻪ‬

‫‪S0 ∩ [S1 ∪ S2 ∪ S3 ∪ S4 ∪ S5 ∪ S6 ∪ S7 ] = ϕ,‬‬ ‫)‪(۱۰۳‬‬

‫ﻭ ﺩﺭﻧﺘﯿﺠﻪ ﺍﯾﻦ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎ ﺍﺳﺖ‪.‬‬

‫‪ n‬ﻗﻀﯿﻪ)ﺷﺮﻁ ﻻﺯﻡ ﻭ ﮐﺎﻓﯽ ﺑﺮﺍﯼ ﻭﺟﻮﺩ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ(‪ :‬ﻣﺠﻤﻮﻋﻪ ﮐﻠﻤﻪ ﻫﺎﯼ } ‪ X = {x1 , x2 , · · · xM‬ﻭ ﻣﺠﻤﻮﻋﻪ ﺣﺮ ﻭﻑ‬

‫ﺍﻟﻔﺒﺎﯼ } ‪ A := {a1 , a2 , · · · aD‬ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﻧﺪ‪ .‬ﻣﺠﻤﻮﻋﻪ ﺍﻋﺪﺍﺩ ﺻﺤﯿﺢ } ‪ {n1 , n2 , · · · nM‬ﻧﯿﺰ ﻣﻔﺮ ﻭﺽ ﺍﻧﺪ‪ .‬ﺁﯾﺎ ﯾﮏ ﮐﺪ‬

‫ﻟﺤﻈﻪ ﺍﯼ ﻣﯽ ﺗﻮﺍﻥ ﺍﺯ ﺍﻟﻔﺒﺎﯼ ‪ A‬ﻧﻮﺷﺖ ﮐﻪ ﻃﻮﻝ ﻫﺎﯼ } ‪ {n1 , n2 , · · · nM‬ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ؟ ﭘﺎﺳﺦ ﺍﯾﻦ ﺳﻮﺍﻝ ﻣﺜﺒﺖ ﺍﺳﺖ ﺍﮔﺮ ﻭﻓﻘﻂ‬

‫ﺍﮔﺮ ﺷﺮﻁ ﺯﯾﺮ ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ‪:‬‬

‫∑‬‫‪M‬‬
‫‪1‬‬
‫‪ni‬‬
‫‪≤ 1.‬‬ ‫)‪(۱۰۴‬‬
‫‪i=1‬‬
‫‪D‬‬

‫ﺍﯾﻦ ﻧﺎﻣﺴﺎﻭﯼ ﺑﻪ ﻧﺎﻣﺴﺎﻭﯼ ‪ Kraf t‬ﻣﺸﻬﻮﺭﺍﺳﺖ‪.‬‬

‫ﻗﺒﻞ ﺍﺯ ﺍﺛﺒﺎﺕ ﺍﯾﻦ ﻗﻀﯿﻪ ﺑﻪ ﯾﮏ ﻧﺘﯿﺠﻪ ﺳﺎﺩﻩ ﺁﻥ ﺗﻮﺟﻪ ﻣﯽ ﮐﻨﯿﻢ‪:‬‬

‫ﻧﺘﯿﺠﻪ‪ :‬ﺑﺮﺍﯼ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺑﺎﺍﺣﺘﺴﺎﺏ ﻧﻘﻄﻪ‪ ،‬ﮐﺎﻣﺎ ‪ ،‬ﻭﺩﯾﮕﺮﻋﻼﺋﻢ ﺩﺍﺭ ﯾﻢ‪ .M = 32 :‬ﻫﻢ ﭼﻨﯿﻦ ﺍﮔﺮ ﺑﺨﻮﺍﻫﯿﻢ ﺍﺯ ﺍﻟﻔﺒﺎﯼ‬

‫‪۳۵‬‬
‫∑‬
‫ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ ﺩﺍﺭ ﯾﻢ ‪ .D = 2‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺑﺎﯾﺪﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ‪:‬‬ ‫}‪:= {0, 1‬‬

‫∑‬‫‪32‬‬
‫‪1‬‬
‫‪≤ 1 −→ nmin ≥ 5.‬‬ ‫)‪(۱۰۵‬‬
‫‪i=1‬‬
‫‪2ni‬‬

‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﻧﻤﯽ ﺗﻮﺍﻥ ﻫﯿﭻ ﺣﺮﻓﯽ ﺭﺍ ﺑﺎ ﮐﻤﺘﺮﺍﺯ ‪ 5‬ﺑﯿﺖ ﮐﺪ ﮐﺮﺩ‪.‬‬

‫ﺣﺎﻝ ﺑﻪ ﺍﺛﺒﺎﺕ ﻗﻀﯿﻪ ﻣﯽ ﭘﺮﺩﺍﺯﯾﻢ‪:‬‬

‫‪ n‬ﺍﺛﺒﺎﺕ‪ :‬ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺯﻧﻤﻮﺩﺍﺭﻫﺎﯼ ﺩﺭﺧﺘﯽ ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ‪ .‬ﯾﮏ ﺩﺭﺧﺖ ﺑﺎ ﻣﺮﺗﺒﻪ ‪ D‬ﻭ ﺍﻧﺪﺍﺯﻩ ‪ k‬ﺩﺭﺧﺘﯽ ﺍﺳﺖ ﮐﻪ ‪ D‬ﺭ ﯾﺸﻪ ﺩﺍﺭﺩ ﻭ‬

‫ﺍﺯﻫﺮ ﺭ ﯾﺸﻪ ﻧﯿﺰ ‪ D‬ﺷﺎﺧﻪ ﻣﻨﺸﻌﺐ ﻣﯽ ﺷﻮﺩ ﻭﺍﯾﻦ ﮐﺎﺭ ﺍﺩﺍﻣﻪ ﻣﯽ ﯾﺎﺑﺪ ﺗﺎ ‪ k − 1‬ﻣﺮﺣﻠﻪ ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻌﺪﺍﺩ ﺷﺎﺧﻪ ﻫﺎﯼ ﺁﺧﺮ ﯾﻦ‬

‫ﻣﺮﺣﻠﻪ ﻋﺒﺎﺭﺕ ﺍﺳﺖ ﺍﺯ ‪ D .Dk‬ﺭ ﯾﺸﻪ ﺍﻭﻝ ﺩﺭﺧﺖ ﻣﺘﻨﺎﺳﺐ ﺑﺎ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺗﮏ ﺣﺮﻓﯽ }‪ {1, 2, 3 · · · D‬ﻫﺴﺘﻨﺪ‪ .‬ﺷﺎﺧﻪ ﻫﺎﯼ‬

‫ﻣﺮﺣﻠﻪ ﺑﻌﺪ ﻣﺘﻨﺎﺳﺐ ﺑﺎ ﮐﺪ ﮐﻠﻤﺎﺕ ﺩﻭ ﺣﺮﻓﯽ ﻫﺴﺘﻨﺪ ﻣﺜﻞ }‪ {11, 12, · · · DD‬ﻭ ﻫﻤﯿﻨﻄﻮﺭ ﺗﺎ ﺁﺧﺮ‪ .‬ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﻫﺮ ﮐﺪﮐﻠﻤﻪ‬

‫ﻣﺘﻨﺎﺳﺐ ﺑﺎﯾﮑﯽ ﺍﺯ ﮔﺮﻩ ﻫﺎﯼ ﺍﯾﻦ ﺩﺭﺧﺖ ﻣﯽ ﺷﻮﺩ‪ .‬ﺣﺎﻝ ﺍﮔﺮ ﺑﺨﻮﺍﻫﯿﻢ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺴﺎﺯﯾﻢ ﻣﯽ ﺑﺎﯾﺴﺖ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ‬

‫ﺧﻮﺩ ﺭﺍ ﺍﺯ ﺷﺎﺧﻪ ﻫﺎﯼ ﺍﯾﻦ ﺩﺭﺧﺖ ﺑﻪ ﻧﺤﻮ ﺧﺎﺻﯽ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ‪ .‬ﻫﺮ ﮐﺪ ﮐﻠﻤﻪ ﯾﺎ ﻫﺮﮔﺮﻩ ﮐﻪ ﺍﺯ ﺍﯾﻦ ﺩﺭﺧﺖ ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ‬

‫ﻣﯽ ﺑﺎﯾﺴﺖ ﺗﻤﺎﻡ ﺷﺎﺧﻪ ﻫﺎﯼ ﻣﻨﺸﻌﺐ ﺍﺯ ﺁﻥ ﮔﺮﻩ ﺭﺍ ﮐﻨﺎﺭﺑﮕﺬﺍﺭ ﯾﻢ ﺯﯾﺮﺍ ﻫﻤﻪ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﻣﺮﺑﻮﻁ ﺑﻪ ﺁﻥ ﺷﺎﺧﻪ ﻫﺎ ﮐﻠﻤﻪ ﻣﺮﺑﻮﻁ‬

‫ﺑﻪ ﺍﯾﻦ ﮔﺮﻩ ﺭﺍ ﺑﻪ ﻋﻨﻮﺍﻥ ﭘﯿﺸﻮﻧﺪ ﺧﻮﺩ ﺩﺍﺭﻧﺪ‪ .‬ﺍﮔﺮ ﻃﻮﻝ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ﮐﻪ ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ ﺑﺮﺍﺑﺮﺑﺎ ‪ i‬ﺑﺎﺷﺪ‪ ،‬ﺗﻌﺪﺍﺩ ﺷﺎﺧﻪ ﻫﺎﯾﯽ‬

‫ﮐﻪ ﺍﺯﺁﻥ ﻣﻨﺸﻌﺐ ﻣﯽ ﺷﻮﺩ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ .Dk−i‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ ﮐﺪﮐﻠﻤﻪ ﺑﻪ ﻃﻮﻝ ‪ i‬ﺗﻌﺪﺍﺩ ‪ Dk−i‬ﺗﺎ ﺍﺯ ﺷﺎﺧﻪ ﻫﺎ ﺣﺬﻑ ﻣﯽ‬

‫ﺷﻮﻧﺪ‪ .‬ﺩﺭﻧﺘﯿﺠﻪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬

‫‪Dk−i1 + Dk−i2 + · · · Dk−iM ≤ Dk‬‬ ‫)‪(۱۰۶‬‬

‫ﮐﻪ ﺑﺎﺗﻘﺴﯿﻢ ﻃﺮﻓﯿﻦ ﺑﺮ ‪ Dk‬ﺑﻪ ﺭﺍﺑﻄﻪ )‪ (116‬ﻣﯽ ﺭﺳﯿﻢ‪ .‬ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺭﺍ ﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﻧﯿﺰ ﻧﻮﺷﺖ‪:‬‬

‫∑‬
‫‪wi D−i ≤ 1,‬‬ ‫)‪(۱۰۷‬‬
‫‪i‬‬

‫ﮐﻪ ﺩﺭﺁﻥ ‪ wi‬ﺗﻌﺪﺍﺩ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺑﺎ ﻃﻮﻝ ‪ i‬ﺍﺳﺖ‪.‬‬

‫ﺣﺎﻝ ﻣﻌﮑﻮﺱ ﻗﻀﯿﻪ ﺭﺍ ﺛﺎﺑﺖ ﻣﯽ ﮐﻨﯿﻢ‪ :‬ﺗﺎﮐﻨﻮﻥ ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﮐﻪ ﺍﮔﺮ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺎﺷﺪ ﻣﯽ ﺑﺎﯾﺴﺖ ﺷﺮﻁ )‪ (116‬ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ‪.‬‬

‫ﺣﺎﻝ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ ﮐﻪ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ ) ‪ (n1 , n2 , · · · nM‬ﮐﻪ ﺩﺭﺷﺮﻁ )‪ (116‬ﺻﺪﻕ ﮐﻨﺪ ﻣﯽ ﺗﻮﺍﻥ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺳﺎﺧﺖ‪.‬‬

‫‪۳۶‬‬
‫‪ ni‬ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﻣﺮﺗﺐ ﻣﯽ ﮐﻨﯿﻢ‪:‬‬

‫‪n1 ≤ n2 ≤ n3 ≤ · · · ≤ nM .‬‬ ‫)‪(۱۰۸‬‬

‫ﺣﺎﻝ ﯾﮏ ﻧﻘﻄﻪ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ‪ n1‬ﺭﺍ ﺭ ﻭﯼ ﺩﺭﺧﺖِ ﺑﺎ ﻣﺮﺗﺒﻪ ‪ D‬ﻭﺍﻧﺪﺍﺯﻩ ‪ nM‬ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﺗﻌﺪﺍﺩ ‪ DnM −n1‬ﻧﻘﻄﻪ‬

‫ﺣﺬﻑ ﻣﯽ ﺷﻮﻧﺪ‪ .‬ﺗﻌﺪﺍﺩ ﻧﻘﺎﻁ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ .DnM − DnM −n1‬ﻧﻘﻄﻪ ﺩﻭﻡ ﺭﺍ ﺑﻪ ﻃﻮﻝ ‪ n2‬ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺍﯾﻦ‬

‫ﻧﻘﻄﻪ ﺗﻌﺪﺍﺩ ‪ DnM −n2‬ﻧﻘﻄﻪ ﺩﯾﮕﺮ ﺭﺍ ﺣﺬﻑ ﻣﯽ ﮐﻨﺪ‪ .‬ﺗﻌﺪﺍﺩﻧﻘﺎﻁ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ .DnM − DnM −n1 − DnM −n2‬ﺍﯾﻦ‬

‫ﮐﺎﺭ ﺭﺍ ﺍﺩﺍﻣﻪ ﻣﯽ ﺩﻫﯿﻢ ﺗﺎ ﻧﻘﻄﻪ ﻣﺎﻗﺒﻞ ﺁﺧﺮ ﮐﻪ ﻃﻮﻝ ﺁﻥ ‪ nM −1‬ﺍﺳﺖ‪ .‬ﺍﯾﻦ ﻧﻘﻄﻪ ﻧﯿﺰ ﺗﻌﺪﺍﺩ ‪ DnM −nM −1‬ﺭﺍ ﺣﺬﻑ ﻣﯽ ﮐﻨﺪ‪.‬‬

‫ﺁﯾﺎ ﺩﺭﺧﺖ ﻣﻮﺭﺩﻧﻈﺮ ﺍﯾﻦ ﻫﻤﻪ ﺟﺎ ﺩﺍﺭﺩ؟ ﺑﺮﺍﯼ ﭘﺎﺳﺦ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍ ﻝ ﮐﺎﻓﯽ ﺍﺳﺖ ﮐﻪ ﺗﻌﺪﺍﺩ ﻧﻘﺎﻁ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺭﺍ ﺑﻌﺪ ﺍﺯ ﻣﺮﺣﻠﻪ ﻣﺎﻗﺒﻞ‬

‫ﺁﺧﺮ ﺑﺸﻤﺎﺭ ﯾﻢ‪ :‬ﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‬

‫‪Q‬‬ ‫‪= DnM − DnM −n1 − DnM −n2 − · · · DnM −nM −1‬‬
‫[‬ ‫]‬
‫‪= DnM 1 − D−n1 − D−n2 − · · · D−nM −1‬‬ ‫)‪(۱۰۹‬‬

‫ﺍﻣﺎ ﭼﻮﻥ ﺷﺮﻁ )‪ (116‬ﺑﺮﻗﺮﺍﺭﺍﺳﺖ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬

‫∑‬
‫‪M‬‬ ‫∑‬
‫‪M‬‬ ‫‪−1‬‬
‫‪−ni‬‬
‫‪D‬‬ ‫‪≤ 1 −→ 1 −‬‬ ‫‪D−ni ≤ D−nM‬‬ ‫)‪(۱۱۰‬‬
‫‪i=1‬‬ ‫‪i=1‬‬

‫ﻭ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﺣﺪﺍﻗﻞ ﯾﮏ ﺍﻧﺘﺨﺎﺏ ﺑﺮﺍﯼ ﺁﺧﺮ ﯾﻦ ﮐﺪ ﮐﻠﻤﻪ ﺑﺎﻗﯽ ﻣﯽ ﻣﺎﻧﺪ‪ .‬ﺍﺛﺒﺎﺕ ﻗﻀﯿﻪ ﺩﺭﺍﯾﻦ ﺟﺎ ﮐﺎﻣﻞ‬

‫ﻣﯽ ﺷﻮﺩ‪.‬‬

‫‪ n‬ﻗﻀﯿﻪ‪ :‬ﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺷﺮﻁ ﻻﺯﻡ ﻭ ﮐﺎﻓﯽ ﺑﺮﺍﯼ ﺳﺎﺧﺘﻦ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎﮔﺸﺎﺳﺖ‪.‬‬

‫ﺍﺛﺒﺎﺕ‪ :‬ﺍﻟﻒ‪ :‬ﺍﮔﺮ ﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﻣﻄﺎﺑﻖ ﺑﺎ ﻗﻀﯿﻪ ﻗﺒﻞ ﺑﺴﺎﺯﯾﻢ ﻭ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﮐﺪ ﻫﺎﯼ‬

‫ﻟﺤﻈﻪ ﺍﯼ ﯾﮑﺘﺎ ﮔﺸﺎﻫﺴﺘﻨﺪ‪.‬‬

‫‪۳۷‬‬
‫ﺏ ‪ :‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎﺩﺍﺭ ﯾﻢ‪ .‬ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﮐﻪ ﺣﺘﻤﺎً ﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭﺍﺳﺖ‪ .‬ﺑﺠﺎﯼ ﻋﺒﺎﺭﺕ‬
‫‪∑r‬‬ ‫∑‬
‫ﺭﺍ ﺑﮑﺎﺭﻣﯽ ﺑﺮ ﯾﻢ ﮐﻪ ﺩﺭﺁﻥ ‪ wi‬ﺗﻌﺪﺍﺩﮐﻠﻤﺎﺕ ﺑﺎ ﻃﻮﻝ ‪ i‬ﺍﺳﺖ‪ .‬ﺣﺎﻝ ﻋﺒﺎﺭﺕ ﺍﺧﯿﺮ ﺭﺍﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﺻﻮﺭﺕ‬ ‫‪i=1‬‬ ‫ﻋﺒﺎﺭﺕ ‪wi D−i‬‬ ‫‪i‬‬ ‫‪D−ni‬‬

‫ﯾﮏ ﺗﺎﺑﻊ ﻣﻮﻟﺪ ﺗﻌﺒﯿﺮﮐﺮﺩ‪ .‬ﻣﯽ ﺗﻮﺍﻥ ﺩﺭ ﯾﺎﻓﺖ ﮐﻪ‬

‫(‬ ‫‪)n‬‬
‫∑‬
‫‪r‬‬ ‫∑‬
‫‪nr‬‬
‫‪−i‬‬
‫‪wi D‬‬ ‫=‬ ‫‪Xk D−k ,‬‬ ‫)‪(۱۱۱‬‬
‫‪i=1‬‬ ‫‪k=r‬‬

‫ﮐﻪ ﺩﺭﺁﻥ ‪ Xk‬ﺗﻌﺪﺍﺩﮐﻞ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺑﺎ ﻃﻮﻝ ‪ k‬ﺩﺭﮐﺪﮔﺬﺍﺭﯼ ﺭﺷﺘﻪ ﻫﺎﯼ ‪ r‬ﺗﺎﯾﯽ ﺍﺳﺖ‪ .‬ﺍﻣﺎ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﮐﺪ ﺍﺯﻧﻮﻉ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻧﯽ‬

‫ﺍﺳﺖ‪ .‬ﺩﺭﺿﻤﻦ ﺗﻌﺪﺍﺩ ﮐﻞ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺑﺎﻃﻮﻝ ‪ k‬ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ .Dk‬ﭼﻮﻥ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎﮔﺸﺎ ﺯﯾﺮﻣﺠﻤﻮﻋﻪ ﮐﻠﯿﻪ ﮐﺪ ﻫﺎﻫﺴﺘﻨﺪ ﻧﺘﯿﺠﻪ‬

‫ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ ‪ . Xk ≤ Dk‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬


‫‪( r‬‬ ‫‪)n‬‬
‫∑‬ ‫∑‬
‫‪nr‬‬
‫‪−i‬‬
‫‪wi D‬‬ ‫≤‬ ‫‪1 = nr − r + 1.‬‬ ‫)‪(۱۱۲‬‬
‫‪i=1‬‬ ‫‪k=r‬‬

‫ﻭ ﺍﺯﺁﻧﺠﺎ‬

‫(‬ ‫)‬
‫∑‬
‫‪r‬‬
‫‪−i‬‬ ‫‪1‬‬
‫‪wi D‬‬ ‫‪≤ (1 + (n − 1)r) n .‬‬ ‫)‪(۱۱۳‬‬
‫‪i=1‬‬

‫ﺩﺭﺣﺪ ‪ n‬ﻫﺎﯼ ﺑﺰ ﺭﮒ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺗﺒﺪﯾﻞ ﻣﯽ ﺷﻮﺩ ﺑﻪ ﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ‪.‬‬

‫‪ n‬ﻗﻀﯿﻪ ﮐﺪﮔﺬﺍﺭﯼ ﺑﺪﻭﻥ ﻧﻮﻓﻪ‪ :‬ﻣﺠﻤﻮﻋﻪ ﮐﻠﻤﺎﺕ } ‪ X = {x1 , x2 , · · · xM‬ﮐﻪ ﺩﺭﺁﻥ ﻧﻤﺎﺩ ‪ xi‬ﺑﺎ ﺍﺣﺘﻤﺎﻝ ) ‪ Pi := P (xi‬ﻇﺎﻫﺮ ﻣﯽ‬

‫ﺷﻮﺩ ﻭ ﻣﺠﻤﻮﻋﻪ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ } ‪ A := {a1 , a2 , · · · aD‬ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﻧﺪ‪ .‬ﺍﯾﻦ ﻧﻤﺎﺩ ﻫﺎ ﺑﺎ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ } ‪ {w1 , w2 , · · · wM‬ﮐﺪ‬

‫ﺷﺪﻩ ﺍﻧﺪ ﻭ ﻃﻮﻝ ﻫﺮﮐﺪﮐﻠﻤﻪ ‪ wi‬ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ) ‪ .ni := l(wi‬ﻫﺪﻑ ﻣﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﺪﮐﻠﻤﻪ ﻫﺎ ﺭﺍ ﮐﻤﯿﻨﻪ ﮐﻨﯿﻢ ﯾﻌﻨﯽ‬

‫ﮐﻤﯿﺖ ﺯﯾﺮ ﺭﺍ‪:‬‬


‫∑‬
‫‪M‬‬
‫=‪n :‬‬ ‫‪p i ni .‬‬ ‫)‪(۱۱۴‬‬
‫‪i=1‬‬

‫ﻣﺠﻤﻮﻋﻪ ﺍﻋﺪﺍﺩ ﺻﺤﯿﺢ } ‪ {n1 , n2 , · · · nM‬ﻧﯿﺰ ﻣﻔﺮ ﻭﺽ ﺍﻧﺪ‪ .‬ﺑﻬﺘﺮ ﯾﻦ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎﯾﯽ ﮐﻪ ﻣﯽ ﺗﻮﺍﻥ ﺑﺮﺍﯼ ﮐﺪﮐﺮﺩﻥ ﺍﯾﻦ‬

‫ﺍﻟﻔﺒﺎﺳﺎﺧﺖ‪ ،‬ﯾﻌﻨﯽ ﮐﺪ ﯾﮑﺘﺎﮔﺸﺎﯾﯽ ﮐﻪ ﮐﻤﺘﺮ ﯾﻦ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺭﺍ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﮐﺪﯼ ﺍﺳﺖ ﺑﺎ ﻃﻮﻝ ﻣﺘﻮﺳﻂ‬

‫)‪H(X‬‬
‫=‪n‬‬ ‫‪.‬‬ ‫)‪(۱۱۵‬‬
‫‪log D‬‬

‫‪۳۸‬‬
‫‪ n‬ﺍﺛﺒﺎﺕ‪ :‬ﻧﺨﺴﺖ ﺗﻮﺟﻪ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﮐﺪ ﻣﻮﺭﺩﻧﻈﺮﻣﺎﯾﮑﺘﺎ ﮔﺸﺎﺳﺖ ﺍﮔﺮ ﻭﻓﻘﻂ ﺍﮔﺮ ﺷﺮﻁ ﺯﯾﺮ ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ‪:‬‬

‫∑‬‫‪M‬‬
‫‪1‬‬
‫‪ni‬‬
‫‪≤ 1.‬‬ ‫)‪(۱۱۶‬‬
‫‪i=1‬‬
‫‪D‬‬

‫ﺑﻘﯿﻪ ﺍﺛﺒﺎﺕ ﺭﺍ ﺩﺭﺳﻪ ﻣﺮﺣﻠﻪ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺍﺯ ﺍﯾﻦ ﺑﻪ ﺑﻌﺪ ﻧﯿﺰ ﻣﺎ ﻓﻘﻂ ﺩﺭﺑﺎﺭﻩ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺣﺮﻑ ﻣﯽ ﺯﻧﯿﻢ‪ .‬ﺩﺭﻣﺮﺣﻠﻪ‬

‫ﺍﻭﻝ ﯾﮏ ﺣﺪ ﭘﺎﯾﯿﻦ ﺑﺮﺍﯼ ‪ n‬ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﯿﻢ ﻭ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ ﮐﻪ‬

‫)‪H(X‬‬
‫≥‪n‬‬ ‫)‪(۱۱۷‬‬
‫‪logD‬‬

‫ﮐﻪ ﺩﺭﺁﻥ ﺷﺮﻁ ﺗﺴﺎﻭﯼ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﺍﮔﺮ ﻭﻓﻘﻂ ﺍﮔﺮ ‪.pi = D−ni‬‬

‫ﺩﺭﻣﺮﺣﻠﻪ ﺩﻭﻡ ﺗﺤﻘﯿﻖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﭼﻘﺪﺭ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺍﯾﻦ ﺣﺪ ﭘﺎﯾﯿﻦ ﻧﺰﺩﯾﮏ ﺷﺪ‪ .‬ﻭ ﺑﺎﻻﺧﺮﻩ ﺩﺭﻣﺮﺣﻠﻪ ﺳﻮﻡ ﺑﻬﺘﺮ ﯾﻦ ﮐﺪ ﻣﻤﮑﻦ‬

‫ﺭﺍ ﻣﯽ ﺳﺎﺯﯾﻢ‪.‬‬

‫ﺑﺮﺍﯼ ﺍﺛﺒﺎﺕ ﻧﺎﻣﺴﺎﻭﯼ )‪ (117‬ﻣﯽ ﺑﺎﯾﺴﺖ ﻧﺎﻣﺴﺎﻭﯼ ﺯﯾﺮ ﺭﺍ ﺛﺎﺑﺖ ﮐﻨﯿﻢ‪:‬‬

‫∑‬
‫‪M‬‬ ‫∑‬
‫‪M‬‬
‫‪log pi‬‬
‫‪ni pi ≥ −‬‬ ‫‪pi‬‬ ‫‪,‬‬ ‫)‪(۱۱۸‬‬
‫‪i=1‬‬ ‫‪i=1‬‬
‫‪log D‬‬

‫ﻭ ﯾﺎ‬

‫∑‬
‫‪M‬‬ ‫∑‬
‫‪M‬‬
‫‪(ni log D)pi ≥ −‬‬ ‫‪pi log pi .‬‬ ‫)‪(۱۱۹‬‬
‫‪i=1‬‬ ‫‪i=1‬‬

‫ﻗﺒﻼ ﺩﺍﺷﺘﯿﻢ ﮐﻪ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﺩﻭ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ } ‪ {pi‬ﻭ } ‪ ،{qi‬ﻧﺎﻣﺴﺎﻭﯼ ﺯﯾﺮﺑﺮﻗﺮﺍﺭﺍﺳﺖ‪:‬‬

‫∑‬ ‫∑‬
‫‪−pi log pi ≤ −‬‬ ‫‪pi log qi ,‬‬ ‫)‪(۱۲۰‬‬
‫‪i‬‬

‫ﻭﺗﺴﺎﻭﯼ ﺗﻨﻬﺎﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ } ‪.{qi } = {pi‬‬

‫ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﯾﮏ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﻣﻄﺎﺑﻖ ﺑﺎﺭﺍﺑﻄﻪ ﺯﯾﺮﺗﻌﺮ ﯾﻒ ﮐﻨﯿﻢ‪:‬‬

‫‪D−ni‬‬
‫‪qi := ∑M‬‬ ‫)‪(۱۲۱‬‬
‫‪−ni‬‬
‫‪i=1 D‬‬

‫‪۳۹‬‬
‫ﻭ ﺍﺯ ﺭﺍﺑﻄﻪ )‪ (118‬ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ‪ .‬ﯾﮏ ﻣﺤﺎﺳﺒﻪ ﺳﺎﺩﻩ ﻣﻨﺠﺮﺑﻪ ﺭﺍﺑﻄﻪ ﺯﯾﺮﺧﻮﺍﻫﺪ ﺷﺪ‪:‬‬

‫∑‬
‫‪M‬‬
‫(‪H(X) ≤ n log D + log‬‬ ‫‪D−ni ),‬‬ ‫)‪(۱۲۲‬‬
‫‪i=1‬‬

‫ﮐﻪ ﺗﺴﺎﻭﯼ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ‬

‫‪D−ni‬‬
‫‪pi = ∑M‬‬ ‫‪.‬‬ ‫)‪(۱۲۳‬‬
‫‪−ni‬‬
‫‪i=1 D‬‬

‫‪∑M‬‬
‫ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ‬ ‫‪i=1‬‬ ‫ﺣﺎﻝ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺍﯾﻨﮑﻪ ﺑﺮﺍﯼ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎﮔﺸﺎﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭ ﺍﺳﺖ ﯾﻌﻨﯽ ‪D−ni ≤ 1‬‬
‫‪∑M‬‬
‫‪ log‬ﻭ ﺍﺯﺁﻧﺠﺎ ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ ﮐﻪ‬ ‫‪i=1‬‬ ‫‪D−ni ≤ 0‬‬

‫‪H(X) ≤ n log D.‬‬ ‫)‪(۱۲۴‬‬

‫‪1‬‬
‫‪ ni = logD‬ﺗﺒﻌﯿﺖ ﮐﻨﺪ‪ ،‬ﺁﻧﮕﺎﻩ ﺧﻮﺍﻫﯿﻢ‬ ‫‪pi‬‬ ‫ﻫﺮﮔﺎﻩ ﺑﺘﻮﺍﻧﯿﻢ ﯾﮏ ﮐﺪ ﺭﺍ ﭼﻨﺎﻥ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﮐﻪ ﻃﻮﻝ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺁﻥ ﺍﺯ ﺭﺍﺑﻄﻪ‬

‫= ‪ n‬ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ ﺁﻧﮕﺎﻩ ‪.pi = D−ni‬‬ ‫)‪H(X‬‬


‫‪log D‬‬ ‫= ‪ . n‬ﻣﻌﮑﻮﺱ ﺍﯾﻦ ﻗﻀﯿﻪ ﻧﯿﺰ ﺻﺤﯿﺢ ﺍﺳﺖ ﯾﻌﻨﯽ ﺍﯾﻨﮑﻪ ﺍﮔﺮ ﺭﺍﺑﻄﻪ‬ ‫)‪H(X‬‬
‫‪log D‬‬ ‫ﺩﺍﺷﺖ ‪:‬‬

‫ﺑﺮﺍﯼ ﺍﺛﺒﺎﺕ ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﺍﺯ ﺭﺍﺑﻄﻪ ‪ 122‬ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ ﻭ ﺑﻪ ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﻣﯽ ﺭﺳﯿﻢ ﮐﻪ‬

‫∑‬
‫‪M‬‬
‫(‪n log D ≤ n log D + log‬‬ ‫‪D−i ),‬‬ ‫)‪(۱۲۵‬‬
‫‪i=1‬‬

‫‪∑M‬‬ ‫‪∑M‬‬
‫‪ .‬ﺍﻣﺎﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺭﺍﺑﻄﻪ ‪ 123‬ﺍﯾﻦ ﻧﺘﯿﺠﻪ‬ ‫‪i=1‬‬ ‫‪ ،‬ﺑﻪ ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﻣﯽ ﺭﺳﯿﻢ ﮐﻪ ‪D−j = 1‬‬ ‫‪i=1‬‬ ‫ﻭﺍﺯﺁﻧﺠﺎ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺍﯾﻨﮑﻪ ‪D−ni ≤ 1‬‬

‫ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ‪.pi = D−ni‬‬

‫)‪H(X‬‬
‫= ‪.n‬‬ ‫‪log D‬‬ ‫‪ n‬ﺗﻌﺮ ﯾﻒ‪ :‬ﯾﮏ ﮐﺪ ﮐﺎﻣﻼ ﺑﻬﯿﻨﻪ ﮐﺪﯼ ﺍﺳﺖ ﮐﻪ ﺑﺮﺍﯼ ﺁﻥ‬

‫ﯾﮏ ﻣﺜﺎﻝ ﺍﺯ ﯾﮏ ﮐﺪ ﮐﺎﻣﻼ ﺑﻬﯿﻨﻪ ﺩﺭﺟﺪﻭﻝ ﺯﯾﺮ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬

‫‪۴۰‬‬
‫‪Cw‬‬ ‫‪P‬‬ ‫‪X‬‬

‫‪1‬‬
‫‪0‬‬ ‫‪2‬‬ ‫‪x1‬‬

‫‪10‬‬ ‫‪1‬‬
‫‪x2‬‬ ‫)‪(۱۲۶‬‬
‫‪4‬‬

‫‪1‬‬
‫‪110‬‬ ‫‪8‬‬ ‫‪x3‬‬

‫‪1‬‬
‫‪111‬‬ ‫‪8‬‬ ‫‪x4‬‬

‫‪1‬‬
‫‪.ni = log‬‬ ‫‪pi‬‬ ‫ﺍﯾﻦ ﮐﺪ ﺩﺍﺭﺍﯼ ﺍﯾﻦ ﺧﺎﺻﯿﺖ ﺍﺳﺖ ﮐﻪ‬
‫‪1‬‬ ‫‪H‬‬
‫‪ ni = logD‬ﻣﻌﻠﻮﻡ ﻧﯿﺴﺖ‬ ‫‪pi‬‬ ‫= ‪ n‬ﺑﺮﻗﺮﺍﺭﺷﻮﺩ‪ ،‬ﺯﯾﺮﺍ ﺍﻋﺪﺍﺩ‬ ‫‪log D‬‬ ‫ﺩﺭﺣﺎﻟﺖ ﮐﻠﯽ ﻣﻌﻠﻮﻡ ﻧﯿﺴﺖ ﮐﻪ ﺑﺘﻮﺍﻥ ﮐﺪ ﺭﺍﭼﻨﺎﻥ ﻃﺮﺍﺣﯽ ﮐﺮﺩ ﮐﻪ ﺣﺪ‬

‫ﮐﻪ ﺻﺤﯿﺢ ﺑﺎﺷﻨﺪ‪ .‬ﺑﺎﺍﯾﻦ ﻭﺟﻮﺩ ﻣﯽ ﺗﻮﺍﻥ ﮐﺎﺭﯼ ﮐﺮﺩ ﮐﻪ ﺷﺮﻁ ﺯﯾﺮ ﺑﺮﻗﺮﺍﺭﺷﻮﺩ‪:‬‬

‫‪1‬‬ ‫‪1‬‬
‫‪logD‬‬ ‫‪≤ ni ≤ logD‬‬ ‫‪+ 1.‬‬ ‫)‪(۱۲۷‬‬
‫‪pi‬‬ ‫‪pi‬‬

‫ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ ‪:‬‬

‫)‪H(X‬‬ ‫)‪H(X‬‬
‫≤‪≤n‬‬ ‫‪+ 1.‬‬ ‫)‪(۱۲۸‬‬
‫‪log D‬‬ ‫‪log D‬‬

‫ﺣﺎﻝ ﻧﮑﺘﻪ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﻫﺮﻗﺪﺭﺑﺨﻮﺍﻫﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺣﺪّ ﭘﺎﯾﯿﻦ ﻧﺎﻣﺴﺎﻭﯼ ﺑﺎﻻ ﻧﺰﺩﯾﮏ ﺷﻮﯾﻢ‪ .‬ﺑﺮﺍﯼ ﺍﯾﻦ ﮐﺎﺭ ﻣﯽ ﺑﺎﯾﺴﺖ ﺍﺯ ﮐﺪﻫﺎﯼ‬

‫ﭼﻨﺪﺗﺎﯾﯽ ﯾﺎ ﮐﺪﻫﺎﯼ ﺑﻠﻮﮐﯽ ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﺑﻪ ﺟﺎﯼ ﮐﺪ ﻧﮕﺎﺭﯼ ‪ X‬ﺭﺷﺘﻪ ﻫﺎﯼ ‪ s‬ﺗﺎﯾﯽ ﺍﺯ ‪ X‬ﻫﺎ ﺭﺍﮐﺪ ﻧﮕﺎﺭﯼ ﮐﻨﯿﻢ‪ ،‬ﯾﻌﻨﯽ‬

‫ﺭﺷﺘﻪ ﻫﺎﯼ ) ‪ Y = (X1 , X2 , · · · Xs‬ﺭﺍ‪ .‬ﺣﺎﻝ ﺑﺎﯾﺪ ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﮐﻪ ﺗﺤﺖ ﺍﯾﻦ ﺷﺮﺍﯾﻂ ﻃﻮﻝ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ ‪ X‬ﭘﺎﯾﯿﻦ ﻣﯽ ﺁﯾﺪ‪.‬‬

‫ﺑﻪ ﺭﺍﺑﻄﻪ )‪ (127‬ﺩﻗﺖ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺍﺯﺁﻧﺠﺎ ﮐﻪ ) ‪ ،Y = (X1 , X2 , · · · Xs‬ﮐﻠﻤﻪ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ‪ s‬ﺗﺎﯾﯽ ﻫﺎﯼ ﺍﺯﻧﻮﻉ ) ‪yij = (xi , xj , · · · xs‬‬

‫‪۴۱‬‬
‫ﻫﺴﺘﻨﺪ‪ .‬ﺩﺍﺭ ﯾﻢ‬

‫∑‬
‫‪H(Y ) = −‬‬ ‫‪pij··· log pij··· .‬‬ ‫)‪(۱۲۹‬‬
‫···‪i,j,‬‬

‫ﭼﻮﻥ ﮐﻠﻤﺎﺕ ﭘﯿﺎﻡ ‪ Y‬ﺍﺯﻫﻢ ﻣﺴﺘﻘﻞ ﻫﺴﺘﻨﺪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪ .H(Y ) = sH(X) :‬ﻭﺑﻨﺎﺑﺮﺍﯾﻦ‬

‫) ‪H(Y‬‬ ‫) ‪H(Y‬‬
‫≤‪≤n‬‬ ‫‪+ 1,‬‬ ‫)‪(۱۳۰‬‬
‫‪log D‬‬ ‫‪log D‬‬

‫ﻭﯾﺎ‬

‫)‪H(X‬‬ ‫‪1‬‬ ‫‪H(X) 1‬‬


‫≤‪≤ n‬‬ ‫‪+ .‬‬ ‫)‪(۱۳۱‬‬
‫‪log D‬‬ ‫‪s‬‬ ‫‪log D‬‬ ‫‪s‬‬

‫‪1‬‬
‫ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﻫﺮ ﮐﺪ ﮐﻠﻤﻪ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ ﮐﻠﻤﻪ ﺩﺭ ‪ X‬ﺍﺳﺖ ﻭﺩﺭﺣﺪ ‪ s‬ﻫﺎﯼ ﺑﺰ ﺭﮒ ﺩﯾﺪﻩ ﻣﯽ ﺷﻮﺩ ﮐﻪ ﻣﺎ ﺑﻪ ﺣﺪ‬ ‫‪sn‬‬ ‫ﺩﺭﺍﯾﻦ ﺭﺍﺑﻄﻪ‬

‫ﺑﻬﯿﻨﻪ ﻧﺰﺩﯾﮏ ﻣﯽ ﺷﻮﯾﻢ‪.‬‬

‫ﺳﺎﺧﺘﻦ ﮐﺪ ﻫﺎﯼ ﺑﻬﯿﻨﻪ‬ ‫‪۱.۷‬‬

‫ﺣﺎﻝ ﺑﺎﯾﺪ ﺁﻟﮕﻮﺭ ﯾﺘﻤﯽ ﺭﺍ ﻣﻌﺮﻓﯽ ﮐﻨﯿﻢ ﮐﻪ ﮐﺪ ﻫﺎﯼ ﺑﻬﯿﻨﻪ ﺭﺍ ﺑﻪ ﻃﻮﺭ ﺭ ﻭﺷﻤﻨﺪ ﻣﯽ ﺳﺎﺯﺩ‪ .‬ﻧﺨﺴﺖ ﺑﻪ ﯾﮏ ﻟﻢ ﺍﺣﺘﯿﺎﺝ ﺩﺍﺭ ﯾﻢ‪:‬‬

‫ﻟﻢ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺑﺮﺍﯼ ﺍﺣﺘﻤﺎﻻﺕ ‪ ،P1 , P2 , · · · PM‬ﯾﮏ ﮐﺪ ‪ C‬ﺩﺭ ﺩﺭ ﻭﻥ ﻣﺠﻤﻮﻋﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﺑﻬﯿﻨﻪ ﺑﺎﺷﺪ‪ .‬ﯾﻌﻨﯽ‬

‫ﻫﯿﭻ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺩﯾﮕﺮﯼ ﺑﺎ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﻤﺘﺮ ﺍﺯ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﻣﺮﺑﻮﻁ ﺑﻪ ‪ C‬ﻭﺟﻮﺩ ﻧﺪﺍﺷﺘﻪ ﺑﺎﺷﺪ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺍﯾﻦ ﮐﺪ ﺩﺭﺩﺭ ﻭﻥ‬

‫ﻣﺠﻤﻮﻋﻪ ﮐﺪﻫﺎﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﻧﯿﺰ ﺑﻬﯿﻨﻪ ﺍﺳﺖ‪.‬‬

‫ﺍﺛﺒﺎﺕ‪ :‬ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﺯﯾﺮﻣﺠﻤﻮﻋﻪ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺳﺖ‪ .‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎﯼ ‪ C ′‬ﺑﺎ ﻃﻮﻝ‬

‫ﮐﺪﮐﻠﻤﻪ ﻫﺎﯼ ‪ n′1 , n′2 , · · · n′M‬ﻭﺟﻮﺩ ﺩﺍﺭﺩ ﮐﻪ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺁﻥ ﺍﺯ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ‪ C‬ﮐﻤﺘﺮﺍﺳﺖ‪ .‬ﺍﻭﻻً ﭼﻮﻥ ‪ C ′‬ﯾﮑﺘﺎ ﮔﺸﺎﺳﺖ ﺑﻨﺎﺑﺮﻗﻀﯿﻪ‬
‫‪∑M‬‬ ‫‪′‬‬
‫‪ .‬ﺍﻣﺎ ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﻨﺎﺑﺮﻗﻀﯿﻪ ﻗﺒﻞ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺎ ﻃﻮﻝ ﮐﻠﻤﺎﺕ‬ ‫‪i=1‬‬ ‫ﺍﯼ ﮐﻪ ﻗﺒﻼً ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪D−ni ≤ 1 :‬‬

‫‪ n′1 , n′2 , · · · n′M‬ﻭﺟﻮﺩ ﺧﻮﺍﻫﺪ ﺩﺍﺷﺖ ‪ .‬ﺑﺪﯾﻦ ﺗﺮﺗﯿﺐ ﺑﻬﯿﻨﻪ ﺑﻮﺩﻥ ﮐﺪ ‪ C‬ﺩﺭﺩﺭ ﻭﻥ ﻣﺠﻤﻮﻋﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﻧﯿﺰ ﻧﻘﺾ ﻣﯽ ﺷﻮﺩ‪.‬‬

‫‪۴۲‬‬
‫ﺍﺯ ﺍﯾﻦ ﺑﻪ ﺑﻌﺪ ﺗﻮﺟﻪ ﺧﻮﺩ ﺭﺍ ﺑﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﻭ ﺩﻭﺗﺎﯾﯽ ‪ binary‬ﻣﻌﻄﻮﻑ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﻧﺨﺴﺖ ﺑﻪ ﯾﮏ ﻟﻢ ﺍﺣﺘﯿﺎﺝ ﺩﺍﺭ ﯾﻢ‪:‬‬

‫ﻟﻢ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ‪ C‬ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺎ ﻃﻮﻝ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ‪ n1 , n2 , · · · nM‬ﺑﺮﺍﯼ ﮐﺪ ﮔﺬﺍﺭﯼ ﻋﻼﻣﺎﺕ ‪ x1 , x2 , · · · xM‬ﺑﺎﺷﺪ‬

‫ﮐﻪ ﺍﯾﻦ ﻋﻼﻣﺎﺕ ﻧﯿﺰ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ‪ p1 , p2 , · · · pM‬ﺗﮑﺮﺍﺭﺷﻮﻧﺪ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺍﮔﺮ ﮐﺪ ‪ C‬ﺩﺭ ﻭﻥ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﺑﻬﯿﻨﻪ ﺑﺎﺷﺪ ﺁﻧﮕﺎﻩ‬

‫ﺧﺎﺻﯿﺖ ﻫﺎﯼ ﺯﯾﺮﺑﺮﻗﺮﺍﺭﻧﺪ‪:‬‬

‫ﺍﻟﻒ‪ :‬ﻋﻼﻣﺖ ﻫﺎﯼ ﺑﺎﺍﺣﺘﻤﺎﻝ ﺑﯿﺸﺘﺮ ﻃﻮﻝ ﮐﻤﺘﺮ ﺩﺍﺭﻧﺪ‪ .‬ﯾﻌﻨﯽ ﺍﮔﺮ ‪ pi ≥ pj‬ﺁﻧﮕﺎﻩ ‪.ni ≤ nj‬‬

‫ﺏ‪ :‬ﺩﻭﺗﺎﺍﺯﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯾﯽ ﮐﻪ ﮐﻤﺘﺮ ﯾﻦ ﺍﺣﺘﻤﺎﻝ ﻫﺎ ﺭﺍ ﺩﺍﺭﻧﺪ ﺣﺘﻤﺎً ﺩﺍﺭﺍﯼ ﻃﻮﻝ ﻣﺴﺎﻭﯼ ﻫﺴﺘﻨﺪ‪.‬‬

‫ﺝ‪ :‬ﺩﺭﺑﯿﻦ ﮐﻠﻤﺎﺗﯽ ﮐﻪ ﺑﯿﺸﺘﺮ ﯾﻦ ﻃﻮﻝ ﺭﺍ ﺩﺍﺭﻧﺪ‪ ،‬ﺣﺘﻤﺎً ﺑﺎﯾﺪ ﺩﻭ ﮐﻠﻤﻪ ﻭﺟﻮﺩ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﮐﻪ ﻓﻘﻂ ﻭﻓﻘﻂ ﺩﺭ ﯾﮏ ﺭﻗﻢ ﺑﺎﯾﮑﺪﯾﮕﺮ ﺗﻔﺎﻭﺕ‬

‫ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ‪.‬‬

‫ﺍﺛﺒﺎﺕ ﺍﻟﻒ ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ‪ p1 ≥ p2‬ﮐﻪ ﺩﺭﺁﻥ ‪ p2 , p1‬ﺑﻪ ﺗﺮﺗﯿﺐ ﺍﺣﺘﻤﺎﻝ ﻇﻬﻮﺭ ﻋﻼﻣﺎﺕ ‪ x2 , x1‬ﺑﺎﺷﻨﺪ‪ .‬ﻫﻢ ﭼﻨﯿﻦ ﻓﺮﺽ ﮐﻨﯿﺪ‬

‫ﮐﻪ ﺩﺭﺍﯾﻦ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ‪ C‬ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ ‪ .n1 ≥ n2‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺗﻮﺍﻥ ﯾﮏ ﮐﺪ ﺑﻬﺘﺮﺍﺯ ‪ C‬ﺳﺎﺧﺖ‪ .‬ﺟﺎﯼ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﻣﺮﺑﻮﻁ‬

‫ﺑﻪ ‪ x1‬ﻭ ‪ x2‬ﺭﺍ ﻋﻮﺽ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﮐﺪ ﻫﻨﻮﺯﻟﺤﻈﻪ ﺍﯼ ﺍﺳﺖ ﺯﯾﺮﺍﺷﺮﻁ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭﺍﺳﺖ‪ .‬ﺩﺭﮐﺪ ﺟﺪﯾﺪ ‪ C ′‬ﺩﺍﺭ ﯾﻢ ‪:‬‬

‫‪n′ − n = n1 p2 + n2 p1 − n1 p1 − n2 p2 = (n1 − n2 )(p2 − p1 ) ≤ 0.‬‬ ‫)‪(۱۳۲‬‬

‫ﺍﺛﺒﺎﺕ ﺏ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﻤﺘﺮ ﯾﻦ ﺍﺣﺘﻤﺎﻻﺕ ﻋﺒﺎﺭﺕ ﺑﺎﺷﻨﺪ ﺍﺯ ‪ PM −1 , PM‬ﻭ ‪ .PM −1 ≥ PM‬ﺣﺎﻝ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺣﺎﻟﺖ ‪nM −1 < nM‬‬

‫ﺭﺍﺣﺬﻑ ﮐﻨﯿﻢ‪ .‬ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﻣﺮﺑﻮﻁ ﺑﻪ ﻋﻼﻣﺖ ﻫﺎﯼ ‪ xM −1‬ﻭ ‪ xM‬ﺭﺍ ﺑﻪ ﺗﺮﺗﯿﺐ ﺑﺎ ‪ S‬ﻭ ̃‪ S‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ‬

‫‪S‬‬ ‫=‬ ‫‪s1 s2 · · · snM −1‬‬

‫̃‪S‬‬ ‫≡‬ ‫) ‪S ′ S̃ ′ = s′1 s′2 · · · s′nM −1 (s′nM −1 +1 snM −1 +2 · · · s′nM‬‬ ‫)‪(۱۳۳‬‬

‫ﺣﺎﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻗﺴﻤﺖ ﺍﺿﺎﻓﯽ ﺭﺍ ﮐﻪ ﺩﺭ ﭘﺮﺍﻧﺘﺰﻗﺮﺍﺭﺩﺍﺩﻩ ﺍﯾﻢ ﺣﺬﻑ ﮐﻨﯿﻢ ﺑﺪﻭﻥ ﺍﯾﻨﮑﻪ ﺑﻪ ﻟﺤﻈﻪ ﺍﯼ ﺑﻮﺩﻥ ﮐﺪ ﺧﻠﻠﯽ ﻭﺍﺭﺩ ﺷﻮﺩ‪ .‬ﭼﻮﻥ‬

‫ﺍﮔﺮ ﮐﻠﻤﻪ ﺍﯼ ﭘﯿﺸﻮﻧﺪ ‪ S ′ S̃ ′‬ﻧﺒﻮﺩﻩ ﺍﺳﺖ ﭘﯿﺸﻮﻧﺪ ‪ S ′‬ﻧﯿﺰ ﻧﺨﻮﺍﻫﺪ ﺑﻮﺩ‪ .‬ﺿﻤﻨﺎً ‪ S ′‬ﻧﻤﯽ ﺗﻮﺍﻧﺪ ﭘﯿﺸﻮﻧﺪ ﮐﺪﮐﻠﻤﻪ ﺩﯾﮕﺮﯼ ﺑﺎﺷﺪ‪،‬ﭼﻮﻥ ﮐﻠﻤﺎﺕ‬

‫ﻣﺮﺑﻮﻁ ﺑﻪ ‪ xM −1‬ﻭ ‪ xM‬ﺑﺰ ﺭﮔﺘﺮ ﯾﻦ ﻃﻮﻝ ﻫﺎ ﺭﺍ ﺩﺍﺭﻧﺪ‪ .‬ﺗﻨﻬﺎﺍﻣﮑﺎﻧﯽ ﮐﻪ ﺑﺎﻗﯽ ﻣﯽ ﻣﺎﻧﺪ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﮐﻠﻤﺎﺕ ﺑﺎ ﻃﻮﻝ ‪ nM −1‬ﺑﯿﺶ ﺍﺯ‬

‫ﺩﻭ ﺗﺎﺑﺎﺷﻨﺪ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻨﻬﺎ ﺭﺍ ﻩ ﺑﺮﺍﯼ ﭘﯿﺸﻮﻧﺪ ﺑﻮﺩﻥ ‪ S ′‬ﺁﻥ ﺍﺳﺖ ﮐﻪ ‪ S ′‬ﺩﻗﯿﻘﺎً ﺑﺎﯾﮑﯽ ﺍﺯ ﺁﻥ ﮐﻠﻤﺎﺕ ﺑﺮﺍﺑﺮﺑﺎﺷﺪ‪ .‬ﻭﻟﯽ ﺍﯾﻦ ﺑﺪﺍﻥ‬

‫ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﺩﺭﮐﺪ ﺍﻭﻟﯿﻪ ﮐﻪ ﺩﺭﺁﻥ ﺣﺬﻓﯽ ﺻﻮﺭﺕ ﻧﮕﺮﻓﺘﻪ ﺑﻮﺩ‪ ،‬ﺁﻥ ﮐﻠﻤﻪ ﺧﺎﺹ ﭘﯿﺸﻮﻧﺪ ̃‪ S‬ﺑﻮﺩﻩ ﺍﺳﺖ‪.‬‬

‫‪۴۳‬‬
‫ﺍﺛﺒﺎﺕ ﺝ‪ :‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺩﻭﺗﺎﺍﺯﺑﻠﻨﺪﺗﺮ ﯾﻦ ﮐﻠﻤﺎﺕ ﺭﺍ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﻢ‪ .‬ﺍﮔﺮ ﺗﻨﻬﺎ ﺩﺭ ﺭﻗﻢ ﺁﺧﺮ ﺍﺧﺘﻼﻑ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﮐﻪ ﺍﯾﻦ ﻫﻤﺎﻥ‬

‫ﭼﯿﺰﯼ ﺍﺳﺖ ﮐﻪ ﻣﻄﻠﻮﺏ ﻣﺎﺳﺖ‪ .‬ﺍﮔﺮ ﺑﯿﺶ ﺍﺯ ﺭﻗﻢ ﺁﺧﺮ ﺑﺎﻫﻢ ﺍﺧﺘﻼﻑ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﻣﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺭﻗﻢ ﺁﺧﺮ ﺭﺍ ﺣﺬﻑ ﮐﻨﯿﻢ ﻭ ﯾﮏ ﮐﺪ‬

‫ﻟﺤﻈﻪ ﺍﯼ ﺑﻬﺘﺮ ﺑﺪﺳﺖ ﺑﯿﺎﻭﺭ ﯾﻢ‪ .‬ﺍﺳﺘﺪﻻﻝ ﺍﯾﻦ ﮐﻪ ﻟﺤﻈﻪ ﺍﯼ ﺑﻮﺩﻥ ﮐﺪ ﺑﻪ ﻫﻢ ﻧﻤﯽ ﺧﻮﺭﺩ ﻣﺜﻞ ﻗﺴﻤﺖ ﺏ ﺍﺳﺖ‪.‬‬

‫‪ ۲.۷‬ﺭ ﻭﺵ ﻫﻮﻓﻤﺎﻥ ﺑﺮﺍﯼ ﺳﺎﺧﺘﻦ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﺑﻬﯿﻨﻪ‬

‫ﺍﺯﺍﯾﻦ ﺑﻪ ﺑﻌﺪ ﻧﻤﺎﺩﻫﺎ ﻭﺍﺣﺘﻤﺎﻻﺕ ﺭﺍ ﺑﺎ ) ‪ (X, P‬ﻧﻤﺎﯾﺶ ﻣﯽ ﺩﻫﯿﻢ‪:‬‬

‫‪(X, P ) = {(x1 , p1 ), (x2 , p2 ), · · · (xM , pM )}.‬‬ ‫)‪(۱۳۴‬‬

‫ﻣﺮﺣﻠﻪ ﺍﻭﻝ ‪ :‬ﺍﺯ ) ‪ (X, P‬ﯾﮏ ) ̃‪ (X̃, P‬ﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮﻣﯽ ﺳﺎﺯﯾﻢ‪:‬‬

‫‪(X̃, P̃ ) = {(x1 , p1 ), (x2 , p2 ), · · · (xM −2 , pM −2 ), (xM −1,M , pM −1 + pM )}.‬‬ ‫)‪(۱۳۵‬‬

‫ﺳﻮﺍﻝ‪ :‬ﻣﻨﻈﻮﺭ ﺍﺯ ‪ xM −1,M‬ﭼﯿﺴﺖ؟ ﻣﻨﻈﻮﺭﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺩﺭﺫﻫﻦ ﺧﻮﺩ ﺗﻔﺎﻭﺕ ﺑﯿﻦ ‪ xM −1‬ﻭ ‪ xM‬ﺭﺍ ﺍﺯﺑﯿﻦ ﺑﺒﺮ ﯾﻢ‪ .‬ﺑﻪ ﻋﺒﺎﺭﺕ‬

‫ﺩﯾﮕﺮ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﺗﻨﻬﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻣﻬﻢ ﻫﺴﺘﻨﺪ ﻭ ﻧﻪ ﺧﻮﺩ ﻧﻤﺎﺩﻫﺎ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﻣﺠﻤﻮﻋﻪ } ‪ {p1 , p2 , · · · pM −1 , pM‬ﺭﺍ ﺑﻪ ﻣﺠﻤﻮﻋﻪ‬

‫} ‪ {p1 , p2 , · · · pM −1 + pM‬ﺗﻘﻠﯿﻞ ﺩﺍﺩﻩ ﺍﯾﻢ‪ .‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﺪ ﺑﻬﯿﻨﻪ ﺍﯼ ﺑﺮﺍﯼ ) ̃‪ (X̃, P‬ﺩﺭﺩﺳﺖ ﺑﺎﺷﺪ ﺑﺎ ﻣﺸﺨﺼﺎﺕ ﺯﯾﺮ‪:‬‬

‫‪۴۴‬‬
Ñ C̃ P̃ X̃

n1 w1 p1 x1

n2 w2 p2 x2
(۱۳۶)

· · · ·

nM −2 wM −2 pM −2 xM −2

nM −1,M wM −1,M pM −1 + pM xM −1,M

.‫( ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﻣﯽ ﺳﺎﺯﯾﻢ‬X, P ) ‫ ﺭﺍ ﺑﺮﺍﯼ‬C ‫ﺣﺎﻝ ﮐﺪ‬

۴۵
‫̃‪N‬‬ ‫̃‪C‬‬ ‫̃‪P‬‬ ‫̃‪X‬‬

‫‪n1‬‬ ‫‪w1‬‬ ‫‪p1‬‬ ‫‪x1‬‬

‫‪n2‬‬ ‫‪w2‬‬ ‫‪p2‬‬ ‫‪x2‬‬

‫)‪(۱۳۷‬‬
‫·‬ ‫·‬ ‫·‬ ‫·‬

‫‪nM −2‬‬ ‫‪wM −2‬‬ ‫‪pM −2‬‬ ‫‪xM −2‬‬

‫‪nM −1,M + 1‬‬ ‫‪wM −1,M 0‬‬ ‫‪pM −1‬‬ ‫‪xM −1‬‬

‫‪nM −1,M + 1‬‬ ‫‪wM −1,M 1‬‬ ‫‪pM‬‬ ‫‪xM‬‬

‫ﺣﺎﻝ ﺛﺎﺑﺖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺍﮔﺮ ̃‪ C‬ﺑﻬﯿﻨﻪ ﺑﺎﺷﺪ ﺁﻧﮕﺎﻩ ‪ C‬ﻧﯿﺰ ﺑﻬﯿﻨﻪ ﺍﺳﺖ‪ .‬ﺍﺯﺑﺮﻫﺎﻥ ﺧﻠﻒ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﺪﯼ ﻣﺜﻞ‬

‫‪ C ′‬ﻭﺟﻮﺩ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﮐﻪ ﺍﺯ ﮐﺪ ‪ C‬ﺑﻬﺘﺮ ﺑﺎﺷﺪ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺎﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﮐﺪ ‪ C ′‬ﻣﯽ ﺗﻮﺍﻥ ﮐﺪﯼ ﻣﺜﻞ ‪ C̃ ′‬ﺳﺎﺧﺖ ﮐﻪ ﺍﺯ ̃‪ C‬ﺑﻬﺘﺮﺑﺎﺷﺪ‪.‬‬

‫ﮐﺪ ‪ C ′‬ﺩﺭﺟﺪﻭﻝ ﺯﯾﺮﻧﺸﺎﻥ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬

‫‪۴۶‬‬
‫‪N′‬‬ ‫‪C′‬‬ ‫‪P‬‬ ‫‪X‬‬

‫‪n′1‬‬ ‫‪w1′‬‬ ‫‪p1‬‬ ‫‪x1‬‬

‫‪n′2‬‬ ‫‪w2′‬‬ ‫‪p2‬‬ ‫‪x2‬‬

‫)‪(۱۳۸‬‬
‫·‬ ‫·‬ ‫·‬ ‫·‬

‫‪n′M −2‬‬ ‫‪′‬‬


‫‪wM‬‬ ‫‪−2‬‬ ‫‪pM −2‬‬ ‫‪xM −2‬‬

‫‪n′M −1‬‬ ‫‪′‬‬


‫‪wM‬‬ ‫‪−1‬‬ ‫‪pM −1‬‬ ‫‪xM −1‬‬

‫‪n′M‬‬ ‫‪′‬‬
‫‪wM‬‬ ‫‪pM‬‬ ‫‪xM‬‬

‫‪′‬‬ ‫‪′‬‬ ‫‪′‬‬ ‫‪′‬‬


‫‪ wM‬ﻧﯿﺰ ﺗﻨﻬﺎ ﺩﺭ ﺭﻗﻢ ﺁﺧﺮﺑﺎﻫﻢ ﺍﺧﺘﻼﻑ ﺩﺍﺭﻧﺪ‪ .‬ﺣﺎﻝ ﮐﺪ ‪ C̃ ′‬ﺭﺍ ﻣﻄﺎﺑﻖ ﺟﺪﻭﻝ ﺯﯾﺮﻣﯽ ﺳﺎﺯﯾﻢ‪:‬‬ ‫‪ wM‬ﻭ‬ ‫ﺩﺭﺍﯾﻦ ﮐﺪ ‪−1 . nm = nM −1‬‬

‫‪۴۷‬‬
Ñ ′ C̃ ′ P X

n′1 w1′ p1 x1

n′2 w2′ p2 x2
(۱۳۹)

· · · ·

n′M −2 ′
wM −2 pM −2 xM −2

n′M −1 w̃′ M −1,M pM −1 + pM xM −1,M

′ ′ ′
:‫ ﺣﺎﻝ ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ‬.‫ ﺍﺳﺖ ﮐﻪ ﺭﻗﻢ ﺁﺧﺮ ﺁﻥ ﺑﺮﺩﺍﺷﺘﻪ ﺷﺪﻩ ﺍ ﺳﺖ‬wM −1 ‫ ﯾﺎ‬wM ‫ ﻫﻤﺎﻥ‬w̃ M −1,M ‫ﮐﻪ ﺩﺭﺁﻥ‬

n − ñ = (pM1 + pM )(nM −1,M + 1 − nM −1,M ) = pM −1 + pM , (۱۴۰)

‫ﻭ‬

n′ − ñ′ = (pM1 + pM )(n′M − n′M − 1) = pM −1 + pM . (۱۴۱)

‫ﺩﺭﻧﺘﯿﺠﻪ‬

n − ñ = n′ − ñ′ (۱۴۲)

:‫ﮐﻪ ﺍﺯﺁﻥ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‬

if n′ < n −→ ñ′ < ñ. (۱۴۳)

۴۸
‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﮔﺮ ﮐﺪ ‪ C ′‬ﺍﺯ ﮐﺪ ‪ C‬ﺑﻬﺘﺮ ﺑﺎﺷﺪ ﮐﺪ ̃‪ C‬ﻧﯿﺰ ﺍﺯ ﮐﺪ ̃‪ C‬ﺑﻬﺘﺮﺍﺳﺖ ﻭ ﺍﯾﻦ ﺧﻼﻑ ﺑﻬﯿﻨﻪ ﺑﻮﺩﻥ ﮐﺪ ̃‪ C‬ﺍﺳﺖ‪.‬‬

‫ﺍﯾﻦ ﻗﻀﺎﯾﺎ ﺑﻪ ﻣﺎ ﻣﯽ ﺁﻣﻮﺯﻧﺪ ﮐﻪ ﭼﮕﻮﻧﻪ ﮐﺪ ﻫﺎﯼ ﺑﻬﯿﻨﻪ ﺑﺴﺎﺯﯾﻢ‪.‬‬

‫ﻣﺜﺎﻝ ﯾﮏ‪ :‬ﺭ ﻭﺵ ﺳﺎﺧﺖ ﺩﺭﺟﺪﻭﻝ ﻫﺎﯼ ﺯﯾﺮ ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬

‫‪P‬‬ ‫‪X‬‬

‫‪0.5‬‬ ‫‪x1‬‬
‫)‪(۱۴۴‬‬
‫‪0.35‬‬ ‫‪x2‬‬

‫‪0.15‬‬ ‫‪x3‬‬

‫̃‪C‬‬ ‫̃‪P‬‬ ‫̃‪X‬‬

‫‪0‬‬ ‫‪0.5‬‬ ‫‪x1‬‬ ‫)‪(۱۴۵‬‬

‫‪1‬‬ ‫‪0.5‬‬ ‫‪x2,3‬‬

‫ﻭﺍﺯﺁﻧﺠﺎ‬

‫‪C‬‬ ‫‪P‬‬ ‫‪X‬‬

‫‪0‬‬ ‫‪0.5‬‬ ‫‪x1‬‬


‫)‪(۱۴۶‬‬
‫‪10‬‬ ‫‪0.35‬‬ ‫‪x2‬‬

‫‪11‬‬ ‫‪0.15‬‬ ‫‪x3‬‬

‫ﻫﺮﮔﺎﻩ ﺗﻌﺪﺍﺩﮐﻠﻤﺎﺕ ﺑﯿﺸﺘﺮﺑﺎﺷﺪ ﺍﯾﻦ ﮐﺎﺭ ﺭﺍﺩﺭﭼﻨﺪﻣﺮﺣﻠﻪ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ ‪ .‬ﺩﺭﻫﺮﻣﺮﺣﻠﻪ ﺍﺣﺘﻤﺎﻻﺕ ﺭﺍﺍﺯﺑﯿﺸﺘﺮ ﯾﻦ ﺑﻪ ﮐﻤﺘﺮ ﯾﻦ ﻣﺮﺗﺐ‬

‫ﻣﯽ ﮐﻨﯿﻢ ﻭ ﺁﺧﺮ ﯾﻦ ﺩﻭ ﮐﻠﻤﻪ ﺭﺍ ﺑﺎﻫﻢ ﻣﻄﺎﺑﻖ ﺑﺎﺁﻧﭽﻪ ﮐﻪ ﺩﺭﺑﺎﻻ ﮔﻔﺘﻪ ﺷﺪﺍﺩﻏﺎﻡ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺍﯾﻦ ﮐﺎﺭ ﺭﺍﺁﻧﻘﺪﺭﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ ﺗﺎ ﺑﻪ ﯾﮏ‬

‫ﻣﺠﻤﻮﻋﻪ ﺑﺮﺳﯿﻢ ﻣﺘﺸﮑﻞ ﺍﺯ ﺩﻭﻧﻤﺎﺩ ﻭ ﺩﻭﺍﺣﺘﻤﺎﻝ‪ .‬ﺑﻪ ﺩﻭ ﻧﻤﺎﺩ ﺁﺧﺮ ﮐﻠﻤﻪ ﻫﺎﯼ ‪ 0‬ﻭ ‪ 1‬ﺭﺍ ﻧﺴﺒﺖ ﻣﯽ ﺩﻫﯿﻢ ﻭ ﺳﭙﺲ ﻣﺮﺍﺣﻞ ﺭﺍ ﺩﺭﺟﻬﺖ‬

‫ﻋﮑﺲ ﻃﯽ ﻣﯽ ﮐﻨﯿﻢ ﺗﺎ ﺑﻪ ﺟﺪﻭﻝ ﺍﻭﻟﯿﻪ ﺑﺮﺳﯿﻢ ﻭﮐﺪ ﻫﺎﯼ ﺗﻤﺎﻡ ﻧﻤﺎﺩ ﻫﺎ ﺭﺍ ﺑﺪﺳﺖ ﺁﻭﺭ ﯾﻢ‪.‬‬

‫‪۴۹‬‬

You might also like