17-QCI-New Classical Information Theory (Part 1) PDF

‫ﻧﻈﺮ ﯾﻪ ﺍﻃﻼﻋﺎﺕ ﮐﻼﺳﯿﮏ ‪ -‬ﺑﺨﺶ ﺍﻭﻝ‬
‫ﻭﺣﯿﺪﮐﺮ ﯾﻤﯽ ﭘﻮﺭ‪ -‬ﺩﺍﻧﺸﮑﺪﻩ ﻓﯿﺰﯾﮏ ‪ -‬ﺩﺍﻧﺸﮕﺎﻩ ﺻﻨﻌﺘﯽ ﺷﺮ ﯾﻒ‬
‫‪ ۲۱‬ﺍﺳﻔﻨﺪ ‪۱۳۹۳‬‬
‫ﻣﻘﺪﻣﻪ‬ ‫‪۱‬‬
‫ﻓﺮﺽ ﮐﻨﯿﺪﮐﻪ } ‪ X = {x1 , x2 , · · · xn‬ﯾﮏ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ } ‪ {)p(x1 ), p(x2 ), · · · p(xn‬ﺑﺎﺷﺪ‪ .‬ﺑﻪ ﺍﯾﻦ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﻣﯽ‬
‫ﺗﻮﺍﻥ ﺗﺎﺑﻌﯽ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﻧﺴﺒﺖ ﺩﺍﺩ‪.‬‬
‫∑‬
‫‪n‬‬
‫‪H(X) := −‬‬ ‫‪p(x) log2 p(x).‬‬ ‫)‪(۱‬‬
‫‪i=1‬‬
‫ﺑﺪﻭﻥ ﺍﻏﺮﺍﻕ ﻣﯽ ﺗﻮﺍﻥ ﮔﻔﺖ ﮐﻪ ﺗﻤﺎﻡ ﻧﻈﺮ ﯾﻪ ﺍﻃﻼﻋﺎﺕ ﮐﻼﺳﯿﮏ ﺑﺮ ﺭ ﻭﯼ ﺍﯾﻦ ﺗﺎﺑﻊ ﮐﻪ ﺁﻥ ﺭﺍ ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﻣﯽ ﺧﻮﺍﻧﻨﺪ ﻭ ﺧﻮﺍﺹ‬
‫ﻭﺗﻌﺒﯿﺮﻫﺎﯼ ﺁﻥ ﺑﻨﺎﺷﺪﻩ ﺍﺳﺖ‪ .‬ﻫﺪﻑ ﻣﺎ ﺩﺭﺍﯾﻦ ﺩﺭﺱ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺍﻭﻻً ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺍﯾﻦ ﺗﺎﺑﻊ ﻭﺗﻮﺍﺑﻊ ﻭﺍﺑﺴﺘﻪ ﺑﻪ ﺁﻥ ﺭﺍﺍﺳﺘﺨﺮﺍﺝ ﮐﻨﯿﻢ‪،‬‬
‫ﺛﺎﻧﯿﺎً ﺗﻌﺒﯿﺮ ﻭﺗﻔﺴﯿﺮﻫﺎﯼ ﺍﯾﻦ ﺗﻮﺍﺑﻊ ﺭﺍ ﺑﻔﻬﻤﯿﻢ‪ .‬ﻧﺨﺴﺘﯿﻦ ﮐﺎﺭﯼ ﮐﻪ ﺑﺎﯾﺪ ﺑﮑﻨﯿﻢ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﺍﯾﻦ ﺗﺎﺑﻊ ﺳﻨﺠﻪ ﻣﻨﺎﺳﺒﯽ ﺑﺮﺍﯼ‬
‫ﺍﻃﻼﻋﺎﺕ ﺍﺳﺖ‪ .‬ﺍﯾﻦ ﮐﺎﺭﯼ ﺍﺳﺖ ﮐﻪ ﺩﺭﻧﺨﺴﺘﯿﻦ ﺑﺨﺶ ﺍﯾﻦ ﺩﺭﺱ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺩﺭﺑﺨﺶ ﻫﺎﯼ ﺑﻌﺪﯼ ﺍﯾﻦ ﺩﺭﺱ ﻣﻔﺎﻫﯿﻤﯽ ﻣﺜﻞ‬
‫ﺍﻃﻼﻋﺎﺕ ﺷﺮﻃﯽ ﻭ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺭﺍ ﻣﻌﺮﻓﯽ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﭘﺲ ﺍﺯﺑﺮ ﺭﺳﯽ ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺗﻮﺍﺑﻌﯽ ﮐﻪ ﺑﺮﺍﯼ ﺍﻧﺪﺍﺯﻩ ﮔﯿﺮﯼ ﺍﻃﻼﻋﺎﺕ‬
‫ﻣﻌﺮﻓﯽ ﮐﺮﺩﻩ ﺍﯾﻢ ﺑﻪ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺍﻃﻼﻋﺎﺕ ﻭ ﺣﺪﯼ ﮐﻪ ﺑﺮﺍﯼ ﺍﯾﻦ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﻭﺟﻮﺩ ﺩﺍﺭﺩﻣﯽ ﭘﺮﺩﺍﺯﯾﻢ‪.‬‬
‫‪۱‬‬
‫ﻣﻔﻬﻮﻡ ﻭﺍﻧﺪﺍﺯﻩ ﺍﻃﻼﻋﺎﺕ‬ ‫‪۲‬‬
‫ﺍﻃﻼﻋﺎﺕ ﯾﮏ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ‬ ‫‪۱.۲‬‬
‫ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺁﺯﻣﺎﯾﺶ ﯾﺎ ﻭﺍﻗﻌﻪ ﺍﯼ ﻣﺜﻞ ‪ X‬ﮐﻪ ﻧﺘﺎﯾﺞ ﯾﺎﭘﯿﺸﺎﻣﺪﻫﺎﯼ ﻣﻤﮑﻦ ﺁﻥ ﺭﺍ ﺑﺎﻣﺠﻤﻮﻋﻪ } ‪ {x1 , x2 , · · · xn‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‬
‫ﺍﺗﻔﺎﻕ ﺑﯿﻔﺘﺪ ﻭ ﯾﮏ ﻧﺘﯿﺠﻪ ﻣﻌﯿﻦ ﻣﺜﻞ ‪ xi‬ﺣﺎﺻﻞ ﺷﻮﺩ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﭙﺮﺳﯿﻢ ﮐﻪ ﻣﺎ ﺑﻪ ﻋﻨﻮﺍﻥ ﻧﺎﻇﺮ ﯾﺎ ﻣﺸﺎﻫﺪﻩ ﮔﺮ ﭼﻪ‬
‫ﻣﻘﺪﺍﺭ ﺍﻃﻼﻉ ﺣﺎﺻﻞ ﮐﺮﺩﻩ ﺍﯾﻢ‪ ،‬ﯾﺎ ﭼﻪ ﻣﻘﺪﺍﺭ ﺍﺯ ﻋﺪﻡ ﯾﻘﯿﻦ ﻣﺎ ﻧﺴﺒﺖ ﺑﻪ ﻧﺘﯿﺠﻪ ﻫﺎﯼ ﻣﻤﮑﻦ ﮐﺎﺳﺘﻪ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﻓﺮﺽ ﻣﺎ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ‬
‫ﺍﺣﺘﻤﺎﻻﺕ ﻭﻗﻮﻉ ﯾﻌﻨﯽ ) ‪ p(xi‬ﻫﺎ ﻣﻌﻠﻮﻡ ﻫﺴﺘﻨﺪ‪ .‬ﻃﺒﯿﻌﯽ ﺍﺳﺖ ﮐﻪ ﺑﺎ ﺩﺍﻧﺴﺘﻦ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻤﯽ ﺗﻮﺍﻥ ﯾﻘﯿﻨﺎ ﮔﻔﺖ ﮐﻪ ﭼﻪ ﭘﯿﺸﺎﻣﺪﯼ ﺭﺥ‬
‫ﺧﻮﺍﻫﺪ ﺩﺍﺩ‪ .‬ﻣﯿﺰﺍﻥ ﻋﺪﻡ ﯾﻘﯿﻨﯽ ﮐﻪ ﻧﺴﺒﺖ ﺑﻪ ﻧﺘﯿﺠﻪ ﺩﺍﺭ ﯾﻢ ﻭ ﺩﺭ ﻧﺘﯿﺠﻪ ﻣﻘﺪﺍﺭ ﺍﻃﻼﻋﯽ ﮐﻪ ﺍﺯ ﻣﺸﺎﻫﺪﻩ ﺧﻮﺩ ﺩﺭ ﯾﺎﻓﺖ ﻣﯽ ﮐﻨﯿﻢ‪ ،‬ﻃﺒﯿﻌﺘﺎ‬
‫ﺗﺎﺑﻌﯽ ﺍﺯ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻻﺕ ﺍﺳﺖ‪ .‬ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺍﮔﺮ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ‬
‫‪P (x1 ) = 1,‬‬ ‫‪P (xi ) = 0,‬‬ ‫‪i = 2, 3, · · · N,‬‬ ‫)‪(۲‬‬
‫ﺁﻧﮕﺎﻩ ﻧﺘﯿﺠﻪ ﻫﺮ ﺁﺯﻣﺎﯾﺸﯽ ﺍﺯ ﻗﺒﻞ ﻣﻌﻠﻮﻡ ﺍﺳﺖ ﻭ ﻣﺎ ﺍﺯ ﻣﺸﺎﻫﺪﻩ ﺁﺯﻣﺎﯾﺶ ﻫﯿﭻ ﺍﻃﻼﻋﯽ ﺣﺎﺻﻞ ﻧﻤﯽ ﮐﻨﯿﻢ‪ ،‬ﺯﯾﺮﺍ ﺍﺯ ﻗﺒﻞ ﻭ ﺑﺎ ﻣﺤﺎﺳﺒﻪ‬
‫ﺗﺤﻠﯿﻠﯽ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﮕﻮﯾﯿﻢ ﮐﻪ ﻫﻤﻮﺍﺭﻩ ﻧﺘﯿﺠﻪ ‪ x1‬ﺣﺎﺻﻞ ﺧﻮﺍﻫﺪ ﺷﺪ‪ .‬ﺍﻣﺎ ﺍﮔﺮ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ‬
‫‪1‬‬
‫= ) ‪P (xi‬‬ ‫‪,‬‬ ‫)‪(۳‬‬
‫‪N‬‬
‫ﺁﻧﮕﺎﻩ ﻫﺮﺑﺎﺭ ﮐﻪ ﺁﺯﻣﺎﯾﺶ ﺭﺍ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ ﯾﮏ ﻧﺘﯿﺠﻪ ﺑﺪﺳﺖ ﻣﯽ ﺁﯾﺪ ﮐﻪ ﺑﻪ ﺩﺍﻧﺶ ﻣﺎ ﺍﺿﺎﻓﻪ ﻣﯽ ﮐﻨﺪ‪ ،‬ﺩﺍﻧﺸﯽ ﮐﻪ ﺍﺯ ﻗﺒﻞ ﻧﺪﺍﺷﺘﯿﻢ‬
‫ﻭ ﻧﻤﯽ ﺗﻮﺍﻧﺴﺘﯿﻢ ﺑﺎ ﻣﺤﺎﺳﺒﻪ ﺭ ﯾﺎﺿﯽ ﺑﻪ ﺁﻥ ﺑﺮﺳﯿﻢ‪ .‬ﺍﺯﻧﻈﺮﺷﻬﻮﺩﯼ ﻫﺮﭼﻘﺪﺭﮐﻪ ﭘﯿﺸﺎﻣﺪﯼ ﮐﻪ ﺑﻮﻗﻮﻉ ﭘﯿﻮﺳﺘﻪ ﺍﺳﺖ ﻣﺤﺘﻤﻞ ﺗﺮ ﺑﻮﺩﻩ ﺑﺎﺷﺪ‬
‫ﺍﻃﻼﻋﯽ ﮐﻪ ﻣﺎﮐﺴﺐ ﮐﺮﺩﻩ ﺍﯾﻢ ﮐﻤﺘﺮ ﻭﻫﺮﭼﻘﺪﺭﮐﻪ ﺁﻥ ﭘﯿﺸﺎﻣﺪ ﺩﻭﺭﺍﺯﺍﻧﺘﻈﺎﺭﺑﻮﺩﻩ ﺑﺎﺷﺪ ﺗﻌﺠﺐ ﻣﺎﺍﺯ ﻭﻗﻮﻉ ﺁﻥ ﺑﯿﺸﺘﺮ ﻭ ﺍﻃﻼﻋﯽ ﮐﻪ ﻣﺎﮐﺴﺐ‬
‫ﮐﺮﺩﻩ ﺍﯾﻢ ﺑﯿﺸﺘﺮ ﺧﻮﺍﻫﺪ ﺑﻮﺩ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﮔﺮ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﺧﻮﺩﺍﺯ ﻭﻗﻮﻉ ﭘﯿﺸﺎﻣﺪ ‪ xi‬ﺭﺍ ﺑﺎ ‪ hi‬ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﮕﻮﯾﯿﻢ ﮐﻪ ‪ hi‬ﻣﯽ‬
‫ﺑﺎﯾﺴﺖ ﻧﺴﺒﺖ ﻣﻌﮑﻮﺱ ﺑﺎ ﺍﺣﺘﻤﺎﻝ ﻭﻗﻮﻉ ﺁﻥ ﭘﯿﺸﺎﻣﺪ ﯾﻌﻨﯽ ‪ pi‬ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ‪.‬‬
‫‪۲‬‬
‫ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﺁﺯﻣﺎﯾﺶ ﻣﺮﮐﺐ ﺍﺯ ﺩﻭﻭﺍﻗﻌﻪ ﻣﺴﺘﻘﻞ ) ‪ (X, Y‬ﺷﻮﺩ ﮐﻪ ﻧﺘﺎﯾﺞ ﻣﻤﮑﻦ ﺁﻥ ﺭﺍ ﺑﺎ ﺯ ﻭﺝ ﻫﺎﯼ = ‪{(xi , yj ), i‬‬
‫}‪ 1 · · · m, j = 1 · · · n‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﻫﺮﮔﺎﻩ ﺍﺣﺘﻤﺎﻝ ﻭﻗﻮﻉ ‪ xi‬ﺭﺍ ﺑﺎ ‪ pi‬ﻭﺍﺣﺘﻤﺎﻝ ﻭﻗﻮﻉ ‪ yj‬ﺭﺍ ﺑﺎ ‪ qj‬ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﺍﺣﺘﻤﺎﻝ ﻫﺮ ﭘﯿﺸﺎﻣﺪ‬
‫) ‪ (xi , yj‬ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ ‪ pi qj‬ﻭﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﯽ ﮐﻪ ﺍﺯ ﻭﻗﻮﻉ ﺍﯾﻦ ﭘﯿﺸﺎﻣﺪ ﮐﺴﺐ ﻣﯽ ﮐﻨﯿﻢ ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ ) ‪ .h(pi qj‬ﺍﻧﺘﻈﺎﺭﺩﺍﺭ ﯾﻢ‬
‫ﮐﻪ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﻣﺎ ﺩﺭﺍﯾﻦ ﻣﻮﺭﺩ ﮐﻪ ﺩﻭﭘﯿﺸﺎﻣﺪ ﻣﺴﺘﻘﻞ ‪ xi‬ﻭ ‪ yj‬ﺭﺥ ﺩﺍﺩﻩ ﺍﻧﺪ ﺑﺮﺍﺑﺮﺑﺎ ﻣﺠﻤﻮﻉ ﺍﻃﻼﻋﺎﺗﯽ ﺑﺎﺷﺪ ﮐﻪ ﺍﺯ ﻭﻗﻮﻉ ﭘﯿﺸﺎﻣﺪ ‪xi‬‬
‫ﺑﻪ ﺗﻨﻬﺎﯾﯽ ﻭ ‪ yj‬ﺑﻪ ﺗﻨﻬﺎﯾﯽ ﮐﺴﺐ ﻣﯽ ﮐﻨﯿﻢ ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﻧﺘﻈﺎﺭﺩﺍﺭ ﯾﻢ ﮐﻪ‬
‫‪h(pi qj ) = h(pi ) + h(qj ).‬‬ ‫)‪(۴‬‬
‫ﺗﻨﻬﺎﺗﺎﺑﻌﯽ ﮐﻪ ﺷﺮﻁ ﻓﻮﻕ ﺭﺍﺑﺮﺁﻭﺭﺩﻩ ﮐﻨﺪ ﻭ ﺿﻤﻨﺎً ﻧﺰ ﻭﻟﯽ ﺑﺎﺷﺪ‪ ،‬ﺗﺎﺑﻊ ﻟﮕﺎﺭ ﯾﺘﻢ ﺍﺳﺖ ﺑﻨﺎﺑﺮﺍﯾﻦ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬
‫‪1‬‬
‫‪h(pi ) = logα‬‬ ‫‪,‬‬ ‫)‪(۵‬‬
‫‪pi‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ‪ α‬ﺛﺎﺑﺖ ﺍﺳﺖ‪ .‬ﺛﺎﺑﺖ ‪ α‬ﺭﺍﻣﯽ ﺗﻮﺍﻥ ﺑﺎ ﺷﺮﻁ ﺑﻬﻨﺠﺎﺭﺵ ﺗﻌﯿﯿﻦ ﮐﺮﺩ‪ .‬ﻗﺮﺍﺭﻣﯽ ﻧﻬﯿﻢ ﮐﻪ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﮐﺴﺐ ﺷﺪﻩ ﻣﺎ ﺍﺯ ﻭﻗﻮﻉ‬
‫ﯾﮏ ﭘﺪﯾﺪﻩٔ ﺩﻭﺣﺎﻟﺘﻪ ﻣﺘﺴﺎﻭﯼ ﺍﻻﺣﺘﻤﺎﻝ ﺑﺮﺍﺑﺮﺑﺎﯾﮏ ﺑﺎﺷﺪ‪ ،‬ﯾﻌﻨﯽ ‪ .h(1/2) = 1‬ﺩﺭﻧﺘﯿﺠﻪ ﻣﯿﺰﺍﻥ ﺛﺎﺑﺖ ‪ α‬ﺑﺮﺍﺑﺮﻣﯽ ﺷﻮﺩ ﺑﺎ ‪.۲‬‬
‫ﺍﮔﺮ ﯾﮏ ﺁﺯﻣﺎﯾﺶ ‪ X‬ﺭﺍ ‪ N‬ﺑﺎﺭﺍﻧﺠﺎﻡ ﺩﻫﯿﻢ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ‪ N pi‬ﺑﺎﺭﻧﺘﯿﺠﻪ ‪ xi‬ﺭﺥ ﺧﻮﺍﻫﺪ ﺩﺍﺩ ﻭ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻉ ﻋﯽ ﮐﻪ ﺩﺭﻫﺮﺑﺎﺭﮐﺴﺐ‬
‫ﻣﯽ ﮐﻨﯿﻢ ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ ) ‪ .log2 ( p1i‬ﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﯽ ﮐﻪ ﻣﺎ ﺑﻪ ﻃﻮﺭﻣﺘﻮﺳﻂ ﺍﺯ ﻭﻗﻮﻉ ﻧﺘﺎﯾﺞ ﺁﺯﻣﺎﯾﺶ ﺗﺼﺎﺩﻓﯽ ‪ X‬ﮐﺴﺐ ﻣﯽ ﮐﻨﯿﻢ‬
‫ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ‪:‬‬
‫∑ ‪1‬‬ ‫∑‬
‫‪H(X) = −‬‬ ‫‪N p(x) log2 p(x) = −‬‬ ‫‪p(x) log2 p(x).‬‬ ‫)‪(۶‬‬
‫‪N x‬‬ ‫‪x‬‬
‫‪ p log‬ﺩﺭﻓﺎﺻﻠﻪ ]‪ p ∈ [0, 1‬ﯾﮏ ﺗﺎﺑﻊ ﻣﺜﺒﺖ ﺍﺳﺖ‬ ‫‪1‬‬

‫‪p‬‬ ‫ﺍﯾﻦ ﺗﺎﺑﻊ ‪ ،‬ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﯾﺎ ﺗﺎﺑﻊ ﺷﺎﻧﻮﻥ ﻧﯿﺰﺧﻮﺍﻧﺪﻩ ﻣﯽ ﺷﻮﺩ‪ .‬ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺗﺎﺑﻊ‬
‫ﺑﻨﺎﺑﺮﺍﯾﻦ )‪ H(X‬ﯾﮏ ﺗﺎﺑﻊ ﻣﺜﺒﺖ ﺍﺳﺖ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺑﺎ ﻣﺮﺍﺟﻌﻪ ﺑﻪ ﮔﻮﮔﻞ‪ ،‬ﻓﺮﮐﺎﻧﺲ ﺣﺮ ﻭﻑ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﭘﯿﺪﺍ ﮐﺮﺩﻩ ﻭ ﺳﭙﺲ ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﺭﺍ ﺑﺮﺍﯼ ﺁﻥ ﭘﯿﺪﺍ ﮐﻨﯿﺪ‪.‬‬
‫‪۳‬‬
‫ﺍﻃﻼﻋﺎﺕ ﺩﻭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ‬ ‫‪۲.۲‬‬
‫ﻫﺮﮔﺎﻩ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ) ‪ (X, Y‬ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ ﮐﻪ ﻟﺰ ﻭﻣﺎً ﺍﺯﻫﻢ ﻣﺴﺘﻘﻞ ﻧﺒﺎﺷﻨﺪ ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﯾﺎ ﺍﻃﻼﻋﺎﺕ ﺑﻪ ﻃﻮﺭﻃﺒﯿﻌﯽ ﺑﻪ ﺷﮑﻞ‬
‫ﺯﯾﺮﺗﻌﺮ ﯾﻒ ﻣﯽ ﺷﻮﺩ‪:‬‬
‫∑‬
‫‪H(X, Y ) := −‬‬ ‫)‪p(x, y) log2 p(x, y‬‬ ‫)‪(۷‬‬
‫‪x,y‬‬
‫ﺩﺭﺣﺎﻟﺘﯽ ﮐﻪ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ ﯾﻌﻨﯽ )‪ ،p(x, y) = p(x)q(y‬ﺭﺍﺑﻄﻪ ﺑﺎﻻﺑﺪﺳﺖ ﻣﯽ ﺩﻫﺪ ﮐﻪ ‪H(X, Y ) = H(X) +‬‬
‫) ‪.H(Y‬‬
‫ﺍﯾﻦ ﺗﻌﺮ ﯾﻒ ﺑﻪ ﻫﻤﯿﻦ ﺷﮑﻞ ﺑﻪ ﺑﯿﺶ ﺍﺯ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﺗﻌﻤﯿﻢ ﻣﯽ ﯾﺎﺑﺪ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎ ﮐﻪ ﺗﻌﺮ ﯾﻒ ﻣﯽ ﮐﻨﯿﻢ‪:‬‬
‫∑‬
‫‪H(X, Y, Z) = −‬‬ ‫‪p(x, y, z) log2 p(x, y, z).‬‬ ‫)‪(۸‬‬
‫‪x,y,z‬‬
‫ﺍﻃﻼﻋﺎﺕ ﺷﺮﻃﯽ‬ ‫‪۳.۲‬‬
‫ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X, Y‬ﮐﻪ ﺑﺎﺗﻮﺯﯾﻊ ﺁﻧﻬﺎﺑﺎ ﺗﺎﺑﻊ )‪ P (x, y‬ﻣﺸﺨﺺ ﻣﯽ ﺷﻮﺩ ﺩﺭﻧﻈﺮ ﻣﯽ ﮔﯿﺮ ﯾﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﻘﺪﺍﺭ ﯾﮑﯽ ﺍﺯ ﻣﺘﻐﯿﺮﻫﺎﯼ‬
‫ﺗﺼﺎﺩﻓﯽ ﻣﺜﻞ ‪ Y‬ﺭﺍ ﻣﯽ ﺩﺍﻧﯿﻢ ﻭ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ .y‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻮﺯﯾﻊ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﻋﻮﺽ ﺧﻮﺍﻫﺪ ﺷﺪ ﻭﺗﺒﺪﯾﻞ ﺧﻮﺍﻫﺪ‬
‫ﺷﺪ ﺑﻪ ﺗﻮﺯﯾﻊ )‪ P (X|y‬ﮐﻪ ﺩﺭﺁﻥ ‪ y‬ﯾﮏ ﭘﺎﺭﺍﻣﺘﺮﺍﺳﺖ ﻭ ‪ X‬ﻣﻘﺎﺩﯾﺮﻣﺘﻐﯿﺮ ﺭﺍ ﺑﺨﻮﺩ ﻣﯽ ﮔﯿﺮﺩ‪ .‬ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ‪:‬‬
‫)‪P (x, y‬‬ ‫∑‬

‫=‪P (x|y) :‬‬ ‫‪,‬‬ ‫‪p(x|y) = 1.‬‬ ‫)‪(۹‬‬
‫)‪p(y‬‬ ‫‪x‬‬
‫ﺩﺭﻧﺘﯿﺠﻪ ﺍﻃﻼﻋﺎﺕ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺩﺭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ‪:‬‬

‫∑‬
‫‪H(X|y) := −‬‬ ‫)‪P (x|y) log2 P (x|y‬‬ ‫)‪(۱۰‬‬
‫‪x‬‬
‫ﺍﮔﺮﺑﺨﻮﺍﻫﯿﻢ ﺑﺪﺍﻧﯿﻢ ﮐﻪ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺩﺍﻧﺴﺘﻦ ﯾﮏ ﻣﻘﺪﺍﺭ ﺍﺯ ‪ Y‬ﭼﻪ ﻣﻘﺪﺍﺭ ﺍﻃﻼﻋﺎﺕ ﺩﺭ ‪ X‬ﺑﺎﻗﯽ ﻣﯽ ﮔﺬﺍﺭﺩ ﺑﺎﯾﺪ ﺭ ﻭﯼ ) ‪H(X|yj‬‬
‫ﻣﺘﻮﺳﻂ ﺑﮕﯿﺮ ﯾﻢ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬

‫∑‬ ‫∑‬
‫) ‪H(X|Y‬‬ ‫=‬ ‫‪p(y)H(X|y) = −‬‬ ‫)‪P (y)P (x|y) log2 P (x|y‬‬
‫‪y‬‬ ‫‪x,y‬‬
‫‪۴‬‬
‫∑‬ ‫∑‬ ‫)‪P (x, y‬‬
‫‪= −‬‬ ‫‪P (x, y) log2 P (x|y) = −‬‬ ‫‪P (x, y) log2‬‬
‫‪x,y‬‬ ‫‪x,y‬‬
‫)‪P (y‬‬
‫‪= H(X, Y ) − H(Y ).‬‬ ‫)‪(۱۱‬‬
‫ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺑﻪ ﻫﻤﺎﻥ ﺩﻟﯿﻠﯽ ﮐﻪ ﺗﺎﺑﻊ )‪ H(X‬ﻣﺜﺒﺖ ﺍﺳﺖ ﺗﺎﺑﻊ )‪ H(X|y‬ﻭﺩﺭﻧﺘﯿﺠﻪ ﺗﺎﺑﻊ ) ‪ H(X|Y‬ﻧﯿﺰﻣﺜﺒﺖ ﺧﻮﺍﻫﻨﺪ ﺑﻮﺩ‪.‬‬
‫) ‪ H(X|Y‬ﺭﺍ ﺍﻃﻼﻋﺎﺕ ‪ X‬ﻣﺸﺮ ﻭﻁ ﺑﻪ ‪ Y‬ﻣﯽ ﺧﻮﺍﻧﯿﻢ ﻭ ﺍﯾﻦ ﮐﻤﯿﺖ ﺑﯿﺎﻥ ﮐﻨﻨﺪﻩ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﺎﺕ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺩﺭ‪ X‬ﺍﺳﺖ ﻫﺮﮔﺎﻩ ﻣﺎ ﻣﻘﺎﺩﯾﺮ‬
‫‪ Y‬ﺭﺍ ﺩﺍﻧﺴﺘﻪ ﺑﺎﺷﯿﻢ‪ .‬ﺑﺎﯾﺪ ﺗﻮﺟﻪ ﺩﺍﺷﺖ ﮐﻪ ﺍﯾﻦ ﺗﺎﺑﻊ ﻣﺘﻘﺎﺭﻥ ﻧﯿﺴﺖ ﯾﻌﻨﯽ )‪.H(X|Y ) ̸= H(Y |X‬‬
‫ﺍﺯ ﺭﺍﺑﻄﻪ )‪ (11‬ﺑﻪ ﻧﺘﯿﺠﻪ ﺯﯾﺮ ﻣﯽ ﺭﺳﯿﻢ‪:‬‬
‫‪H(X, Y ) = H(X|Y ) + H(Y ) = H(Y |X) + H(X).‬‬ ‫)‪(۱۲‬‬
‫ﺍﮔﺮ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X, Y‬ﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ ﺁﻧﮕﺎﻩ ﺩﺍﻧﺴﺘﻦ ‪ Y‬ﻫﯿﭻ ﺗﺎﺛﯿﺮﯼ ﺩﺭﺍﻃﻼﻋﺎﺕ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺩﺭ ‪ X‬ﻧﺨﻮﺍﻫﺪ ﺩﺍﺷﺖ ﻭ ﺩﺭﻧﺘﯿﺠﻪ‬
‫)‪ H(X|Y ) = H(X‬ﻭ ﺑﻨﺎﺑﺮ )‪. H(X, Y ) = H(X) + H(Y ) ،(12‬‬
‫ﺑﺎﻟﻌﮑﺲ ﻫﺮﮔﺎﻩ ‪ X‬ﻭ ‪ Y‬ﮐﺎﻣﻼً ﺑﻪ ﻫﻢ ﻭﺍﺑﺴﺘﻪ ﺑﺎﺷﻨﺪ ﺍﻧﺘﻈﺎﺭﺩﺍﺭ ﯾﻢ ﮐﻪ ﺩﺍﻧﺴﺘﻦ ‪ Y‬ﺑﺮﺍﯼ ﺩﺍﻧﺴﺘﻦ ‪ X‬ﻧﯿﺰﮐﻔﺎﯾﺖ ﮐﻨﺪ ﯾﻌﻨﯽ ﻫﯿﭻ ﺍﻃﻼﻋﯽ‬
‫ﺩﺭ‪ X‬ﺑﺎﻗﯽ ﻧﮕﺬﺍﺭﺩ ﯾﻌﻨﯽ ‪ H(X|Y ) = 0‬ﮐﻪ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺭﺍﺑﻄﻪ )‪ (12‬ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ) ‪ . H(X, Y ) = H(Y‬ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻧﯿﺰ ﻣﻌﻨﺎﯼ‬
‫ﺷﻬﻮﺩﯼ ﺭ ﻭﺷﻨﯽ ﺩﺍﺭﺩ‪.‬‬
‫ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ‬ ‫‪۴.۲‬‬
‫ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺩﺭﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﻭ ‪ Y‬ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺗﻌﺮ ﯾﻒ ﻣﯽ ﺷﻮﺩ‪:‬‬
‫‪I(X : Y ) := H(X) + H(Y ) − H(X, Y ).‬‬ ‫)‪(۱۳‬‬
‫ﺍﯾﻦ ﮐﻤﯿﺖ ﻧﺴﺒﺖ ﺑﻪ ﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﻭ ‪ Y‬ﻣﺘﻘﺎﺭﻥ ﺍﺳﺖ‪ .‬ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺭﺍﺑﻄﻪ )‪ (12‬ﻣﯽ ﺗﻮﺍﻥ ﺁﻥ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺑﺎﺯﻧﻮﯾﺴﯽ ﮐﺮﺩ‪:‬‬
‫‪I(X : Y ) := H(X) − H(X|Y ).‬‬ ‫)‪(۱۴‬‬
‫ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻣﻌﺮﻑ ﭼﻪ ﭼﯿﺰﯼ ﺍﺳﺖ ؟ ﻗﺒﻞ ﺍﺯﺁﻧﮑﻪ ﻣﻘﺪﺍﺭ ‪ Y‬ﺭﺍ ﺑﺪﺍﻧﯿﻢ‪ ،‬ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭ‪ X‬ﺑﺎ )‪ H(X‬ﺳﻨﺠﯿﺪﻩ ﻣﯽ ﺷﺪ‪ .‬ﺑﺎﺩﺍﻧﺴﺘﻦ‬
‫‪ Y‬ﺍﯾﻦ ﺍﻃﻼﻋﺎﺕ ﺑﻪ ) ‪ H(X|Y‬ﺗﻘﻠﯿﻞ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺗﻔﺎﻭﺕ ﺍﯾﻦ ﺩﻭ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﯽ ﺍﺳﺖ ﮐﻪ ‪ Y‬ﺩﺭﺑﺎﺭﻩ ‪ X‬ﺣﻤﻞ ﻣﯽ ﮐﻨﺪ‪.‬‬
‫‪۵‬‬
‫ﺑﻌﺪﺍً ﻧﺸﺎﻥ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺩ ﮐﻪ ) ‪ I(X : Y‬ﯾﮏ ﮐﻤﯿﺖ ﻧﺎﻣﻨﻔﯽ ﺍﺳﺖ‪.‬‬
‫‪ n‬ﻣﺜﺎﻝ‪ :‬ﻣﻨﺒﻊ‬
‫})‪X = {000(1/2), 111(1/2‬‬ ‫)‪(۱۵‬‬
‫ﺭﺍ ﮐﻪ ﺩﺭﺁﻥ ﺍﻋﺪﺍﺩ ﺩﺍﺧﻞ ﭘﺮﺍﻧﺘﺰ ﺍﺣﺘﻤﺎﻻﺕ ﺭﺷﺘﻪ ﻫﺎ ﺭﺍﻧﺸﺎﻥ ﻣﯽ ﺩﻫﻨﺪ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ‪ .‬ﺑﺮﺍﯼ ﺍﯾﻦ ﻣﻨﺒﻊ ﺩﺍﺭ ﯾﻢ ‪ H(X) = 1‬ﻣﯽ‬
‫ﺗﻮﺍﻧﯿﻢ ﺭﺷﺘﻪ ﺳﻮﺍﻻﺕ ﺧﻮﺩﺭﺍ ﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮﺗﻨﻈﯿﻢ ﮐﻨﯿﻢ‪:‬‬
‫‪ - ۱‬ﺁﯾﺎ ﻫﻤﻪ ﺍﻋﺪﺍﺩ ﺻﻔﺮ ﻫﺴﺘﻨﺪ؟‬
‫ﺩﺭﻫﺮﺩﻭﺻﻮﺭﺕ ﺟﻮﺍﺏ ﺁﺭﯼ ﯾﺎ ﺧﯿﺮ ﻣﺎ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩﻧﻈﺮﯼ ﮐﻪ ﺳﻮﺍﻝ ﮐﻨﻨﺪﻩ ﺩﺭﻧﻈﺮﮔﺮﻓﺘﻪ ﺍﺳﺖ ﭘﯽ ﻣﯽ ﺑﺮ ﯾﻢ‪ .‬ﯾﻌﻨﯽ ﯾﮏ ﺳﻮﺍﻝ‬
‫ﺑﺮﺍﯼ ﺭﺳﯿﺪﻥ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﮐﻔﺎﯾﺖ ﻣﯽ ﮐﻨﺪ‪.‬‬
‫ﺣﺎﻝ ﻣﻨﺒﻊ ﺯﯾﺮ ﺭﺍﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﺪ‪:‬‬
‫})‪X = {000(1/4), 111(1/4), 001(1/4), 110(1/4‬‬ ‫)‪(۱۶‬‬
‫ﺣﺎﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺳﻮﺍﻻﺕ ﺧﻮﺩ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺗﻨﻈﯿﻢ ﮐﻨﯿﻢ‪:‬‬
‫‪ - ۱‬ﺁﯾﺎ ﺍﮐﺜﺮ ﯾﺖ ﺑﯿﺖ ﻫﺎ ﺻﻔﺮﻫﺴﺘﻨﺪ؟‬
‫‪ - ۲‬ﺁﯾﺎ ﻫﻤﻪ ﺑﯿﺖ ﻫﺎ ﻣﺜﻞ ﻫﻢ ﻫﺴﺘﻨﺪ؟‬
‫‪۶‬‬
‫ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺎ ﺩﻭﺳﻮﺍﻝ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮﻣﯽ ﺭﺳﯿﻢ ﻭ )‪ H(X‬ﻧﯿﺰﺑﺮﺍﺑﺮﺑﺎ ‪ ۲‬ﺍﺳﺖ‪.‬‬
‫ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺍﺯ ﻗﺒﻞ ﮐﺴﯽ ﺑﻪ ﻣﺎ ﮔﻔﺘﻪ ﺍﺳﺖ ﮐﻪ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺍﯾﻦ ﺭﺷﺘﻪ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ 1‬ﺍﺳﺖ‪ .‬ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺩﺍﻧﯿﻢ‬
‫ﮐﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﯾﮑﯽ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎﯼ }‪ {001, 111‬ﺍﺳﺖ‪ .‬ﺍﮐﻨﻮﻥ ﺑﺎ ﺩﺍﻧﺴﺘﻦ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﮐﻪ ﺁﻥ ﺭﺍ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ‬
‫ﻣﺜﻞ ‪ Y‬ﺩﺭ ﻧﻈﺮ ﻣﯽ ﮔﯿﺮ ﯾﻢ‪ ،‬ﮐﺎﻓﯽ ﺍﺳﺖ ﮐﻪ ﺑﺎ ﭘﺮﺳﯿﺪﻥ ﺗﻨﻬﺎ ﯾﮏ ﺳﻮﺍﻝ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺩﺳﺖ ﭘﯿﺪﺍ ﮐﻨﯿﻢ‪ .‬ﺩﺭ ﻭﺍﻗﻊ ﺩﺍﺭ ﯾﻢ‬
‫‪H(X | 1) = 1,‬‬ ‫‪H(X | 0) = 1, −→ H(X|Y ) = 1.‬‬ ‫)‪(۱۷‬‬
‫ﯾﻌﻨﯽ ﻭﻗﺘﯽ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺗﻌﯿﯿﻦ ﻣﯽ ﺷﻮﺩ‪ ،‬ﺍﻃﻼﻋﺎﺕ ﻻﺯﻡ )ﺗﻌﺪﺍﺩ ﺳﻮﺍﻝ ﻫﺎﯼ ﻻﺯﻡ( ﺑﺮﺍﯼ ﺭﺳﯿﺪﻥ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺍﺯ ‪۲‬‬
‫ﺑﻪ ‪ ۱‬ﺗﻘﻠﯿﻞ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ‪ .‬ﺑﻪ ﺍﯾﻦ ﺩﻟﯿﻞ ﻣﯽ ﮔﻮﯾﯿﻢ ﮐﻪ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ � ‪ � ،‬ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ‬
‫‪I(X : Y ) = H(X) − H(X | Y ) = 2 − 1 = 1.‬‬ ‫)‪(۱۸‬‬
‫ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﺩﺍﻧﺴﺘﻦ ﯾﮏ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ﯾﮏ ﺑﯿﺖ ﺩﺭ ﻣﻮﺭﺩ ﮐﻞ ﺭﺷﺘﻪ ﺑﻪ ﻣﺎ ﺍﻃﻼﻉ ﺩﺍﺩﻩ ﺍﺳﺖ‪ .‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ‬
‫ﮐﻪ ﮐﺴﯽ ﺑﻪ ﻣﺎ ﺩﻭ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﺭﺍ ﺑﮕﻮﯾﺪ‪ .‬ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺑﯿﻨﯿﻢ ﮐﻪ ﮐﻞ ﺭﺷﺘﻪ ﺑﻪ ﻃﻮﺭ ﮐﺎﻣﻞ ﺗﻌﯿﯿﻦ ﻣﯽ ﺷﻮﺩ ﻭ ﺳﻮﺍﻟﯽ‬
‫ﺑﺮﺍﯼ ﭘﺮﺳﯿﺪﻥ ﺑﺎﻗﯽ ﻧﻤﯽ ﻣﺎﻧﺪ‪ .‬ﺩﺭ ﺍﯾﻦ ﺟﺎ ﺩﺍﺭ ﯾﻢ‪:‬‬
‫)‪(۱۹‬‬
‫‪H(X|00) = 0,‬‬ ‫‪H(X|01) = 0,‬‬ ‫‪H(X|10) = 0,‬‬ ‫‪H(X|11) = 0‬‬ ‫‪−→ H(X|Y ) = 0‬‬
‫ﺩﺭ ﻧﺘﯿﺠﻪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬
‫‪I(X : Y ) = H(X) − H(X | Y ) = 2 − 0 = 2.‬‬ ‫)‪(۲۰‬‬
‫ﺩﺭ ﺍﯾﻦ ﺟﺎ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺑﯿﻦ ﺩﻭ ﺭﻗﻢ ﺳﻤﺖ ﺭﺍﺳﺖ ﻭ ﮐﻞ ﺭﺷﺘﻪ ﺯﯾﺎﺩ ﻭ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ ۲‬ﺑﯿﺖ ﺍﺳﺖ‪.‬‬
‫‪۷‬‬
‫ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺗﻮﺍﺑﻊ ﺍﻃﻼﻋﺎﺕ‬ ‫‪۳‬‬
‫ﺩﺭﺍﯾﻦ ﺑﺨﺶ ﺧﻮﺍﺹ ﺭ ﯾﺎﺿﯽ ﺗﻮﺍﺑﻊ ﺍﻃﻼﻋﺎﺕ ﺭﺍ ﺑﺮ ﺭﺳﯽ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺗﻘﺮ ﯾﺒﺎً ﻫﻤﻪ ﺍﯾﻦ ﺧﻮﺍﺹ ﺍﺯ ﯾﮏ ﻗﻀﯿﻪ ﺳﺎﺩﻩ ﻭﻟﯽ ﻣﻬﻢ ﺑﺪﺳﺖ ﻣﯽ‬
‫ﺁﯾﻨﺪ‪.‬‬
‫‪ n‬ﻗﻀﯿﻪ ‪ :‬ﺗﺎﺑﻊ ﺍﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ﺩﺭ ﺭﺍﺑﻄﻪ ﺯﯾﺮ ﺻﺪﻕ ﻣﯽ ﮐﻨﺪ ﮐﻪ ﺩﺭ ﺁﻥ ‪ q‬ﻫﺮ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺩﻟﺨﻮﺍﻫﯽ ﺍ ﺳﺖ‪:‬‬
‫∑‬
‫‪H(X) ≤ −‬‬ ‫‪p(x) log2 q(x).‬‬ ‫)‪(۲۱‬‬
‫‪x‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ ﺩﻭ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﯾﮑﯽ ﺑﺎﺷﻨﺪ‪.‬‬
‫‪ n‬ﺍﺛﺒﺎﺕ‪ :‬ﺑﺎﺭﺳﻢ ﮐﺮﺩﻥ ﺗﺎﺑﻊ ﻟﮕﺎﺭ ﯾﺘﻢ ﻭ ﺗﺎﺑﻊ ‪ ،x − 1‬ﻣﯽ ﺗﻮﺍﻥ ﻧﺸﺎﻥ ﺩﺍﺩ ﮐﻪ ﺗﺎﺑﻊ ﻟﮕﺎﺭ ﯾﺘﻢ ﺩﺭﺧﺎﺻﯿﺖ ﺯﯾﺮﺻﺪﻕ ﻣﯽ ﮐﻨﺪ‪:‬‬
‫‪log x ln(x) − 1,‬‬ ‫)‪(۲۲‬‬
‫)‪q(x‬‬
‫= ‪ x‬ﻭ ﺩﺭﻧﺘﯿﺠﻪ‬ ‫)‪p(x‬‬ ‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﺑﺮﺍﯼ ‪ x = 1‬ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ‪ .‬ﺣﺎﻝ ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‬
‫)‪q(x) q(x‬‬
‫‪log‬‬ ‫‪ln‬‬ ‫‪− 1, ∀ x,‬‬ ‫)‪(۲۳‬‬
‫)‪p(x) p(x‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ )‪ .q(x) = p(x‬ﺩﺭﻧﺘﯿﺠﻪ‬
‫∑‬ ‫∑ )‪q(x‬‬ ‫∑‬

‫‪p(x) ln‬‬ ‫≤‬ ‫‪q(x) −‬‬ ‫‪p(x) = 0,‬‬ ‫)‪(۲۴‬‬
‫‪x‬‬
‫)‪p(x‬‬ ‫‪x‬‬ ‫‪x‬‬
‫ﮐﻪ ﻫﻤﺎﻥ ﻧﺎﻣﺴﺎﻭﯼ ﺍﯼ ﺍﺳﺖ ﮐﻪ ﻣﯽ ﺧﻮﺍﺳﺘﯿﻢ ﺛﺎﺑﺖ ﮐﻨﯿﻢ‪ .‬ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﻧﺎﻣﺴﺎﻭﯼ )‪ (۲۲‬ﻓﻘﻂ ﺑﺮﺍﯼ )‪ ln(x‬ﺩﺭﺳﺖ ﺍﺳﺖ ﻭ‬
‫ﻧﻪ ﺑﺮﺍﯼ ﻟﮕﺎﺭ ﯾﺘﻢ ﺩﺭ ﭘﺎﯾﻪ ‪ .۲‬ﻭﻟﯽ ﭘﺲ ﺍﺯ ﺑﺪﺳﺖ ﺁﻭﺭﺩﻥ ﺭﺍﺑﻄﻪ )‪ (۲۴‬ﻣﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻃﺮﻓﯿﻦ ﺁﻥ ﺭﺍ ﺩﺭ ﻫﺮ ﻋﺪﺩﯼ ﺿﺮﺏ ﮐﻨﯿﻢ ﻭ‬
‫ﺭﺍﺑﻄﻪ ﺍﯼ ﺑﺪﺳﺖ ﺁﻭﺭ ﯾﻢ ﮐﻪ ﺩﺭ ﻫﺮ ﭘﺎﯾﻪ ﺍﯼ ﺑﺮﺍﯼ ﻟﮕﺎﺭ ﯾﺘﻢ ﺻﺤﯿﺢ ﺍﺳﺖ‪ .‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ‬
‫∑‬ ‫)‪q(x‬‬
‫‪p(x) log‬‬ ‫‪= 0.‬‬ ‫)‪(۲۵‬‬
‫‪x‬‬
‫)‪p(x‬‬
‫‪۸‬‬
‫ﺍﯾﻦ ﺗﺴﺎﻭﯼ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺑﺎﺯﻧﻮﯾﺴﯽ ﻣﯽ ﮐﻨﯿﻢ‬
‫∑‬ ‫)‪q(x‬‬ ‫)‪q(x‬‬

‫‪p(x)(log‬‬ ‫(‪−‬‬ ‫‪− 1)) = 0.‬‬ ‫)‪(۲۶‬‬
‫‪x‬‬
‫)‪p(x‬‬ ‫)‪p(x‬‬
‫ﺣﺎﻝ ﺩﻗﺖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺑﻨﺎﺑﺮﻧﺎﻣﺴﺎﻭﯼ )‪ (23‬ﺟﻤﻼﺕ ﺩﺍﺧﻞ ﭘﺮﺍﻧﺘﺰ ﻫﻤﮕﯽ ﮐﻮﭼﮏ ﺗﺮﺍﺯ ﯾﺎ ﻣﺴﺎﻭﯼ ﺑﺎﺻﻔﺮ ﻫﺴﺘﻨﺪ‪ .‬ﺻﻔﺮﺷﺪﻥ‬
‫ﺍﯾﻦ ﺟﻤﻊ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﻫﻤﻪ ﺍﯾﻦ ﺟﻤﻼﺕ ﺑﺮﺍﺑﺮﺑﺎﺻﻔﺮﻫﺴﺘﻨﺪ ﮐﻪ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﻧﺎﻣﺴﺎﻭﯼ )‪ (22‬ﺑﻪ ﻣﻌﻨﺎﯼ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺑﺮﺍﯼ‬
‫ﻫﻤﻪ ‪ i‬ﻫﺎ )‪ .q(x) = p(x‬ﯾﻌﻨﯽ ﺩﻭﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﯾﮑﯽ ﻫﺴﺘﻨﺪ‪.‬‬
‫‪∑M‬‬
‫= ‪ H‬ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ log M‬ﻭﺍﯾﻦ ﻣﻘﺪﺍﺭﺑﯿﺸﯿﻨﻪ ﻓﻘﻂ ﺑﺮﺍﯼ ﺗﻮﺯﯾﻊ‬ ‫‪x=1‬‬ ‫‪p(x) log‬‬ ‫‪1‬‬
‫)‪p(x‬‬ ‫‪ n‬ﻧﺘﯿﺠﻪ ‪ : ۱‬ﻣﻘﺪﺍﺭ ﺑﯿﺸﯿﻨﻪ ﺗﺎﺑﻊ ﺍﻃﻼﻋﺎﺕ‬
‫= )‪ {p(x‬ﺑﺮﻗﺮﺍﺭ ﻣﯽ ﺷﻮﺩ‬ ‫}‪M‬‬

‫‪1‬‬
‫ﯾﮑﻨﻮﺍﺧﺖ‬
‫= )‪ . q(x‬ﺩﺭﻧﺘﯿﺠﻪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ ‪:‬‬ ‫‪1‬‬

‫‪M‬‬ ‫‪ n‬ﺍﺛﺒﺎﺕ‪ :‬ﺩﺭﻗﻀﯿﻪ ﻗﺒﻠﯽ ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‬
‫∑‬
‫‪M‬‬ ‫‪1‬‬
‫‪p(x) log‬‬ ‫‪M‬‬
‫‪= H − log M ≤ 0,‬‬ ‫)‪(۲۷‬‬
‫‪x=1‬‬
‫‪px‬‬
‫‪1‬‬
‫= )‪.p(x‬‬ ‫‪M‬‬ ‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ‬
‫‪ n‬ﻧﺘﯿﺠﻪ ‪ : ۲‬ﺑﺮﺍﯼ ﺩﻭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X, Y‬ﻧﺎﻣﺴﺎﻭﯼ ﺯﯾﺮﺑﺮﻗﺮﺍﺭﺍﺳﺖ‬
‫‪H(X, Y ) ≤ H(X) + H(Y ),‬‬ ‫)‪(۲۸‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ ‪ X, Y‬ﻣﺘﻐﯿﺮﻫﺎﯼ ﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ‪.‬‬
‫‪ n‬ﺍﺛﺒﺎﺕ ‪ :‬ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺩﻭﻣﺘﻐﯿﺮ ﺭﺍ ﺑﺎ )‪ p(x, y‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺩﺭﻧﺘﯿﺠﻪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬
‫∑‬ ‫∑‬
‫=‪p1 (x) :‬‬ ‫‪p(x, y),‬‬ ‫=‪p2 (y) :‬‬ ‫‪p(x, y).‬‬ ‫)‪(۲۹‬‬
‫‪y‬‬ ‫‪x‬‬
‫‪۹‬‬
‫ﺣﺎﻝ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ )‪ q(x, y) := p1 (x)p2 (y‬ﺭﺍﺩﺭﻧﻈﺮﻣﯽ ﮔﯿﺮ ﯾﻢ ﻭﺍﺯ ﻗﻀﯿﻪ ﺍﯼ ﮐﻪ ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ ‪:‬‬
‫∑‬ ‫)‪q(x, y‬‬

‫‪p(x, y) log‬‬ ‫‪≤0‬‬ ‫)‪(۳۰‬‬
‫‪x,y‬‬
‫)‪p(x, y‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ )‪ .p(x, y) = q(x, y) = p1 (x)p2 (y‬ﺍﻣﺎ ﻧﺎﻣﺴﺎﻭﯼ ﺑﺎﻻ ﺭﺍﻭﻗﺘﯽ ﺑﺎﺯﻧﻮﯾﺴﯽ ﮐﻨﯿﻢ‬
‫ﭼﯿﺰﯼ ﻧﯿﺴﺖ ﺟﺰ‬
‫‪H(X, Y ) ≤ H(X) + H(Y ),‬‬ ‫)‪(۳۱‬‬
‫ﮐﻪ ﻣﯽ ﺗﻮﺍﻥ ﺁﻥ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﻧﯿﺰ ﻧﻮﺷﺖ‪:‬‬
‫‪H(X|Y ) ≤ H(X).‬‬ ‫)‪(۳۲‬‬
‫ﺍﯾﻦ ﻧﺎﻣﺴﺎﻭﯼ ﺩﺭ ﻭﺍﻗﻊ ﺑﯿﺎﻥ ﻣﯽ ﮐﻨﺪ ﮐﻪ ﺩﺍﻧﺴﺘﻦ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺩﯾﮕﺮ ﻣﺜﻞ ‪ Y‬ﻫﻤﻮﺍﺭﻩ ﺍﺯ ﺍﻧﺘﺮ ﻭﭘﯽ ﻣﻮﺟﻮﺩ ﺩﺭ ﻣﺘﻐﯿﺮ ‪ X‬ﮐﻢ ﻣﯽ ﮐﻨﺪ‬
‫) ﭼﯿﺰﯼ ﺩﺭ ﺑﺎﺭﻩ ﺁﻥ ﺑﻪ ﻣﺎ ﻣﯽ ﮔﻮﯾﺪ ﻭ ﺍﻃﻼﻋﺎﺕ ﻣﺎ ﺭﺍ ﺁﻓﺰﺍﯾﺶ ﻣﯽ ﺩﻫﺪ(‪ .‬ﺍﮔﺮ ﺑﺨﻮﺍﻫﯿﻢ ﺍﺯ ﺯﺑﺎﻥ ﺯﻧﺪﮔﯽ ﺭ ﻭﺯﻣﺮﻩ ﮐﻤﮏ ﺑﮕﯿﺮ ﯾﻢ ﻣﯽ‬
‫ﺗﻮﺍﻧﯿﻢ ﺑﮕﻮﯾﯿﻢ ﮐﻪ ﻣﻌﻨﺎﯼ ﻧﺎﻣﺴﺎﻭﯼ )‪ (۳۱‬ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ‪ :‬ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭﺟﻤﻠﻪ » ﻓﺮﺩﺍ ﻫﻮﺍﺍﺑﺮﯼ ﺍﺳﺖ ﻭﺑﺎﺭﺍﻥ ﻣﯽ‬
‫ﺑﺎﺭﺩ« ﮐﻤﺘﺮﺍﺯﻣﺠﻤﻮﻉ ﺍﻃﻼﻋﺎﺗﯽ ﺍﺳﺖ ﮐﻪ ﺩﺭﺩﻭﺟﻤﻠﻪ » ﻓﺮﺩﺍﻫﻮﺍ ﺍﺑﺮﯼ ﺍﺳﺖ« ﻭ » ﻓﺮﺩﺍ ﻫﻮﺍﺑﺎﺭﺍﻧﯽ ﺍﺳﺖ « ﻣﯽ ﺑﺎﺷﺪ‪ .‬ﺩﻟﯿﻞ ﺍﯾﻦ ﺍﻣﺮ ﺁﻥ‬
‫ﺍﺳﺖ ﮐﻪ ﻣﻌﻤﻮﻻً ﺑﯿﻦ ﺍﺑﺮﯼ ﺑﻮﺩﻥ ﻫﻮﺍ ﻭ ﺑﺎﺭﺍﻧﯽ ﺑﻮﺩﻥ ﺁﻥ ﯾﮏ ﻫﻤﺒﺴﺘﮕﯽ ﻭﺟﻮﺩ ﺩﺍﺭﺩ ﮐﻪ ﺑﻪ ﻣﺎ ﺍﺟﺎﺯﻩ ﻣﯽ ﺩﻫﺪ ﺍﺯ ﺍﻭﻟﯽ ﺑﺘﻮﺍﻧﯿﻢ ﻭﺟﻮﺩ‬
‫ﺩﻭﻣﯽ ﺭﺍ ﺣﺪﺱ ﺑﺰﻧﯿﻢ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﮐﺴﯽ ﮐﻪ ﻫﺮ ﺩﻭ ﺟﻤﻠﻪ ﺭﺍ ﺑﻪ ﻣﺎ ﻣﯽ ﮔﻮﯾﺪ ﺩﻭﺑﺮﺍﺑﺮﮐﺴﯽ ﮐﻪ ﻓﻘﻂ ﯾﮑﯽ ﺍﺯﺟﻤﻼﺕ ﺭﺍ ﺑﻪ ﻣﺎ ﻣﯽ ﮔﻮﯾﺪ ﺑﻪ‬
‫ﻣﺎ ﺍﻃﻼﻉ ﻧﻤﯽ ﺩﻫﺪ‪ .‬ﺍﯾﻦ ﻣﺜﺎﻝ ﻃﺒﯿﻌﺘﺎ ﯾﮏ ﻣﺜﺎﻝ ﮐﻼﻣﯽ ﺍﺳﺖ ﻭ ﮐﻤﯽ ﻧﯿﺴﺖ‪.‬‬
‫‪ n‬ﻧﺘﯿﺠﻪ‪ :۳‬ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﯾﮏ ﮐﻤﯿﺖ ﻧﺎﻣﻨﻔﯽ ﺍﺳﺖ‪ .‬ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﺍﺯﺗﻌﺮ ﯾﻒ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﻭ ﻧﺘﯿﺠﻪ ‪ ۲‬ﺑﺪﺳﺖ ﻣﯽ ﺁﯾﺪ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺍﺣﺘﻤﺎﻻﺕ ﻧﺴﺒﯽ ﺩﻭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﻣﻄﺎﺑﻖ ﺑﺎ ﺟﺪﻭﻝ ﺯﯾﺮ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ‪ :‬ﻣﻨﻈﻮﺭ ﺍﺯ ﺍﺣﺘﻤﺎﻝ ﻧﺴﺒﯽ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺑﺮﺍﯼ‬
‫ﺑﺪﺳﺖ ﺁﻭﺭﺩﻥ ﺍﺣﺘﻤﺎﻝ ﻣﯽ ﺑﺎﯾﺴﺖ ﺍﻋﺪﺍﺩ ﺩﺭ ﻭﻥ ﺟﺪﻭﻝ ﺭﺍ ﺑﻬﻨﺠﺎﺭ ﮐﻨﯿﺪ ﻃﻮﺭﯼ ﮐﻪ ﻣﺠﻤﻮﻉ ﺗﻤﺎﻡ ﺍﺣﺘﻤﺎﻻﺕ ﺑﺮﺍﺑﺮ ﺑﺎ ﯾﮏ ﺷﻮﺩ‪.‬‬
‫‪۱۰‬‬
‫)‪p(x, y‬‬ ‫‪y1‬‬ ‫‪y2‬‬ ‫‪y3‬‬ ‫‪y4‬‬ ‫‪y5‬‬ ‫‪y6‬‬
‫‪x1‬‬ ‫‪2‬‬ ‫‪0‬‬ ‫‪5‬‬ ‫‪2‬‬ ‫‪4‬‬ ‫‪2‬‬
‫‪x2‬‬ ‫‪0‬‬ ‫‪3‬‬ ‫‪6‬‬ ‫‪0‬‬ ‫‪1‬‬ ‫‪5‬‬
‫‪x3‬‬ ‫‪9‬‬ ‫‪4‬‬ ‫‪0‬‬ ‫‪0‬‬ ‫‪3‬‬ ‫‪0‬‬
‫‪x4‬‬ ‫‪3‬‬ ‫‪1‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪7‬‬ ‫‪1‬‬
‫‪x5‬‬ ‫‪0‬‬ ‫‪2‬‬ ‫‪0‬‬ ‫‪2‬‬ ‫‪1‬‬ ‫‪3‬‬
‫‪x6‬‬ ‫‪0‬‬ ‫‪7‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪5‬‬ ‫‪0‬‬
‫ﺍﻟﻒ‪ :‬ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ) ‪ H(X, Y‬ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪.‬‬
‫ﺏ ‪ :‬ﺗﺎﺑﻊ ﻫﺎﯼ ﺁﻧﺘﺮ ﻭﭘﯽ )‪ H(X|Y ) ،H(Y )، H(X‬ﻭ )‪ H(Y |X‬ﺭﺍ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻣﺜﺎﻟﯽ ﺍﺯ ﯾﮏ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ )‪ P (x, y‬ﺍﺭﺍﺋﻪ ﺩﻫﯿﺪ ﮐﻪ ﺑﺮﺍﯼ ﺑﻌﻀﯽ ﺍﺯ ﻣﻘﺎﺩﯾﺮ ﻣﺘﻐﯿﺮﻫﺎ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ‪P (x | y) ≤ :‬‬
‫)‪ P (x‬ﻭ ﺑﺮﺍﯼ ﺑﻌﻀﯽ ﺩﯾﮕﺮ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ ‪P (x | y) ≥ P (x).‬‬
‫‪ n‬ﻗﻀﯿﻪ ‪:‬ﺍﻃﻼﻋﺎﺕ ﺗﺎﺑﻊ ﻣﺤﺪﺑﯽ ﺍﺯ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺍﺳﺖ‪ .‬ﺑﻪ ﻋﺒﺎﺭﺕ ﺩﯾﮕﺮ ﺍﮔﺮ ‪ P1‬ﻭ ‪ P2‬ﺩﻭﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﻭ = )‪P0 (x‬‬
‫)‪ λP1 (x) + (1 − λ)P2 (x‬ﺗﺮﮐﯿﺐ ﺧﻄﯽ ﻣﺤﺪﺏ ﺁﻧﻬﺎ ﺑﺎﺷﺪ ﺁﻧﮕﺎﻩ‬
‫‪H0 (X) ≥ λH1 (X) + (1 − λ)H2 (X).‬‬ ‫)‪(۳۳‬‬
‫ﺑﻪ ﺍﺻﻄﻼﺡ ﻣﯽ ﮔﻮﯾﯿﻢ ﮐﻪ ﺍﻃﻼﻋﺎﺕ ﯾﮏ ﺗﺎﺑﻊ ﻣﺤﺪﺏ ﺭ ﻭﺑﻪ ﭘﺎﯾﯿﻦ ﺍﺳﺖ ﮐﻪ ﺑﻪ ﯾﺎﺩﻣﺎﻧﺪﻥ ﺷﮑﻞ ﺁﻥ ﺭﺍ ﻧﯿﺰﺩﺭﺫﻫﻦ ﺁﺳﺎﻥ ﻣﯽ‬
‫ﮐﻨﺪ‪.‬‬
‫‪ n‬ﺍﺛﺒﺎﺕ ‪ :‬ﺑﺎﺯﻫﻢ ﺍﺯﻧﺎﻣﺴﺎﻭﯼ ﺍﺳﺎﺳﯽ ﺍﯼ ﮐﻪ ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺑﺎﮐﻤﯽ ﺧﻼﺻﻪ ﻧﻮﯾﺴﯽ ﺩﺭﻧﻤﺎﺩﻫﺎ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬
‫‪H0 − λH1 − (1 − λ)H2‬‬
‫‪۱۱‬‬
‫∑‬ ‫‪1‬‬ ‫∑‬ ‫‪1‬‬ ‫∑‬ ‫‪1‬‬
‫=‬ ‫‪p0 log‬‬ ‫‪−λ‬‬ ‫‪p1 log‬‬ ‫)‪− (1 − λ‬‬ ‫‪p2 log‬‬
‫‪p0‬‬ ‫‪p1‬‬ ‫‪p2‬‬
‫∑‬ ‫‪1‬‬ ‫∑‬ ‫‪1‬‬ ‫∑‬ ‫‪1‬‬

‫=‬ ‫‪(λp1 + (1 − λ)p2 ) log‬‬ ‫‪−λ‬‬ ‫‪p1 log‬‬ ‫)‪− (1 − λ‬‬ ‫‪p2 log‬‬
‫‪λp1 + (1 − λ)p2‬‬ ‫‪p1‬‬ ‫‪p2‬‬
‫∑‬ ‫‪p1‬‬ ‫∑‬ ‫‪p2‬‬

‫‪= λ‬‬ ‫‪p1 log‬‬ ‫)‪+ (1 − λ‬‬ ‫‪p2 log‬‬ ‫‪≥ 0,‬‬ ‫)‪(۳۴‬‬
‫‪λp1 + (1 − λ)p2‬‬ ‫‪λp1 + (1 − λ)p2‬‬
‫ﮐﻪ ﺩﺭﺧﻂ ﺁﺧﺮ ﺍﺯﻧﺎﻣﺴﺎﻭﯼ ﺍﺳﺎﺳﯽ ﺍﺳﺘﻔﺎﺩﻩ ﮐﺮﺩﻩ ﺍﯾﻢ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺑﺮﺍﯼ ﯾﮏ ﺳﮑﻪ ﮐﻪ ﺩﻭ ﺭ ﻭﯼ ﺁﻥ ﺑﺎ ﺍﻋﺪﺍﺩ ‪ 0‬ﻭ ‪ 1‬ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﻣﯽ ﺷﻮﻧﺪ‪ ،‬ﺩﻭ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﺩﺭ ﻧﻈﺮ‬
‫ﺑﮕﯿﺮ ﯾﺪ‪:‬‬
‫‪{P (0) = 1/2, P (1) = 1/2},‬‬ ‫‪, {Q(0) = 1/3, Q(1) = 2/3}.‬‬ ‫)‪(۳۵‬‬
‫ﺣﺎﻝ ﺩﺭﺳﺘﯽ ﺭﺍﺑﻄﻪ ﺗﺤﺪﺏ ﺭﺍ ﺑﺮﺍﯼ ﺁﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ﺗﺤﻘﯿﻖ ﮐﻨﯿﺪ‪.‬‬
‫‪ ۱.۳‬ﺗﻌﺮ ﯾﻒ ﮐﺎﻧﺎﻝ ﮐﻼﺳﯿﮏ‬
‫ﻣﻨﻈﻮﺭﺍﺯ ﯾﮏ ﮐﺎﻧﺎﻝ ﮐﻼﺳﯿﮏ ﻋﻤﻠﮕﺮﯼ ﺍﺳﺖ ﮐﻪ ﯾﮏ ﺁﻧﺰﺍﻣﺒﻞ ﺗﺼﺎﺩﻓﯽ ‪ X‬ﺭﺍ ﺑﻪ ﺁﻧﺰﺍﻣﺒﻞ ﺗﺼﺎﺩﻓﯽ ‪ Y‬ﺗﺒﺪﯾﻞ ﻣﯽ ﮐﻨﺪ‪ .‬ﺑﻬﺘﺮ ﯾﻦ ﻣﺜﺎﻝ‬
‫ﺁﻥ ﻫﺮﻧﻮﻉ ﮐﺎﻧﺎﻝ ﻣﺨﺎﺑﺮﺍﺗﯽ ﮐﻼﺳﯿﮏ ﺍﺳﺖ‪ X .‬ﺭﺍ ﻭﺭ ﻭﺩﯼ ﮐﺎﻧﺎﻝ ﻭ ‪ Y‬ﺭﺍﺧﺮ ﻭﺟﯽ ﺁﻥ ﻣﯽ ﻧﺎﻣﯿﻢ‪ .‬ﯾﮏ ﮐﺎﻧﺎﻝ ﺑﺪﻭﻥ ﻧﻮﻓﻪ ﮐﺎﻧﺎﻟﯽ ﺍﺳﺖ‬
‫ﮐﻪ ﺧﺮ ﻭﺟﯽ ﺁﻥ ﺩﻗﯿﻘﺎً ﺑﺎﻭﺭ ﻭﺩﯼ ﺁﻥ ﺑﺮﺍﺑﺮﺍﺳﺖ‪ .‬ﺑﺠﺰﺍﯾﻦ ﮐﺎﻧﺎﻝ ﺍﯾﺪﻩ ﺁﻝ ﻫﺮﮐﺎﻧﺎﻝ ﺩﯾﮕﺮﯼ ﻋﻼﺋﻢ ﻭﺭ ﻭﺩﯼ ‪ xi ∈ X‬ﺭﺍ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ ﻣﻌﯿﻦ‬
‫ِ ) ‪ P (yj |xi‬ﺑﻪ ﻋﻼﺋﻢ ﺧﺮ ﻭﺟﯽ ‪ yj ∈ Y‬ﺗﺒﺪﯾﻞ ﻣﯽ ﮐﻨﺪ‪ .‬ﻫﺮﮔﺎﻩﺩﺭﺧﺮ ﻭﺟﯽ ﮐﺎﻧﺎﻝ ﻋﻼﻣﺖ ‪ yj‬ﺭﺍﺩﺭ ﯾﺎﻓﺖ ﮐﻨﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺣﺘﻤﺎﻝ ﺷﺮﻃﯽ‬
‫ﺍﯾﻦ ﮐﻪ ﭼﻪ ﻋﻼﻣﺖ ‪ xi‬ﺍﯼ ﻣﻨﺠﺮﺑﻪ ﺍﯾﻦ ﻋﻼﻣﺖ ﺩﺭﺧﺮ ﻭﺟﯽ ﺷﺪﻩ ﺍﺳﺖ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﻢ‪ .‬ﺩﺭ ﻭﺍﻗﻊ ﺩﺍﺭ ﯾﻢ‪:‬‬
‫) ‪P (xi , yj‬‬ ‫) ‪P (yj , xi‬‬

‫= ) ‪P (xi |yj‬‬ ‫∑=‬
‫) ‪P (yj‬‬ ‫) ‪xi P (yj , xi‬‬
‫) ‪P (yj |xi )P (xi‬‬
‫=‬ ‫∑‬ ‫)‪(۳۶‬‬
‫)) ‪xi P (yj |xi )P (xi‬‬
‫‪۱۲‬‬
‫ﺩﺭﺁﺧﺮ ﯾﻦ ﻋﺒﺎﺭﺕ ) ‪ P (xi‬ﻣﺸﺨﺼﻪ ﻣﻨﺒﻊ ‪ X‬ﻭ ) ‪ P (yj |xi‬ﻣﺸﺨﺼﻪ ﮐﺎﻧﺎﻝ ﺍﺳﺖ ﻭﻫﺮﺩﻭﻣﻌﻠﻮﻡ ﻫﺴﺘﻨﺪ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﯾﮏ ﮐﺎﻧﺎﻝ ﮐﻼﺳﯿﮏ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﺷﺮﻃﯽ ﺯﯾﺮ ﺗﻮﺻﯿﻒ ﻣﯽ ﺷﻮﺩ‪:‬‬
‫‪P (0|0) = 1 − p,‬‬ ‫‪P (1|1) = 1 − q.‬‬ ‫)‪(۳۷‬‬
‫ﻫﺮﮔﺎﻩ ﺁﻧﺰﺍﻣﺒﻞ ﻭﺭ ﻭﺩﯼ ﺑﻪ ﺻﻮﺭﺕ‬
‫‪X = {P (0) = a, P (1) = 1 − a},‬‬ ‫)‪(۳۸‬‬
‫ﺁﻧﺰﺍﻣﺒﻞ ﺧﺮ ﻭﺟﯽ ﺭﺍ ﭘﯿﺪﺍ ﮐﻨﯿﺪ‪ .‬ﺳﭙﺲ ﮐﻤﯿﺖ ﻫﺎﯼ ﺯﯾﺮ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪:‬‬
‫‪H(X),‬‬ ‫‪H(Y ),‬‬ ‫‪H(X|Y ),‬‬ ‫‪H(Y |X),‬‬ ‫‪I(Y : X),‬‬ ‫‪I(X : Y ).‬‬ ‫)‪(۳۹‬‬
‫‪ n‬ﻗﻀﯿﻪ‪ :‬ﺍﻃﻼﻋﺎﺕ ﭘﺮﺩﺍﺯﺵ ﺷﺪﻩ ﺩﺭ ﯾﮏ ﮐﺎﻧﺎﻝ ) ‪ I(X; Y‬ﺗﺎﺑﻊ ﻣﺤﺪﺑﯽ ﺍﺯ ﺍﺣﺘﻤﺎﻻﺕ ﻭﺭ ﻭﺩﯼ ِ ‪ X‬ﺍﺳﺖ‪.‬‬
‫ﺩﺭ ﯾﮏ ﮐﺎﻧﺎﻝ ﺁﻧﺰﺍﻣﺒﻞ ﻭﺭ ﻭﺩﯼ ﺭﺍ ﺑﺎ ‪ X‬ﻭﺁﻧﺰﺍﻣﺒﻞ ﺧﺮ ﻭﺟﯽ ﺭﺍ ﺑﺎ ‪ Y‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺍﺣﺘﻤﺎﻻﺕ ﺷﺮﻃﯽ )‪ P (y|x‬ﺩﺭ ﻭﺍﻗﻊ‬
‫ﻣﺸﺨﺼﻪ ﮐﺎﻧﺎﻝ ﻫﺴﺘﻨﺪ ﻭ ﺍﺣﺘﻤﺎﻝ ﺗﺒﺪﯾﻞ ﭘﯿﺎﻡ ‪ x‬ﺑﻪ ‪ y‬ﺭﺍ ﺩﺭﻃﻮﻝ ﮐﺎﻧﺎﻝ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﻨﺪ ﻭﺭﺑﻄﯽ ﺑﻪ ﺍﺣﺘﻤﺎﻝ ﭘﯿﺎﻡ ﻫﺎﯼ ﻭﺭ ﻭﺩﯼ‬
‫ﻧﺪﺍﺭﻧﺪ‪ .‬ﺣﺎﻝ ﻫﺮﮔﺎﻩ ﺑﺮﺍﯼ ﺁﻧﺰﺍﻣﺒﻞ ﻭﺭ ﻭﺩﯼ ﺩﻭ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ )‪ P1 (x‬ﻭ )‪ P2 (x‬ﻭ ﺟﻤﻊ ﻣﺤﺪﺏ ﺁﻧﻬﺎ ﯾﻌﻨﯽ = )‪P0 (x‬‬
‫)‪ λP1 (x) + (1 − λ)P2 (x‬ﺭﺍ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﻢ ﺁﻧﮕﺎﻩ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺗﻌﺎﺭ ﯾﻒ ﺯﯾﺮ‪:‬‬
‫∑‬
‫= )‪P (y‬‬ ‫‪P (y|x)P (x),‬‬
‫‪x‬‬
‫= )‪P (x, y‬‬ ‫‪P (y|x)P (x),‬‬ ‫)‪(۴۰‬‬
‫ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‬
‫= )‪P0 (x, y‬‬ ‫)‪λP1 (x, y) + (1 − λ)P2 (x, y‬‬
‫= )‪P0 (y‬‬ ‫‪λP1 (y) + (1 − λ)P2 (y).‬‬ ‫)‪(۴۱‬‬
‫ﺑﺎﺗﺮﮐﯿﺐ ﺍﯾﻦ ﺭ ﻭﺍﺑﻂ ﺑﺎ ﺗﻌﺮ ﯾﻒ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﻭ ﻫﻢ ﭼﻨﯿﻦ ﻣﺤﺪﺏ ﺑﻮﺩﻥ ﺗﺎﺑﻊ ﺍﻃﻼﻋﺎﺕ ﺍﺛﺒﺎﺕ ﻗﻀﯿﻪ ﮐﺎﻣﻞ ﻣﯽ ﺷﻮﺩ‪.‬‬
‫‪۱۳‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺍﯾﻦ ﺍﺛﺒﺎﺕ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﮐﺎﻣﻞ ﺑﻨﻮﯾﺴﯿﺪ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﯾﮏ ﮐﺎﻧﺎﻝ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ ﮐﻪ ﺑﻪ ﺻﻮﺭﺕ ﺯﯾﺮ ﻋﻤﻞ ﻣﯽ ﮐﻨﺪ‪:‬‬
‫‪P (0|0) = 1 − p,‬‬ ‫‪P (1|1) = 1 − q.‬‬ ‫)‪(۴۲‬‬
‫ﺁﻧﺰﺍﻣﺒﻞ ﻫﺎﯼ ﻭﺭ ﻭﺩﯼ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﺯﯾﺮ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ‪:‬‬
‫‪X0 := {P (0) = 1/2, P (1) = 1/2},‬‬ ‫‪, X1 := {Q(0) = 1/3, Q(1) = 2/3}.‬‬ ‫)‪(۴۳‬‬
‫ﺍﻟﻒ‪ :‬ﺩﺭﺳﺘﯽ ﺭﺍﺑﻄﻪ ﺗﺤﺪﺏ ﺭﺍ ﺑﺮﺍﯼ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺗﺤﻘﯿﻖ ﮐﻨﯿﺪ‪.‬‬
‫ﺏ‪ :‬ﻫﺮﮔﺎﻩ ﮐﻪ ﺩﺭ ﻣﻘﺼﺪ‪ ،‬ﮔﯿﺮﻧﺪﻩ ﺭﺷﺘﻪ ﺧﺮ ﻭﺟﯽ ‪ 000‬ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ ﮐﻨﺪ ﺣﺴﺎﺏ ﮐﻨﯿﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺩﺭ ﻣﺒﺪﺍء ﻫﺮﮐﺪﺍﻡ ﺍﺯ ﺭﺷﺘﻪ‬
‫ﻫﺎﯼ ‪ x1 x2 x3‬ﺍﺭﺳﺎﻝ ﺷﺪﻩ ﺑﺎﺷﻨﺪ ﭼﻘﺪﺭ ﺍﺳﺖ؟‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ ‪ :‬ﺟﻔﺖ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ) ‪ (X, Y‬ﺭﺍ ﻣﻄﺎﺑﻖ ﺟﺪﻭﻝ ﺯﯾﺮ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﺪ‪ Y :‬ﻧﺎﺷﯽ ﺍﺯ ﺍﻧﺪﺍﺧﺘﻦ ﯾﮏ ﻃﺎﺱ ﺍﺳﺖ ﮐﻪ ﻣﻘﺎﺩﯾﺮ‬
‫‪ ۱‬ﺗﺎ ‪ ۶‬ﺭﺍ ﺑﻪ ﺧﻮﺩ ﻣﯽ ﮔﯿﺮﺩ ﻭ ‪ X‬ﻧﯿﺰ ﺩﻭﻣﻘﺪﺍﺭﻣﺘﻔﺎﻭﺕ ﯾﮏ ﺳﮑﻪ ﺍﺳﺖ ﮐﻪ ﻣﻘﺎﺩﯾﺮ ‪ a‬ﯾﺎ ‪ b‬ﺭﺍ ﺍﺧﺘﯿﺎﺭﻣﯽ ﮐﻨﺪ‪.‬‬
‫) ‪(X, Y‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬ ‫‪6‬‬
‫‪a‬‬ ‫‪0.2‬‬ ‫‪0.1‬‬ ‫‪0.08‬‬ ‫‪0.04‬‬ ‫‪0.05‬‬ ‫‪0.05‬‬ ‫)‪(۴۴‬‬
‫‪b‬‬ ‫‪0.1‬‬ ‫‪0.02‬‬ ‫‪0.15‬‬ ‫‪0.06‬‬ ‫‪0.1‬‬ ‫‪0.05‬‬
‫ﮐﻤﯿﺖ ﻫﺎﯼ ﺯﯾﺮ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪ :‬ﺍﻟﻒ ‪ H(Y |X) ، H(X|Y ) ، H(X, Y ) ، H(Y ) ، H(X) :‬ﻭ ) ‪.I(X; Y‬‬
‫‪۱۴‬‬
‫ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺍﻃﻼﻋﺎﺕ ﺩﺭﻏﯿﺎﺏ ﻧﻮﻓﻪ‬ ‫‪۴‬‬
‫ﺑﻬﺘﺮ ﯾﻦ ﮐﺎﺭﺑﺮﺍﯼ ﻓﻬﻢ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺍﻃﻼﻋﺎﺕ ﻣﻄﺎﻟﻌﻪ ﯾﮏ ﻣﺜﺎﻝ ﺳﺎﺩﻩ ﺍﺳﺖ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪﮐﻪ ﻫﺪﻑ ﻣﺎ ﺍﺭﺳﺎﻝ ﻣﺘﻦ ﻫﺎﯾﯽ ﺍﺳﺖ ﮐﻪ‬
‫ﺗﻨﻬﺎﺍﺯﭼﻬﺎﺭﺣﺮﻑ ﺍﻟﻔﺒﺎ ﺑﻪ ﻧﺎﻡ ﻫﺎﯼ ‪ C, B, A‬ﻭ ‪ D‬ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ‪.‬ﯾﮏ ﺭ ﻭﺵ ﺑﺮﺍﯼ ﺍﺭﺳﺎﻝ ﺍﯾﻦ ﻣﺘﻦ ﻫﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺣﺮﻑ ﻫﺎﯼ‬
‫ﭼﻬﺎﺭﮔﺎﻧﻪ ﻓﻮﻕ ﺭﺍ ﺑﺎ ﺑﯿﺖ ﻫﺎﯼ ‪ 0‬ﻭ ‪ 1‬ﮐﻪ ﺩﺭﻣﺨﺎﺑﺮﺍﺕ ﺩﯾﺠﯿﺘﺎﻝ ﻣﻌﻤﻮﻝ ﺍﺳﺖ‪ ،‬ﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮ ﮐﺪﮐﻨﯿﻢ ‪.‬‬
‫‪A −→ 00‬‬
‫‪B −→ 01‬‬
‫‪C −→ 10‬‬
‫‪D −→ 11.‬‬ ‫)‪(۴۵‬‬
‫ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﺣﺮﻑ ﺩﻭﺑﯿﺖ ﻣﺨﺎﺑﺮﻩ ﮐﺮﺩﻩ ﺍﯾﻢ‪ .‬ﺣﺎﻝ ﺳﻮﺍﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺁﯾﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﯾﮏ ﺭ ﻭﺵ ﮐﺪ ﮐﺮﺩﻥ ﺑﻪ ﮐﺎﺭﺑﺒﺮ ﯾﻢ‬
‫ﮐﻪ ﺩﺭﺁﻥ ﻃﻮﻝ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﺣﺮﻑ ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯾﯽ ﮐﻪ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﻣﺨﺎﺑﺮﻩ ﻣﯽ ﮐﻨﯿﻢ ﮐﻤﺘﺮﺍﺯ ‪ 2‬ﺑﺎﺷﺪ؟‬
‫ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﺣﺮ ﻭﻑ ﺩﺭﻣﺘﻦ ﻫﺎﯼ ﯾﺎﺩﺷﺪﻩ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ ﺯﯾﺮ ﻇﺎﻫﺮﻣﯽ ﺷﻮﻧﺪ‪:‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬

‫= )‪P (A‬‬ ‫= )‪P (B‬‬ ‫= )‪P (C‬‬ ‫= )‪P (D‬‬ ‫‪.‬‬ ‫)‪(۴۶‬‬
‫‪8‬‬ ‫‪8‬‬ ‫‪4‬‬ ‫‪2‬‬
‫ﺣﺎﻝ ﺭ ﻭﺵ ﮐﺪﮔﺬﺍﺭﯼ ﺯﯾﺮ ﺭﺍ ﺑﻪ ﮐﺎﺭﻣﯽ ﺑﺮ ﯾﻢ‪:‬‬
‫‪D −→ 0‬‬
‫‪C −→ 10‬‬
‫‪B −→ 110‬‬
‫‪A −→ 111.‬‬ ‫)‪(۴۷‬‬
‫ﺩﺭﺍﯾﻦ ﺭ ﻭﺵ ﮐﺪﮔﺬﺍﺭﯼ ﺑﺮﺍﯼ ﺑﻌﻀﯽ ﺍﺯﺣﺮ ﻭﻑ ﺑﯿﺶ ﺍﺯ ﺩﻭﺑﯿﺖ ﺑﻪ ﮐﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ ﻭﻟﯽ ﺍﮔﺮ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﺪﻫﺎﯾﯽ ﺭﺍ ﮐﻪ ﺑﺮﺍﯼ ﺣﺮ ﻭﻑ‬
‫ﺑﻪ ﮐﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﻢ ﻧﺘﯿﺠﻪ ﺟﺎﻟﺐ ﺗﻮﺟﻪ ﺧﻮﺍﻫﺪ ﺑﻮﺩ‪ .‬ﺍﯾﻦ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‪:‬‬
‫∑‬
‫‪4‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪7‬‬
‫= ⟩‪⟨l‬‬ ‫× ‪li × pi = 1‬‬ ‫‪+2× +3× +3× = .‬‬ ‫)‪(۴۸‬‬
‫‪i=1‬‬
‫‪2‬‬ ‫‪4‬‬ ‫‪8‬‬ ‫‪8‬‬ ‫‪4‬‬
‫‪۱۵‬‬
‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺑﺎ ﯾﮏ ﮐﺪﮔﺬﺍﺭﯼ ﻣﻨﺎﺳﺐ ﺗﻮﺍﻧﺴﺘﻪ ﺍﯾﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺭﺷﺘﻪ ﺑﯿﺖ ﻫﺎﯾﯽ ﺭﺍ ﮐﻪ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﭘﯿﺎﻡ ﺑﮑﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ ﺍﺯ ‪ ۲‬ﺑﻪ ‪۴/۷‬‬
‫ﺗﻘﻠﯿﻞ ﺩﻫﯿﻢ‪ .‬ﺿﻤﻨﺎً ﺑﺎﯾﺪ ﺩﻗﺖ ﮐﻨﯿﻢ ﮐﻪ ﺍﯾﻦ ﻧﺤﻮﻩ ﮐﺪﮔﺬﺍﺭﯼ ﻫﯿﭻ ﻧﻮﻉ ﺍﺑﻬﺎﻣﯽ ﺩﺭﺑﺎﺭﻩ ﻣﺘﻨﯽ ﮐﻪ ﻣﺨﺎﺑﺮﻩ ﺷﺪﻩ ﺍﺳﺖ ﺩﺭﺑﺮﻧﺪﺍﺭﺩ ﻭﻫﺮ ﺭﺷﺘﻪ‬
‫ﺍﯼ ﺍﺯﺑﯿﺖ ﻫﺎ ﺑﻪ ﻃﻮﺭ ﯾﮑﺘﺎ ﺑﻪ ﻣﺘﻦ ﺍﻭﻟﯿﻪ ﺑﺎﺯﮔﺸﺎﯾﯽ ﻣﯽ ﺷﻮﺩ‪ .‬ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺭﺷﺘﻪ ﺯﯾﺮ‬
‫‪0 1 0 0 0 1 0 0 0 1 1 0 1 1 1.‬‬ ‫)‪(۴۹‬‬
‫ﺑﺪﻭﻥ ﺍﺑﻬﺎﻡ ﺑﻪ ﻣﺘﻦ ﺯﯾﺮﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ ﻭﻣﺘﻦ ﺩﯾﮕﺮﯼ ﺑﺮﺍﯼ ﺑﺎﺯﮔﺸﺎﯾﯽ ﺁﻥ ﻗﺎﺑﻞ ﺗﺼﻮﺭ ﻧﯿﺴﺖ‬
‫‪D C D D C D D B A.‬‬ ‫)‪(۵۰‬‬
‫ﺍﯾﻦ ﮐﻪ ﭼﻪ ﻧﻮﻉ ﮐﺪ ﻫﺎﯾﯽ ﯾﮑﺘﺎﮔﺸﺎﻫﺴﺘﻨﺪ ﻣﻮﺿﻮﻋﯽ ﺍﺳﺖ ﮐﻪ ﻣﺎﺩﺭﺩﺭﺳﻬﺎﯼ ﺁﯾﻨﺪﻩ ﺑﻪ ﺁﻥ ﺧﻮﺍﻫﯿﻢ ﭘﺮﺩﺍﺧﺖ ﻭﻓﻌﻼً ﻣﻮﺿﻮﻉ ﺑﺤﺚ‬
‫ﻣﺎﻧﯿﺴﺖ‪ .‬ﻭﻟﯽ ﯾﮏ ﻧﮑﺘﻪﻣﻬﻢ ﺭﺍﺑﺎﯾﺪ ﺫﮐﺮﮐﻨﯿﻢ‪ :‬ﻫﺮﮔﺎﻩ ﺁﻧﺘﺮ ﻭﭘﯽ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ }‪ X = {A, B, C, D‬ﺭﺍ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ ﺫﮐﺮﺷﺪﻩ ﺣﺴﺎﺏ‬
‫ﮐﻨﯿﻢ ﺣﺎﺻﻞ ﺁﻥ ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩﺑﺎ‪:‬‬
‫∑‬
‫‪4‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫= )‪H(X‬‬ ‫)‪) = × log2 (2) + × log2 (4) + × log2 (8) + × log2 (8‬‬
‫( ‪pi log2‬‬
‫‪i=1‬‬
‫‪p‬‬‫‪i‬‬ ‫‪2‬‬ ‫‪4‬‬ ‫‪8‬‬ ‫‪8‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪7‬‬
‫=‬ ‫‪×1+ ×2+ ×3+ ×3= .‬‬ ‫)‪(۵۱‬‬
‫‪2‬‬ ‫‪4‬‬ ‫‪8‬‬ ‫‪8‬‬ ‫‪4‬‬
‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺩﺭﺍﯾﻦ ﻣﺜﺎﻝ ﺧﺎﺹ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﺪﮔﺰﺍﺭﯼ ﺍﯼ ﮐﻪ ﺑﻪ ﮐﺎﺭﺑﺮﺩﯾﻢ ﺑﺎ ﻣﯿﺰﺍﻥ ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭﻣﺘﻦ ﺑﺮﺍﺑﺮﺍﺳﺖ‪ .‬ﺁﯾﺎ ﺍﯾﻦ ﯾﮏ‬
‫ﺧﺼﻠﺖ ﻋﻤﻮﻣﯽ ﺍﺳﺖ؟ ﺍﺩﺍﻣﻪ ﺍﯾﻦ ﺩﺭﺱ ﻭ ﺿﻤﯿﻤﻪ ﺁﻥ ﭘﺎﺳﺨﯽ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍﻝ ﺭﺍ ﺩﺭ ﺑﺮ ﺩﺍﺭﺩ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﺘﻨﯽ ﮐﻪ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺫﺧﯿﺮﻩ ﮐﻨﯿﻢ ﺍﺯ ﻫﻤﺎﻥ ﺍﻟﻔﺒﺎﯼ ﺳﺎﺩﻩ ﭼﻬﺎﺭﺣﺮﻓﯽ ﺑﺎ ﻫﻤﺎﻥ ﺍﺣﺘﻤﺎﻻﺕ ﺗﺸﮑﯿﻞ ﺷﺪﻩ‬
‫ﺍﺳﺖ ﺍﻣﺎ ﺍﯾﻦ ﺑﺎﺭ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺣﺮ ﻭﻑ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﺩﻭﺗﺎﯾﯽ ﮐﺪ ﮐﻨﯿﻢ‪ .‬ﺿﻤﻨﺎ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﺑﯿﻦ ﺣﺮ ﻭﻑ ﯾﮏ ﻫﻤﺒﺴﺘﮕﯽ ﻭﺟﻮﺩ‬
‫ﺩﺍﺭﺩ ‪ :‬ﺍﯾﻦ ﻫﻤﺒﺴﺘﮕﯽ ﺑﻪ ﺍﺣﺘﻤﺎﻻﺕ ﺯﯾﺮ ﻣﺸﺨﺺ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬
‫‪P (x|x) = 5/8,‬‬ ‫‪P (y ̸= x|x) = 1/8.‬‬ ‫)‪(۵۲‬‬
‫ﺍﻟﻒ‪ :‬ﺍﺣﺘﻤﺎﻻﺕ ﻣﺮﺑﻮﻁ ﺑﻪ ﺗﻤﺎﻡ ﺣﺮ ﻭﻑ ﺩﻭﺗﺎﯾﯽ ﺭﺍ ﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ‪.‬‬
‫ﺏ‪ :‬ﺣﺎﻝ ﺣﺮ ﻭﻑ ﺩﻭﺗﺎﯾﯽ ﺭﺍ ﻃﻮﺭﯼ ﮐﺪ ﮐﻨﯿﺪ ﮐﻪ ﺑﯿﺸﺘﺮ ﯾﻦ ﻓﺸﺮﺩﮔﯽ ﺣﺎﺻﻞ ﺷﻮﺩ‪ .‬ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯼ ﻻﺯﻡ ﺑﺮﺍﯼ ﺫﺧﯿﺮﻩ ﻫﺮ ﺣﺮﻑ‬
‫‪۱۶‬‬
‫ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﺍﮔﺮ ﺍﯾﻦ ﻫﻤﺒﺴﺘﮕﯽ ﻭﺟﻮﺩ ﻧﺪﺍﺷﺖ ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯼ ﻻﺯﻡ ﺑﺮﺍﯼ ﺫﺧﯿﺮﻩ ﻫﺮ ﺣﺮﻑ ﭼﻘﺪﺭ ﻣﯽ ﺷﺪ؟‬
‫ﺝ‪ :‬ﺍﺣﺘﻤﺎﻻﺕ ﻣﺮﺑﻮﻁ ﺑﻪ ﺗﻤﺎﻡ ﺣﺮ ﻭﻑ ﺳﻪ ﺗﺎﯾﯽ ﺭﺍ ﺑﺪﺳﺖ ﺑﯿﺎﻭﺭ ﯾﺪ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻫﻤﺒﺴﺘﮕﯽ ﻫﺎ ﻓﻘﻂ ﺩﻭﺗﺎﯾﯽ ﺍﺳﺖ ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻦ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻮﺷﺘﻪ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﯾﮏ ﮐﺪ ﺑﻬﯿﻨﻪ ﺑﺮﺍﯼ ﺍﯾﻦ ﺣﺮ ﻭﻑ‬
‫ﺑﻨﻮﯾﺴﯿﺪ ﺑﻪ ﻧﺤﻮﯼ ﮐﻪ ﻫﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﭘﺎﯾﯿﻦ ﺑﺎﺷﺪ ﻭ ﻫﻢ ﺭﺷﺘﻪ ﺍﯼ ﺻﻔﺮ ﻭ ﯾﮏ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﺑﻪ ﺣﺮ ﻭﻑ ﻧﮕﺎﺷﺘﻪ ﺷﻮﺩ‪.‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬

‫= )‪P (A‬‬ ‫= )‪P (B‬‬ ‫= )‪P (C‬‬ ‫= )‪P (D‬‬ ‫= )‪P (E‬‬ ‫= ) ‪P (F‬‬ ‫)‪(۵۳‬‬
‫‪32‬‬ ‫‪32‬‬ ‫‪16‬‬ ‫‪8‬‬ ‫‪4‬‬ ‫‪2‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻦ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻮﺷﺘﻪ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﯾﮏ ﮐﺪ ﺑﻬﯿﻨﻪ ﺑﺮﺍﯼ ﺍﯾﻦ‬
‫ﺣﺮ ﻭﻑ ﺑﻨﻮﯾﺴﯿﺪ ﺑﻪ ﻧﺤﻮﯼ ﮐﻪ ﻫﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﭘﺎﯾﯿﻦ ﺑﺎﺷﺪ ﻭ ﻫﻢ ﺭﺷﺘﻪ ﺍﯼ ﺻﻔﺮ ﻭ ﯾﮏ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﺑﻪ ﺣﺮ ﻭﻑ ﻧﮕﺎﺷﺘﻪ‬
‫ﺷﻮﺩ‪.‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬

‫= )‪P (A‬‬ ‫= )‪P (B‬‬ ‫= )‪P (C‬‬ ‫= )‪P (D‬‬
‫‪128‬‬ ‫‪128‬‬ ‫‪64‬‬ ‫‪32‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫= )‪P (E‬‬ ‫= ) ‪P (F‬‬ ‫= )‪P (G‬‬ ‫= )‪P (H‬‬ ‫)‪(۵۴‬‬
‫‪16‬‬ ‫‪8‬‬ ‫‪4‬‬ ‫‪2‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻦ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻧﻮﺷﺘﻪ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﯾﮏ ﮐﺪ ﺑﻬﯿﻨﻪ ﺑﺮﺍﯼ ﺍﯾﻦ‬
‫ﺣﺮ ﻭﻑ ﺑﻨﻮﯾﺴﯿﺪ ﺑﻪ ﻧﺤﻮﯼ ﮐﻪ ﻫﻢ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﭘﺎﯾﯿﻦ ﺑﺎﺷﺪ ﻭ ﻫﻢ ﺭﺷﺘﻪ ﺍﯼ ﺻﻔﺮ ﻭ ﯾﮏ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﺑﻪ ﺣﺮ ﻭﻑ ﻧﮕﺎﺷﺘﻪ‬
‫ﺷﻮﺩ‪.‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬

‫= )‪P (A‬‬ ‫= )‪P (B‬‬ ‫= )‪P (C‬‬ ‫= )‪P (D‬‬
‫‪256‬‬ ‫‪256‬‬ ‫‪128‬‬ ‫‪128‬‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫= )‪P (E‬‬ ‫= ) ‪P (F‬‬ ‫= )‪P (G‬‬ ‫= )‪P (H‬‬
‫‪128‬‬ ‫‪32‬‬ ‫‪16‬‬ ‫‪8‬‬
‫‪1‬‬ ‫‪1‬‬
‫= )‪P (K‬‬ ‫‪P (L) = .‬‬ ‫)‪(۵۵‬‬
‫‪4‬‬ ‫‪2‬‬
‫ﺑﻌﺪﺍﺯﺫﮐﺮﺍﯾﻦ ﻣﺜﺎﻝ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺑﻔﻬﻤﯿﻢ ﮐﻪ ﺩﺭﺣﺎﻟﺖ ﮐﻠﯽ ﭼﮕﻮﻧﻪ ﻣﯽ ﺗﻮﺍﻥ ﺍﻃﻼﻋﺎﺕ ﻣﻮﺟﻮﺩ ﺩﺭ ﯾﮏ ﻣﻨﺒﻊ ‪ X‬ﺭﺍ ﻓﺸﺮﺩﻩ ﮐﺮﺩ‪ .‬ﻓﺮﺽ‬
‫ﮐﻨﯿﺪ ﮐﻪ ﻣﻨﺒﻊ ﻣﺘﻦ ﻫﺎﯾﯽ ﺗﻮﻟﯿﺪ ﻣﯽ ﮐﻨﺪ ﮐﻪ ﺍﯾﻦ ﻣﺘﻦ ﻫﺎﺍﺯﺍﻟﻔﺒﺎﯼ } ‪ A = {x1 , x2 , · · · xN‬ﺗﺸﮑﯿﻞ ﺷﺪﻩﺍﻧﺪ ﻭ ﺍﺣﺘﻤﺎﻝ ﻇﺎﻫﺮﺷﺪﻥ ﻫﺮﺣﺮﻑ‬
‫ﻣﺜﻞ ‪ xi‬ﺩﺭﺍﯾﻦ ﻣﺘﻦ ﻫﺎ ﺑﺎ ‪ pi‬ﺩﺍﺩﻩ ﻣﯽ ﺷﻮﺩ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﯾﮏ ﻣﻨﺒﻊ ﺭﺍﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﻋﻨﻮﺍﻥ ﯾﮏ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ﺑﺎ ﺍﻃﻼﻋﺎﺕ ﻣﻌﯿﻦ )‪H(X‬‬
‫ﺩﺭﻧﻈﺮﮔﺮﻓﺖ‪ .‬ﺑﺮﺍﯼ ﺳﺎﺩﮔﯽ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ‪ N‬ﺗﻮﺍﻧﯽ ﺍﺯ ‪ 2‬ﺍﺳﺖ ﯾﻌﻨﯽ ‪ .N = 2n‬ﺣﺎﻝ ﺍﮔﺮﺑﺪﻭﻥ ﺗﻮﺟﻪ ﺑﻪ ﺍﺣﺘﻤﺎﻻﺕ ﻇﺎﻫﺮﺷﺪﻥ ﺣﺮ ﻭﻑ‬
‫‪۱۷‬‬
‫ﻣﺨﺘﻠﻒ ﺑﺨﻮﺍﻫﯿﻢ ﻣﺘﻦ ﻫﺎﺭﺍﻣﺨﺎﺑﺮﻩ ﮐﻨﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻫﺮﺣﺮﻑ ﺍﻟﻔﺒﺎﯼ ‪ A‬ﺭﺍ ﺑﺎﯾﮏ ﺭﺷﺘﻪ ‪ n‬ﺗﺎﯼ ﺍﺯ ﺑﯿﺖ ﻫﺎﯼ ‪ 0‬ﻭ‪ 1‬ﮐﺪﮔﺬﺍﺭﯼ ﮐﻨﯿﻢ‪.‬‬
‫ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺮﺍﯼ ﻫﺮ ﻣﺘﻦ ﮐﻪ ﺷﺎﻣﻞ ‪ M‬ﺣﺮﻑ ﺍﺳﺖ ﺗﻌﺪﺍﺩ ‪ M n‬ﺑﯿﺖ ﻣﺼﺮﻑ ﻣﯽ ﮐﻨﯿﻢ ﯾﺎﺑﻪ ﻋﺒﺎﺭﺕ ﺩﯾﮕﺮ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﺣﺮﻑ ﺍﻟﻔﺒﺎ ‪n‬‬
‫ﺑﯿﺖ ﻣﺼﺮﻑ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﻭﻟﯽ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺭ ﻭﺵ ﮐﺪﮔﺬﺍﺭﯼ ﺑﻬﺘﺮﯼ ﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮﺑﮑﺎﺭﺑﺒﺮ ﯾﻢ‪.‬‬
‫ﺑﻪ ﺟﺎﯼ ﺍﯾﻨﮑﻪ ﺗﮏ ﺗﮏ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎ ﺭﺍ ﮐﺪﮔﺬﺍﺭﯼ ﮐﻨﯿﻢ‪ ،‬ﺳﻌﯽ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺭﺷﺘﻪ ‪ M‬ﺗﺎﯾﯽ ﺭﺍ ﺑﻪ ‪ K‬ﺭﺷﺘﻪ ﮐﻮﭼﮑﺘﺮ ﯾﻌﻨﯽ ﺭﺷﺘﻪ‬
‫ﻫﺎﯾﯽ ﺑﻪ ﻃﻮﻝ ‪ m‬ﺗﻘﺴﯿﻢ ﮐﻨﯿﻢ ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺩﺍﺭ ﯾﻢ‬
‫‪M = Km.‬‬
‫ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ‪ m‬ﻧﯿﺰ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ﮐﺎﻓﯽ ﺑﺰ ﺭﮒ ﺍﺳﺖ ‪ .‬ﺗﻌﺪﺍﺩ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ‪ m‬ﺣﺮﻓﯽ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ . N m‬ﻭﻟﯽ ﻧﮑﺘﻪ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ‬
‫ﻣﺎ ﺗﻨﻬﺎ ﻣﯽ ﺑﺎﯾﺴﺖ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ ﮐﺪ ﮐﻨﯿﻢ‪ .‬ﺑﻌﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺩﺭﺳﺖ ﺍﺳﺖ ﮐﻪ ﻫﺮﺣﺮﻑ ﺍﺯ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺑﺎ ﯾﮏ ﻓﺮﮐﺎﻧﺲ‬
‫ﻣﺸﺨﺺ ﺩﺭ ﻧﻮﺷﺘﺎﺭﻫﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﻇﺎﻫﺮ ﻣﯽ ﺷﻮﺩ ﺍﻣﺎ ﺭﺷﺘﻪ ﻫﺎﯾﯽ‪ m‬ﺣﺮﻓﯽ ﻣﺜﻞ‬
‫‪AAAAAAAAAAAAAAAAAAA‬‬
‫ﯾﺎ‬
‫‪AAABBBBAAABBBAAABBB‬‬
‫ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﻫﺴﺘﻨﺪ ﮐﻪ ﺑﻪ ﻧﺪﺭﺕ ﻇﺎﻫﺮ ﻣﯽ ﺷﻮﻧﺪ‪ .‬ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﻓﻌﻼ ﮐﺎﺭﯼ ﺑﻪ ﻣﻌﻨﺎﯼ ﺟﻤﻼﺕ ﻧﺪﺍﺭ ﯾﻢ ﺑﻠﮑﻪ ﺗﻨﻬﺎ ﺑﻪ ﻓﺮﮐﺎﻧﺲ‬
‫ﻇﺎﻫﺮﺷﺪﻥ ﺣﺮ ﻭﻑ ﺗﻮﺟﻪ ﺩﺍﺭ ﯾﻢ‪ .‬ﺩﺭ ﺩﻭ ﻣﺜﺎﻝ ﺑﺎﻻ ﻣﻨﻈﻮﺭ ﻣﺎ ﺍﯾﻦ ﻧﯿﺴﺖ ﮐﻪ ﭼﻨﯿﻦ ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﺍﺯ ﻧﻈﺮ ﻣﻌﻨﺎﯾﯽ ﻧﺎﺩﺭ ﻫﺴﺘﻨﺪ ﺑﻠﮑﻪ ﻣﻨﻈﻮﺭﻣﺎ‬
‫ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺍﺯ ﻧﻈﺮ ﻓﺮﺍﻭﺍﻧﯽ ﺣﺮ ﻭﻑ ﻇﺎﻫﺮﺷﺪﻩ ﻧﺎﯾﺎﺏ ﻫﺴﺘﻨﺪ‪ .‬ﺩﺭ ﻋﻮﺽ ﺭﺷﺘﻪ ﺍﯼ ﻣﺜﻞ‬
‫‪ABQU QIP QU T N V IABU RQOR‬‬ ‫)‪(۵۶‬‬
‫ﺍﺯ ﻧﻈﺮ ﻓﺮﺍﻭﺍﻧﯽ ﺣﺮ ﻭﻑ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺍﺳﺖ‪ .‬ﯾﻌﻨﯽ ﺍﯾﻨﮑﻪ ﺍﮔﺮ ﯾﮏ ﺭﺷﺘﻪ ﺑﻠﻨﺪ ﺍﺯ ﯾﮏ ﻣﺘﻦ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﻭ ﻓﺮﺍﻭﺍﻧﯽ‬
‫ﺣﺮ ﻭﻑ ﺁﻥ ﺭﺍ ﺑﺎ ﺭﺷﺘﻪ ﺑﺎﻻ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﻢ ﺍﺧﺘﻼﻑ ﭼﻨﺪﺍﻧﯽ ﻣﺸﺎﻫﺪﻩ ﻧﻤﯽ ﮐﻨﯿﻢ‪.‬‬
‫ﺍﮔﺮ ﺗﻌﺪﺍﺩ ﺣﺮ ﻭﻑ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﻫﻤﺮﺍﻩ ﺑﺎ ﺣﺮ ﻭﻑ ﺍﺿﺎﻓﻪ ﻭ ﻓﺎﺻﻠﻪ ﻫﺎ ﺗﻌﺪﺍﺩ ‪ 32‬ﺗﺎ ﺑﮕﯿﺮ ﯾﻢ ﺁﻧﮕﺎﻩ ﻫﺮ ﮐﺪﺍﻡ ﺍﺯ ﺣﺮ ﻭﻑ ﺭﺍ ﺑﺎ ‪ 5‬ﺑﯿﺖ ﻣﯽ‬
‫ﺗﻮﺍﻧﯿﻢ ﮐﺪ ﮐﻨﯿﻢ‪ .‬ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﯾﮏ ﺭﺷﺘﻪ ﺑﺎ ﻃﻮﻝ ‪ N‬ﻣﯽ ﺑﺎﯾﺴﺖ ﺑﺎ ‪ 5N‬ﺑﯿﺖ ﮐﺪ ﮐﻨﯿﻢ‪.‬‬
‫‪۱۸‬‬
‫‪ABCDEIOQUANUPNQPOURUOUQOJNNKLPQOIUTUQCITANQWERUPOURQRIZQAGUEZNBPO‬‬
‫{‬
‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪K‬‬
‫ﺷﮑﻞ ‪ :۱‬ﯾﮏ ﺭﺷﺘﻪ ﺑﻠﻨﺪ ﺭﺍ ﺑﻪ ﺭﺷﺘﻪ ﻫﺎﯼ ﺑﺎ ﻃﻮﻝ ‪ m‬ﺗﻘﺴﯿﻢ ﻭ ﺳﭙﺲ ﻫﺮﮐﺪﺍﻡ ﺭﺍ ﺑﻪ ﻋﻨﻮﺍﻥ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﮐﺪ ﻣﯽ ﮐﻨﯿﻢ‪.‬‬
‫ﺣﺎﻝ ﺩﻗﺖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﻇﺎﻫﺮﺷﺪﻥ ﺑﺴﯿﺎﺭﯼ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎﺁﻧﻘﺪﺭ ﻧﺎﭼﯿﺰﺍﺳﺖ ﮐﻪ ﻧﯿﺎﺯﯼ ﺑﻪ ﮐﺪﮐﺮﺩﻥ ﺁﻧﻬﺎﻧﯿﺴﺖ ﻭﺑﺎﮐﺪﮐﺮﺩﻥ‬
‫ﺗﻨﻬﺎ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ )ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﮐﻪ ﺯﯾﺎﺩ ﻇﺎﻫﺮﻣﯽ ﺷﻮﻧﺪ( ﭼﯿﺰﯼ ﺍﺯﺩﺳﺖ ﻧﻤﯽ ﺩﻫﯿﻢ‪ .‬ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﯾﻌﻨﯽ ﺑﺎﮐﺪﮐﺮﺩﻥ ﺗﻨﻬﺎﺭﺷﺘﻪ‬
‫ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﻣﺎﻗﺎﺩﺭﻣﯽ ﺷﻮﯾﻢ ﮐﻪ ﺑﯿﺖ ﻫﺎﯼ ﮐﻤﺘﺮﯼ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﻣﺘﻦ ﻫﺎﯼ ﻣﻨﺒﻊ ‪ X‬ﻣﺼﺮﻑ ﮐﻨﯿﻢ‪ .‬ﺍﻣﺎ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﮐﺪﺍﻡ‬
‫ﻫﺎﻫﺴﺘﻨﺪ؟ ﻭ ﮐﺪﮐﺮﺩﻥ ﺁﻧﻬﺎ ﭼﻘﺪﺭﺑﺎﻋﺚ ﻓﺸﺮﺩﻩ ﺷﺪﻥ ﭘﯿﺎﻡ ﻫﺎﻣﯽ ﺷﻮﺩ‪ .‬ﺩﺭ ﻫﺮ ﺭﺷﺘﻪ ‪ m‬ﺣﺮﻓﯽ ﺑﻪ ﺷﺮﻃﯽ ﮐﻪ ‪ m‬ﺑﻪ ﺍﻧﺪﺍﺯﻩ ﮐﺎﻓﯽ ﺑﺰ ﺭﮒ‬
‫ﺑﺎﺷﺪ ﺑﻪ ﺗﻘﺮ ﯾﺐ ﺗﻌﺪﺍﺩ ‪ mp1‬ﺣﺮﻑ ﺁﻥ ‪ mp2 ،x1‬ﺣﺮﻑ ﺁﻥ ‪ x2‬ﻭ ‪ mpN‬ﺗﺎ ﺣﺮﻑ ﺁﻥ ‪ xN‬ﺧﻮﺍﻫﺪﺑﻮﺩ‪ .‬ﻫﺮ ﻗﺪﺭ ﮐﻪ ﻃﻮﻝ ﺭﺷﺘﻪ ﯾﻌﻨﯽ ‪m‬‬
‫ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ‪ ،‬ﺍﻓﺖ ﻭ ﺧﯿﺰ ﺗﻌﺪﺍﺩ ﻭﺍﻗﻌﯽ ﺣﺮﻑ ﻫﺎ ﺣﻮﻝ ﺍﯾﻦ ﻣﻘﺎﺩﯾﺮ ﻣﺘﻮﺳﻂ ﮐﻤﺘﺮ ﺧﻮﺍﻫﺪ ﺑﻮﺩ‪ .‬ﺣﺎﻝ ﺳﻮﺍﻝ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﭼﻪ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ‬
‫ﻣﺘﻌﺎﺭﻑ ﺑﺎ ﻃﻮﻝ ‪ m‬ﻭﺟﻮﺩ ﺩﺍﺭﺩ‪ .‬ﺍﮔﺮ ﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺭﺍ ﺑﺎ ‪ Qm‬ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‬
‫!‪m‬‬
‫= ‪Qm‬‬ ‫)‪(۵۷‬‬
‫!) ‪(mp1 )!(mp2 )! · · · (mpN‬‬
‫ﺍﻣﺎ ﺑﺎﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺗﻘﺮ ﯾﺐ ﺍﺳﺘﺮﻟﯿﻨﮓ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻨﻮﯾﺴﯿﻢ‪:‬‬
‫!‪m‬‬ ‫∑‬ ‫‪N‬‬

‫‪1‬‬
‫( ‪log2 Qm = log2‬‬ ‫(‪) ≈ m‬‬ ‫)‪pi log2 ) ≡ mH(X‬‬ ‫)‪(۵۸‬‬
‫!) ‪(mp1 )!(mp2 )! · · · (mpn‬‬ ‫‪i=1‬‬
‫‪p‬‬‫‪i‬‬
‫‪۱۹‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺎﺑﻊ )‪ H(X‬ﺑﻪ ﺻﻮﺭﺕ ﺯﯾﺮﺗﻌﺮ ﯾﻒ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬
‫∑‬
‫‪N‬‬
‫‪1‬‬
‫=‪H(X) :‬‬ ‫( ‪pi log2‬‬ ‫)‬ ‫)‪(۵۹‬‬
‫‪i=1‬‬
‫‪pi‬‬
‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺟﻤﻼﺕ ﻣﺘﻌﺎﺭﻑ ﺑﺎ ﻃﻮﻝ ‪ m‬ﺑﺎﺗﻘﺮ ﯾﺐ ﺑﺴﯿﺎﺭﺧﻮﺏ ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ‬
‫)‪Qm ≈ 2mH(X‬‬ ‫)‪(۶۰‬‬
‫ﺣﺎﻝ ﺍﮔﺮ ﺗﻌﺪﺍﺩ ﺟﻤﻼﺕ ﻣﺘﻌﺎﺭﻑ ﺑﺮﺍﺑﺮﺑﺎﺷﺪﺑﺎ ﻣﻘﺪﺍﺭﻓﻮﻕ‪ ،‬ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻫﺮﮐﺪﺍﻡ ﺍﺯ ﺍﯾﻦ ﺟﻤﻼﺕ ﺭﺍ ﺑﺎ ﯾﮏ ﺭﺷﺘﻪ ﺑﯿﺖ ﻫﺎﯼ ‪ 0‬ﻭ ‪ 1‬ﮐﺪﮔﺬﺍﺭﯼ‬
‫ﮐﻨﯿﻢ ﻭ ﻣﺴﻠﻢ ﺍﺳﺖ ﮐﻪ ﺗﻌﺪﺍﺩ ﺑﯿﺖ ﻫﺎﯾﯽ ﮐﻪ ﺑﺮﺍﯼ ﺍﯾﻦ ﮐﺎﺭﺍﺣﺘﯿﺎﺝ ﺩﺍﺭ ﯾﻢ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ )‪ .mH(X‬ﺍﺯﺁﻧﺠﺎ ﮐﻪ ﻫﺮ ﺭﺷﺘﻪ ﺩﺍﺭﺍﯼ ‪ m‬ﺣﺮﻑ‬
‫ﺑﻮﺩﻩ ﺍﺳﺖ ﻣﺜﻞ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺩﺭﻋﻤﻞ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﻫﺮﺣﺮﻑ )‪ k := H(X‬ﺑﯿﺖ ﺑﮑﺎﺭﺑﺮﺩﻩ ﺍﯾﻢ‪ .‬ﺍﺯﺁﻧﺠﺎ ﮐﻪ ‪H(X) ≤ log2 N = n‬‬
‫ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ ﺩﺭ ﺍﺭﺳﺎﻝ ﺑﯿﺖ ﻫﺎ ﺑﺮﺍﯼ ﻣﺨﺎﺑﺮﻩ ﭘﯿﺎﻡ ﺻﺮﻓﻪ ﺟﻮﯾﯽ ﻣﻬﻤﯽ ﺍﻧﺠﺎﻡ ﺩﺍﺩﻩ ﺍﯾﻢ ﺯﯾﺮﺍ ﺑﺎﺍﯾﻦ ﺭ ﻭﺵ ﮐﺪﮐﺮﺩﻥ ﮐﻪ ﺁﻥ ﺭﺍ‬
‫‪ Block coding‬ﻣﯽ ﮔﻮﯾﯿﻢ ﺑﺮﺍﯼ ﻫﺮﺣﺮﻑ ﺑﻪ ﺟﺎﯼ ‪ n‬ﺑﯿﺖ )‪ H(X‬ﺑﯿﺖ ﻣﺼﺮﻑ ﮐﺮﺩﻩ ﺍﯾﻢ ﮐﻪ ﺍﺯ‪ n‬ﮐﻤﺘﺮﺍﺳﺖ‪.‬‬
‫ﺁﻧﭽﻪ ﮐﻪ ﺩﺭﺑﺎﻻﮔﻔﺘﻪ ﺷﺪ ﻣﺤﺘﻮﺍﯼ ﮐﻠﯽ ﻗﻀﯿﻪ ﺷﺎﻧﻮﻥ ﺩﺭﻣﻮﺭﺩ ﮐﺪﮔﺬﺍﺭﯼ ﺑﺪﻭﻥ ﻧﻮﻓﻪ ﺑﻮﺩ‪ .‬ﻭﻟﯽ ﭼﮕﻮﻧﻪ ﻣﯽ ﺗﻮﺍﻥ ﺍﯾﻦ ﺣﺮﻑ ﺭﺍ ﺩﻗﯿﻖ ﮐﺮﺩ؟‬
‫ﭼﮕﻮﻧﻪ ﻣﯽ ﺗﻮﺍﻥ ﺗﻌﺮ ﯾﻒ ﺩﻗﯿﻘﯽ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﺑﺪﺳﺖ ﺩﺍﺩ؟ ﺑﺎ ﮐﺪ ﻧﮑﺮﺩﻥ ﺭﺷﺘﻪ ﻫﺎﯼ ﻏﯿﺮﻣﺘﻌﺎﺭﻑ ﭼﻪ ﻣﻘﺪﺍﺭﻣﺮﺗﮑﺐ ﺧﻄﺎﻣﯽ‬
‫ﺷﻮﯾﻢ؟ ﺁﯾﺎ ﺑﯿﺶ ﺍﺯ ﺍﯾﻦ ﻫﻢ ﻣﯽ ﺗﻮﺍﻥ ﭘﯿﺎﻡ ﻫﺎﯼ ﻣﻨﺒﻊ ‪ X‬ﺭﺍ ﻓﺸﺮﺩﻩ ﮐﺮﺩ؟ ﺑﺮﺍﯼ ﭘﺎﺳﺦ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍﻻﺕ ﺳﻌﯽ ﻣﯽ ﮐﻨﯿﻢ ﺍﺑﺘﺪﺍﺗﻌﺎﺭ ﯾﻒ‬
‫ﺩﻗﯿﻘﯽ ﺍﺯ ﻣﻔﺎﻫﯿﻢ ﮔﻔﺘﻪ ﺷﺪﻩ ﺑﺪﺳﺖ ﺩﻫﯿﻢ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺍﻟﻔﺒﺎﯼ ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﺷﻤﺎ ﺍﺯ ﺣﺮ ﻭﻑ ﺯﯾﺮ ﺑﺎ ﻓﺮﮐﺎﻧﺲ ﻫﺎﯼ ﺩﺍﺩﻩ ﺷﺪﻩ ﺗﺸﮑﯿﻞ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬
‫‪a‬‬ ‫‪b‬‬ ‫‪c‬‬ ‫‪d‬‬ ‫‪e‬‬ ‫‪f‬‬ ‫‪g‬‬ ‫‪h‬‬ ‫‪g‬‬ ‫‪k‬‬
‫)‪(۶۱‬‬
‫)‪P (x‬‬ ‫‪1/4‬‬ ‫‪1/4‬‬ ‫‪1/8‬‬ ‫‪1/8‬‬ ‫‪1/16‬‬ ‫‪1/16‬‬ ‫‪1/32‬‬ ‫‪1/32‬‬ ‫‪1/32‬‬ ‫‪1/32‬‬
‫ﺑﺮﺍﯼ ﺍﯾﻦ ﺣﺮ ﻭﻑ ﯾﮏ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎ ﻭ ﺑﻬﯿﻨﻪ ﺑﻨﻮﯾﺴﯿﺪ‪.‬‬
‫ﺗﺎ ﮐﻨﻮﻥ ﺑﺤﺚ ﻣﺎ ﺩﺭ ﺑﺎﺭﻩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﯾﺎ ﻣﺘﻌﺎﺭﻑ ﯾﮏ ﺑﺤﺚ ﺗﻘﺮ ﯾﺒﯽ ﺑﻮﺩ‪ .‬ﺣﺎﻻ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺍﯾﻦ ﺗﻌﺮ ﯾﻒ ﻭ ﻧﺘﺎﯾﺞ ﻧﺎﺷﯽ ﺍﺯ ﺁﻥ ﺭﺍ‬
‫‪۲۰‬‬
‫ﺑﻪ ﻃﻮﺭ ﺩﻗﯿﻖ ﺗﺮ ﺑﺮ ﺭﺳﯽ ﮐﻨﯿﻢ‪.‬‬
‫ﻧﮕﺎﻫﯽ ﺩﻭﺑﺎﺭﻩ ﺑﻪ ﺍﻃﻼﻋﺎﺕ ﺷﺮﻃﯽ ﻭﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ‬ ‫‪۵‬‬
‫ﺑﻌﺪﺍﺯﻓﻬﻢ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﻭﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻧﮕﺎﻫﯽ ﺩﻭﺑﺎﺭﻩ ﺑﻪ ﺍﻃﻼﻋﺎﺕ ﺷﺮﻃﯽ ﻭﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺑﯿﻨﺪﺍﺯﯾﻢ‪ .‬ﺍﺯﺍﯾﻦ ﺯﺍﻭﯾﻪ‬
‫ﺟﺪﯾﺪ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺗﻌﺮ ﯾﻒ ﻣﺘﻔﺎﻭﺗﯽ ﺑﺮﺍﯼ ﺗﺎﺑﻊ )‪ H(X‬ﭘﯿﺪﺍﮐﻨﯿﻢ‪ .‬ﯾﺎﺩﮔﺮﻓﺘﯿﻢ ﮐﻪ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ‪ m‬ﺣﺮﻓﯽ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ )‪.2mH(X‬‬
‫ﺍﯾﻦ ﺣﺮﻑ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﺍﮔﺮﮐﺴﯽ ﯾﮏ ﺭﺷﺘﻪ ﻣﻌﯿﻦ ﺭﺍ ﺑﻪ ﻋﻨﻮﺍﻥ ﺳﻮﺍﻝ ﺑﺮﺍﯼ ﻣﺎﺩﺭﻧﻈﺮﮔﺮﻓﺘﻪ ﺑﺎﺷﺪ ﻭ ﺍﺯﻣﺎﺑﺨﻮﺍﻫﺪ ﺩﺭ ﯾﮏ ﻣﺴﺎﺑﻘﻪ ﺑﻪ‬
‫ﺍﺻﻄﻼﺡ » ﺑﯿﺴﺖ ﺳﻮﺍﻟﯽ« ﺑﺎﭘﺮﺳﯿﺪﻥ ﺳﻮﺍﻝ ﻫﺎﯾﯽ ﮐﻪ ﭘﺎﺳﺦ ﺁﻧﻬﺎﺗﻨﻬﺎ ﺁﺭﯼ ﯾﺎ ﺧﯿﺮﺍﺳﺖ ﺑﻪ ﺁﻥ ﺭﺷﺘﻪ ﻣﻌﯿﻦ ﺩﺳﺖ ﭘﯿﺪﺍﮐﻨﯿﻢ ﺩﺭﺑﻬﺘﺮ ﯾﻦ‬
‫ﺣﺎﻟﺖ ﻣﯽ ﺑﺎﯾﺴﺖ ﺗﻌﺪﺍﺩ )‪ mH(X‬ﺑﺎﺭﺳﻮﺍﻝ ﮐﻨﯿﻢ‪ .‬ﺯﯾﺮﺍﺑﻬﺘﺮ ﯾﻦ ﻧﺤﻮﻩ ﺳﻮﺍﻝ ﮐﺮﺩﻥ ﻧﺤﻮﻩ ﺍﯼ ﺍﺳﺖ ﮐﻪ ﺩﺭﺍﻥ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺭﺍ‬
‫ﺑﻪ ﻧﺼﻒ ﻣﻘﺪﺍﺭﻗﺒﻠﯽ ﮐﺎﻫﺶ ﻣﯽ ﺩﻫﺪ ﻭ )‪ 2mH(X‬ﺭﺍ ﺑﻪ ‪ 2mH(X)−2 ،2mH(X)−1‬ﻭﺳﺮﺍﻧﺠﺎﻡ ﺑﻪ ‪ ۱‬ﺗﻘﻠﯿﻞ ﻣﯽ ﺩﻫﺪ‪ .‬ﻣﻄﺎﻟﺐ ﺑﺎﻻ ﺭﺍ ﻣﯽ‬
‫ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﺗﻌﻤﯿﻢ ﺩﻫﯿﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺑﺎ ﺁﻧﺘﺮ ﻭﭘﯽ )‪ H(X‬ﺩﺍﺭ ﯾﻢ‪ .‬ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﻃﻮﻻﻧﯽ ﺑﺎ ﻃﻮﻝ ‪ m‬ﺩﺭ ﻧﻈﺮ‬
‫ﻣﯽ ﮔﯿﺮ ﯾﻢ‪ .‬ﻣﺠﻤﻮﻋﻪ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ )‪ .2mH(X‬ﻣﺎ ﺑﺎ ﭘﺮﺳﯿﺪﻥ )‪ mH(X‬ﺳﻮﺍﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﯾﮏ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺑﺮﺳﯿﻢ‪.‬‬
‫ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﺴﯽ ﺍﻃﻼﻋﯽ ﺍﺯ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺩﯾﮕﺮ ﻣﺜﻞ � ﺑﻪ ﻣﺎ ﺩﺍﺩﻩ ﺑﺎﺷﺪ‪ .‬ﺍﯾﻦ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺩﯾﮕﺮ ﻣﯽ ﺗﻮﺍﻧﺪ‬
‫ﯾﮏ ﭼﯿﺰ ﺑﺎ ﺭﺑﻂ ﻣﺜﻞ ﺭﻗﻢ ﻫﺎﯼ ﺳﻤﺖ ﺭﺍﺳﺖ ﺍﯾﻦ ﺭﺷﺘﻪ ﯾﺎ ﺗﻌﺪﺍﺩ ﺻﻔﺮﻫﺎﯼ ﺭﺷﺘﻪ ﻭ ﻧﻈﺎﯾﺮ ﺁﻥ ﯾﺎ ﯾﮏ ﭼﯿﺰ ﺑﯽ ﺭﺑﻂ ﻣﺜﻞ ﻭﺿﻊ ﻫﻮﺍﯼ‬
‫ﺍﻣﺮ ﻭﺯ ﺑﺎﺷﺪ‪ .‬ﺩﺭ ﻫﺮ ﺻﻮﺭﺕ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺭﺷﺘﻪ ﻫﺎ ﺍﺯ )‪ P (X‬ﺑﻪ )‪ P (X| | y‬ﺗﻐﯿﯿﺮ ﻣﯽ ﮐﻨﺪ‪ .‬ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﮐﻪ ﻣﯽ‬
‫ﺑﺎﯾﺴﺖ ﺟﺴﺘﺠﻮ ﮐﻨﯿﻢ ﺑﻪ )‪ 2mH(X|y‬ﺗﻘﻠﯿﻞ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ‪ .‬ﺩﺭ ﻧﺘﯿﺠﻪ ﺑﺎ ﭘﺮﺳﯿﺪﻥ ��)‪ mH(X|y‬ﺳﻮﺍﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﺑﺮﺳﯿﻢ‪.‬‬
‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺩﺍﻧﺴﺘﻦ ﻣﻘﺪﺍﺭ ‪ y‬ﺗﻌﺪﺍﺩ ﺳﻮﺍﻻﺕ ﻻﺯﻡ ﺑﺮﺍﯼ ﺭﺳﯿﺪﻥ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ‪ x‬ﺭﺍ ﺍﺯ )‪ mH(X‬ﺑﻪ )‪ mH(X|y‬ﮐﺎﻫﺶ ﺩﺍﺩﻩ ﺍﺳﺖ‪.‬‬
‫ﯾﻌﻨﯽ ﺍﯾﻨﮑﻪ ﺩﺍﻧﺴﺘﻦ ‪ y‬ﺑﻪ ﺍﻧﺪﺍﺯﻩ )‪ mH(X) − mH(X|y‬ﺑﯿﺖ ﺑﻪ ﻣﺎ ﺍﻃﻼﻉ ﺩﺍﺩﻩ ﺍﺳﺖ‪ .‬ﺍﮔﺮ ﺭ ﻭﯼ ‪ y‬ﻣﺘﻮﺳﻂ ﺑﮕﯿﺮ ﯾﻢ‪ ،‬ﻭ ﺑﺮ ‪ m‬ﺗﻘﺴﯿﻢ‬
‫ﮐﻨﯿﻢ‪ ،‬ﭼﯿﺰﯼ ﮐﻪ ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ‬
‫) ‪I(X : Y ) = H(X) − H(X | Y‬‬ ‫)‪(۶۲‬‬
‫‪۲۱‬‬
‫ﻫﻤﺎﻥ ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺍﺳﺖ‪.‬‬
‫ﺩﺭ ﻭﺍﻗﻊ ﻣﻬﻤﺘﺮ ﯾﻦ ﻣﺜﺎﻝ ﻣﺸﺨﺺ ﺍﺯ ﺍﯼ ﻧﻮﻉ ﻭﻗﺘﯽ ﺍﺳﺖ ﮐﻪ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ‪ X‬ﺭﺷﺘﻪ ﻫﺎﯼ ﻭﺭ ﻭﺩﯼ ﯾﮏ ﮐﺎﻧﺎﻝ ﮐﻼﺳﯿﮏ ﻭ ﻣﺘﻐﯿﺮ‬
‫ﺗﺼﺎﺩﻓﯽ ‪ Y‬ﺭﺷﺘﻪ ﻫﺎﯼ ﺧﺮ ﻭﺟﯽ ﻫﻤﺎﻥ ﮐﺎﻧﺎﻝ ﺭﺍ ﺗﻌﯿﯿﻦ ﻣﯽ ﮐﻨﺪ‪ .‬ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ )‪ P (x, y‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺭﺷﺘﻪ ‪ x‬ﻓﺮﺳﺘﺎﺩﻩ ﻭ ﺭﺷﺘﻪ‬
‫‪ y‬ﺩﺭ ﯾﺎﻓﺖ ﺷﻮﺩ‪ .‬ﺣﺎﻝ ﺳﻮﺍﻝ ﻣﯽ ﮐﻨﯿﻢ ﺍﮔﺮ ﺭﺷﺘﻪ ‪ y‬ﺩﺭ ﯾﺎﻓﺖ ﺷﺪﻩ ﺑﺎﺷﺪ‪ ،‬ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﭼﻪ ﻣﻘﺪﺍﺭ ﺍﻃﻼﻋﺎﺕ ﺩﺭ ﻣﻮﺭﺩ ﺭﺷﺘﻪ ﺍﺭﺳﺎﻝ ﺷﺪﻩ‬
‫ﺩﺍﺭ ﯾﻢ؟ ﯾﺎ ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺑﺎ ﭼﻪ ﺗﻌﺪﺍﺩ ﺳﻮﺍﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺭﺷﺘﻪ ﻭﺭ ﻭﺩﯼ ﺭﺍ ﺑﻔﻬﻤﯿﻢ‪ .‬ﻣﻌﻤﻮﻻ ﯾﮏ ﮐﺎﻧﺎﻝ ﺩﺍﺭﺍﯼ ﺧﻄﺎﺳﺖ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﯽ‬
‫ﮐﻪ ﻭﻗﺘﯽ ﺭﺷﺘﻪ ﺍﯼ ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ ﻣﯽ ﮐﻨﯿﻢ‪ ،‬ﺍﺣﺘﻤﺎﻝ ﺩﺍﺭﺩ ﮐﻪ ﺭﺷﺘﻪ ﺍﯼ ﮐﻪ ﻓﺮﺳﺘﺎﺩﻩ ﺷﺪﻩ ﻫﻤﯿﻦ ﺭﺷﺘﻪ ﻧﺒﺎﺷﺪ ﺑﻠﮑﻪ ﺩﺭ ﺍﺛﺮ ﺧﻄﺎﯼ ﮐﺎﻧﺎﻝ‪،‬‬
‫ﺭﺷﺘﻪ ‪ x‬ﺑﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﺗﺒﺪﯾﻞ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺗﻌﺪﺍﺩ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ ) ‪ .2mH(X|Y‬ﻫﺪﻑ ﻣﺎ ﯾﺎﻓﺘﻦ ﺭﺷﺘﻪ ‪ x‬ﺍﺯ‬
‫ﺭ ﻭﯼ ﺭﺷﺘﻪ ﺩﺭ ﯾﺎﻓﺖ ﺷﺪﻩ ﺍﺳﺖ‪ .‬ﺗﻤﺎﻡ ﺁﻧﭽﻪ ﮐﻪ ﺩﺭ ﺑﺎﻻ ﮔﻔﺘﯿﻢ‪ ،‬ﺩﺭ ﺍﯾﻦ ﺟﺎ ﻣﻌﻨﺎ ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﺪ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎ ﮐﻪ ﺍﺯ ﺭ ﻭﯼ ﺭﺍﺑﻄﻪ )‪ (۶۲‬ﻣﯽ‬
‫ﻓﻬﻤﯿﻢ ﮐﻪ ﺍﮔﺮ ﮐﺎﻧﺎﻝ ﺩﺍﺭﺍﯼ ﻫﯿﭻ ﻧﻮﻉ ﺧﻄﺎﯾﯽ ﻧﺒﺎﺷﺪ‪ ،‬ﺁﻧﮕﺎﻩ ﺩﺍﻧﺴﺘﻦ ﺭﺷﺘﻪ ﺧﺮ ﻭﺟﯽ ﺩﻗﯿﻘﺎ ﺭﺷﺘﻪ ﻭﺭ ﻭﺩﯼ ﺭﺍ ﺗﻌﯿﯿﻦ ﻣﯽ ﮐﻨﺪ ﻭ ﺩﺭ ﻧﺘﯿﺠﻪ‬
‫‪H(X|Y ) = 0‬‬ ‫‪−→ I(X : Y ) = H(X).‬‬ ‫)‪(۶۳‬‬
‫ﻫﺮ ﭼﻪ ﮐﻪ ﺧﻄﺎﯼ ﮐﺎﻧﺎﻝ ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ‪ ،‬ﺍﺳﺘﻘﻼﻝ ﺭﺷﺘﻪ ﻫﺎﯼ ﻭﺭ ﻭﺩﯼ ﻭ ﺧﺮ ﻭﺟﯽ ﺍﺯ ﻫﻢ ﺑﯿﺸﺘﺮ ﺷﺪﻩ ﻭ ﺩﺭ ﻧﻬﺎﯾﺖ ﻭﻗﺘﯽ ﮐﻪ ﺧﻄﺎﯼ ﮐﺎﻧﺎﻝ‬
‫ﺑﻪ ﺣﺪﯼ ﻣﯽ ﺭﺳﺪ ﮐﻪ ﺍﯾﻦ ﺩﻭ ﺭﺷﺘﻪ ﺍﺯ ﻫﻢ ﻣﺴﺘﻘﻞ ﻣﯽ ﺷﻮﻧﺪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‬
‫)‪H(X|Y ) = H(X‬‬ ‫‪−→ I(X : Y ) = 0.‬‬ ‫)‪(۶۴‬‬
‫ﺗﻌﺮ ﯾﻒ ﺩﻗﯿﻖ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ‬ ‫‪۶‬‬
‫‪۱‬‬
‫ﺭﺍ ﺑﻪ ﻃﻮﺭ ﺷﻬﻮﺩﯼ ﺗﻌﺮ ﯾﻒ ﮐﺮﺩﻩ ﺍﯾﻢ ﻭ ﮔﻔﺘﻪ ﺍﯾﻢ ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺭﺷﺘﻪ ﻫﺎﯾﯽ ﻫﺴﺘﻨﺪ ﮐﻪ ﺗﻌﺪﺍﺩ‬ ‫ﺗﺎ ﮐﻨﻮﻥ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﯾﺎ ﺭﺷﺘﻪ ﻣﺘﻌﺎﺭﻑ‬
‫ﺣﺮ ﻭﻑ ‪ xi‬ﺩﺭ ﺁﻧﻬﺎ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ mpi‬ﺑﺎﺷﺪ‪ .‬ﺍﻣﺎ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﺗﻌﺪﺍﺩ ‪ xi‬ﻫﯿﭽﮕﺎﻩ ﺩﻗﯿﻘﺎ ﺑﺮﺍﺑﺮ ﺑﺎ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﻧﯿﺴﺖ ﺑﻠﮑﻪ ﻫﻤﻮﺍﺭﻩ ﯾﮏ ﺍﻓﺖ ﻭ‬
‫ﺧﯿﺰ ﺣﻮﻝ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﻣﯿﺎﻧﮕﯿﻦ ﻭﺟﻮﺩ ﺩﺍﺭﺩ‪ .‬ﺍﮔﺮ ﺩﺭ ﻫﺮ ﻣﮑﺎﻥ ﺍﺯ ﯾﮏ ﺭﺷﺘﻪ ‪ m‬ﺗﺎﯾﯽ‪ ،‬ﻭﺟﻮﺩ ﯾﮏ ﻣﺘﻐﯿﺮ ﻣﺜﻞ ‪ xi‬ﺭﺍ ﺑﺎ ﺍﺣﺘﻤﺎﻝ ‪ pi‬ﻭ ﻧﺒﻮﺩ‬
‫‪� �۱‬‬
‫‪۲۲‬‬
‫ﺷﮑﻞ ‪ :۲‬ﺗﻌﺪﺍﺩ ﺣﺮﻑ ﻫﺎﯼ ‪ xi‬ﺩﺭ ﯾﮏ ﺭﺷﺘﻪ ﻣﺜﻞ ‪ a‬ﺍﺯ ﯾﮏ ﺗﺎﺑﻊ ﺍﺣﺘﻤﺎﻝ ﮔﺎﻭﻭﺳﯽ ﺗﺒﻌﯿﺖ ﻣﯽ ﮐﻨﺪ ﻭ ﺑﻨﺎﺑﺮﺍﯾﻦ ﻣﺘﻮﺳﻂ ﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺑﺮﺍﺑﺮ‬
‫√‬
‫ﺑﺎ ‪ mpi‬ﺍﺳﺖ ﻭﻟﯽ ﺍﯾﻦ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﯾﮏ ﭘﻬﻨﺎ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ) ‪ σi = mpi (1 − pi‬ﺩﺍﺭﺩ ﮐﻪ ﻧﺸﺎﻥ ﺩﻫﻨﺪﻩ ﺍﯾﻦ ﺍﺳﺖ ﺩﺭ ﺧﯿﻠﯽ ﺍﺯ ﺭﺷﺘﻪ ﻫﺎ‬
‫ﺗﻌﺪﺍﺩ ‪ xi‬ﺑﺎ ﻣﻘﺪﺍﺭ ﻣﺘﻮﺳﻂ ‪ mpi‬ﻣﺘﻔﺎﻭﺕ ﺍﺳﺖ‪ .‬ﺩﺭ ﺍﯾﻦ ﻧﻤﻮﺩﺍﺭ )‪ pi (a‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﺩﺍﺭﺍﯼ ﯾﮏ ﺗﻌﺪﺍﺩ ﻣﻌﯿﻦ ‪xi‬‬
‫ﺑﺎﺷﺪ‪.‬‬
‫ﺁﻥ ﺭﺍ ﺑﺎ ﺍﺣﺘﻤﺎﻝ ‪ 1 − pi‬ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﻢ‪ ،‬ﺁﻧﮕﺎﻩ ﺑﺎ ﯾﮏ ﺗﺎﺑﻊ ﺍﺣﺘﻤﺎﻝ ﺩﻭﺟﻤﻠﻪ ﺍﯼ )ﻭ ﺩﺭ ﺣﺪ ‪ m‬ﻫﺎﯼ ﺑﺰ ﺭﮒ ﺑﺎ ﯾﮏ ﺗﺎﺑﻊ ﮔﺎﻭﻭﺳﯽ(‬
‫√‬
‫ﺭ ﻭﺑﺮ ﻭ ﻫﺴﺘﯿﻢ ﮐﻪ ﺗﻌﺪﺍﺩ ﻣﺘﻮﺳﻂ ‪ xi‬ﺭﺍ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ mpi‬ﻭ ﻭﺍﺭ ﯾﺎﻧﺲ ﺁﻥ ﺭﺍ ﺑﺮﺍﺑﺮ ﺑﺎ ) ‪ σi = mpi (1 − pi‬ﺑﺪﺳﺖ ﻣﯽ ﺩﻫﺪ‪) ،‬ﺷﮑﻞ )؟؟(‬
‫(‪.‬‬
‫ﺍﺯ ﺭ ﻭﯼ ﻫﻤﯿﻦ ﺷﮑﻞ ﻭﺍﺿﺢ ﺍﺳﺖ ﮐﻪ ﻣﯽ ﺑﺎﯾﺴﺖ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﯾﺎ ﻣﺘﻌﺎﺭﻑ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺑﻬﺘﺮﯼ ﺗﻌﺮ ﯾﻒ ﮐﻨﯿﻢ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ‬
‫ﺍﺯ ﺧﻮﺩ ﻣﯽ ﭘﺮﺳﯿﻢ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻣﺘﻌﺎﺭﻑ ﺩﻗﯿﻘﺎ ﭼﻪ ﺭﺷﺘﻪ ﺍﯼ ﺍﺳﺖ؟ ﺩﺭ ﺍﯾﻦ ﺗﻌﺮ ﯾﻒ ﺣﺘﻤﺎ ﻣﯽ ﺑﺎﯾﺴﺖ ﯾﮏ ﺣﺪ ﻭ ﺍﻧﺪﺍﺯﻩ ﻭﺟﻮﺩ‬
‫ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﺪ‪ .‬ﺑﺪﻭﻥ ﺍﯾﻦ ﺣﺪ ﻭ ﺍﻧﺪﺍﺯﻩ ﯾﺎ ﻣﻌﯿﺎﺭ ﻧﻤﯽ ﺗﻮﺍﻥ ﺩﻗﯿﻘﺎ ﮔﻔﺖ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻣﺜﻞ ﺁﯾﺎ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺍﺳﺖ ﯾﺎ ﺧﯿﺮ؟‬
‫ﺭﺷﺘﻪ ‪ α = α1 α2 α3 · · · αm‬ﺭﺍ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﺪ‪ .‬ﺗﻌﺪﺍﺩ ﺣﺮ ﻭﻑ ‪ xj‬ﺩﺭﺍﯾﻦ ﺭﺷﺘﻪ ﺭﺍ ﺑﺎ )‪ fj (α‬ﻧﺸﺎﻥ ﺩﻫﯿﺪ‪ .‬ﺗﻌﺪﺍﺩ ﺣﺮ ﻭﻑ ‪xj‬‬
‫ﺩﺭ ﺭﺷﺘﻪ ﻫﺎﯼ ﺑﻪ ﻃﻮﻝ ‪ m‬ﺑﻪ ﻃﻮﺭ ﻣﺘﻮﺳﻂ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ mpj‬ﻭﻭﺍﺭ ﯾﺎﻧﺲ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺣﻮﻝ ﺍﯾﻦ ﻣﻘﺪﺍﺭﻣﺘﻮﺳﻂ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‬
‫√‬
‫) ‪ .σj := mpj (1 − pj‬ﺭﺷﺘﻪ ﻣﺘﻌﺎﺭﻑ ﺭﺷﺘﻪ ﺍﯼ ﺍﺳﺖ ﮐﻪ ﺗﻔﺎﻭﺕ ﺗﻌﺪﺍﺩ ﻭﺍﻗﻌﯽ ﻫﺮﮐﺪﺍﻡ ﺍﺯﺣﺮ ﻭﻑ ﻣﺜﻞ ‪ xj‬ﺍﺯﺗﻌﺪﺍﺩ ﻣﺘﻮﺳﻂ ﺁﻥ‬
‫ﯾﻌﻨﯽ ‪ mpj‬ﺩﺭﻣﻘﺎﯾﺴﻪ ﺑﺎﻭﺍﺭ ﯾﺎﻧﺲ ‪ σj‬ﻣﻘﺪﺍﺭ ﻣﻌﯿﻨﯽ ﺑﺎﺷﺪ‪.‬‬
‫‪۲۳‬‬
‫‪ n‬ﺗﻌﺮ ﯾﻒ‪ :‬ﺭﺷﺘﻪ ‪ α‬ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ‪ k‬ﯾﺎ ‪ k-typical‬ﺧﻮﺍﻧﺪﻩ ﻣﯽ ﺷﻮﺩ ﺍﮔﺮ ﺷﺮﻁ ﺯﯾﺮ ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ‪:‬‬
‫‪fi (α) − mpi‬‬

‫√|‬ ‫‪|< k‬‬ ‫‪∀ i = 1, 2, · · · N.‬‬ ‫)‪(۶۵‬‬
‫) ‪mpi (1 − pi‬‬
‫ﺑﺮﺍﯼ ﺍﺩﺍﻣﻪ ﺑﺤﺚ ﺧﻮﺩ ﺍﺣﺘﯿﺎﺝ ﺑﻪ ﺩﻭ ﻟﻢ ﺧﯿﻠﯽ ﺳﺎﺩﻩ ﺩﺭ ﻧﻈﺮ ﯾﻪ ﺍﺣﺘﻤﺎﻝ ﺩﺍﺭ ﯾﻢ‪ .‬ﺍﯾﻦ ﻟﻢ ﻫﺎ ﺩﺍﻣﻨﻪ ﮐﺎﺭﺑﺮﺩ ﺧﯿﻠﯽ ﻭﺳﯿﻌﯽ ﺩﺍﺭﻧﺪ ﻭ ﯾﺎﺩﮔﯿﺮﯼ‬
‫ﺁﻧﻬﺎ ﺍﻫﻤﯿﺖ ﺩﺍﺭﺩ‪.‬‬
‫‪ n‬ﻟﻢ ﺍﻭﻝ ‪ :‬ﻧﺎﻣﺴﺎﻭﯼ ﺍﻭﻝ ﭼﺒﯿﺸﻒ )‪:(Chebyshev inequlity‬‬
‫ﺍﻟﻒ ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﻣﻘﺎﺩﯾﺮ ﻣﺜﺒﺖ } ‪ {x1 , x2 , · · · xN‬ﺭﺍ ﺑﺎﺍﺣﺘﻤﺎﻻﺕ } ‪ {p1 , p2 , · · · pN‬ﺍﺧﺘﯿﺎﺭﻣﯽ ﮐﻨﺪ ‪.‬‬
‫ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﻋﺪﺩ ﻣﺜﺒﺖ ‪،α‬‬
‫‪X‬‬
‫≤ )‪P (X ≥ α‬‬ ‫)‪(۶۶‬‬
‫‪α‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ‪ X‬ﻣﺘﻮﺳﻂ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ‪ X‬ﺍﺳﺖ‪.‬‬
‫‪ n‬ﺍﺛﺒﺎﺕ ‪:‬‬
‫∞‬
‫∑‬ ‫∑‬‫∞‬
‫‪x‬‬ ‫‪X‬‬
‫= )‪P (X ≥ α‬‬ ‫≤ )‪P (x‬‬ ‫‪P (x) ≤ .‬‬ ‫)‪(۶۷‬‬
‫‪x=α‬‬ ‫‪x=α‬‬
‫‪α‬‬ ‫‪α‬‬
‫‪ n‬ﻟﻢ ﺩﻭﻡ ‪ :‬ﻧﺎﻣﺴﺎﻭﯼ ﺩﻭﻡ ﭼﺒﯿﺸﻒ )‪:(Chebyshev inequlity‬‬
‫ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﻣﻘﺎﺩﯾﺮ ﺩﻟﺨﻮﺍﻩ ﻣﺜﺒﺖ ﯾﺎﻣﻨﻔﯽ ﺍﺧﺘﯿﺎﺭﻣﯽ ﮐﻨﺪ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﻋﺪﺩ ‪k‬‬
‫‪1‬‬
‫≤ ) ‪P ((X − X)2 ≥ k 2 σx2‬‬ ‫‪.‬‬ ‫)‪(۶۸‬‬
‫‪k2‬‬
‫ﺍﺛﺒﺎﺕ ‪ :‬ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ‪ T = (X − X)2‬ﺭﺍ ﺩﺭﻧﻈﺮﻣﯽ ﮔﯿﺮ ﯾﻢ‪ .‬ﺍﯾﻦ ﻣﺘﻐﯿﺮﻓﻘﻂ ﻣﻘﺎﺩﯾﺮ ﻣﺜﺒﺖ ﺭﺍ ﺍﺧﺘﯿﺎﺭ ﻣﯽ ﮐﻨﺪ‪.‬‬
‫‪۲۴‬‬
‫ﺿﻤﻨﺎً ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ‪ .T = σx2‬ﺍﺯ ﻗﺴﻤﺖ ﺍﻟﻒ ﺩﺍﺭ ﯾﻢ‪:‬‬
‫‪T‬‬
‫≤ )‪P (T ≥ α‬‬ ‫‪.‬‬ ‫)‪(۶۹‬‬
‫‪α‬‬
‫ﻫﺮﮔﺎﻩ ﺑﻪ ﺟﺎﯼ ‪ α‬ﺩﺭﻧﺎﻣﺴﺎﻭﯼ ﺍﺧﯿﺮ ﻗﺮﺍﺭﺩﻫﯿﻢ ‪ k 2 σx2‬ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ‪:‬‬
‫‪σx2‬‬ ‫‪1‬‬
‫≤ ) ‪P ((X − X)2 ≥ k 2 σx2‬‬ ‫‪= 2.‬‬ ‫)‪(۷۰‬‬
‫‪k 2 σx2‬‬ ‫‪k‬‬
‫ﺍﯾﻦ ﻧﺎﻣﺴﺎﻭﯼ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﻧﯿﺰ ﻣﯽ ﺗﻮﺍﻥ ﻧﻮﺷﺖ‪:‬‬
‫‪1‬‬
‫≤ ) ‪P (|X − X| ≥ kσx‬‬ ‫‪,‬‬ ‫)‪(۷۱‬‬
‫‪k2‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺩﺭ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺣﺮﻑ‪ Z‬ﮐﻤﺘﺮ ﯾﻦ ﻓﺮﮐﺎﻧﺲ ﺭﺍ ﺩﺍﺭﺩ ﻭ ﺍﺣﺘﻤﺎﻝ ﯾﺎﻓﺘﻦ ﺁﻥ ﺩﺭ ﻣﺘﻦ ﻫﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‬
‫‪.P (z) = 0.074‬‬
‫ﺍﻟﻒ‪ :‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺩﺭ ﯾﮏ ﻣﺘﻦ ﮐﻪ ﺩﺍﺭﺍﯼ ‪ N‬ﺣﺮﻑ ﺍﺳﺖ‪ ،‬ﺗﻌﺪﺍﺩ ‪ k‬ﺣﺮﻑ ‪ z‬ﺣﻀﻮﺭ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﭼﻘﺪﺭ ﺍﺳﺖ؟‬
‫ﺏ‪ :‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺍﺯ ﺗﻌﺪﺍﺩ ﻣﺘﻮﺳﻂ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ﮐﻤﺘﺮ ﺍﺯ ﺩﻭ ﻭﺍﺭ ﯾﺎﻧﺲ ﻓﺎﺻﻠﻪ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﭼﻘﺪﺭ ﺍﺳﺖ؟‬
‫ﺭﺍﻫﻨﻤﺎﯾﯽ‪ :‬ﻣﯽ ﺗﻮﺍﻧﯿﺪ ﺍﺯ ﺗﻮﺯﯾﻊ ﺩﻭﺟﻤﻠﻪ ﺍﯼ ﯾﺎ ﺗﻮﺯﯾﻊ ﭘﻮﺍﺳﻮﻥ ﮐﻪ ﺣﺪ ﺗﻮﺯﯾﻊ ﺩﻭﺟﻤﻠﻪ ﺍﯼ ﺑﺮﺍﯼ ﻭﻗﺘﯽ ﺍﺳﺖ ﮐﻪ ‪ p << 1‬ﺑﺎﺷﺪ‬
‫ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﺪ‪.‬‬
‫ﺟﻮﺍﺏ ﻗﺴﻤﺖ ﺏ ﺭﺍ ﺑﺮﺍﯼ ﻭﻗﺘﯽ ﮐﻪ ‪ N = 100, 000‬ﺍﺳﺖ ﺑﺪﺳﺖ ﺁﻭﺭ ﯾﺪ‪.‬‬
‫ﭘﺲ ﺍﺯ ﺍﯾﻦ ﻣﻘﺪﻣﺎﺕ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﭘﺎﺳﺦ ﺳﻮﺍﻝ ﺍﻭﻝ ﺑﭙﺮﺩﺍﺯﯾﻢ‪ .‬ﺍﺯ ﺧﻮﺩ ﻣﯽ ﭘﺮﺳﯿﻢ ﮐﻪ ﺍﮔﺮ ﺩﺭ ﯾﮏ ﻣﺘﻦ ﯾﮏ ﺭﺷﺘﻪ ﺑﻪ ﻃﻮﻝ ‪ m‬ﺭﺍ ﺑﻪ‬
‫ﻃﻮﺭ ﺗﺼﺎﺩﻓﯽ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﻧﺒﺎﺷﺪ ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﭘﺎﺳﺦ ﺍﯾﻦ ﺳﻮﺍﻝ ﺩﺭ ﻗﻀﯿﻪ ﺯﯾﺮ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬
‫‪۲۵‬‬
‫ﺷﮑﻞ ‪ :۳‬ﻧﺎﺣﯿﻪ ﻭﺳﻂ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﺪ‪ .‬ﺍﯾﻦ ﻧﺎﺣﯿﻪ ﺷﺎﻣﻞ ‪ T‬ﺗﺎ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺍﺳﺖ‪ .‬ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ‬
‫ﺣﺴﺎﺏ ﮐﺮﺩﻩ ﺍﯾﻢ‪ .‬ﻫﺮﮔﺎﻩ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﺭﺍ ﮐﻪ ﻫﺮ ﺭﺷﺘﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ‪ ،‬ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﻢ‪ .‬ﺑﺮﺍﯼ‬
‫ﺗﻮﺿﯿﺢ ﺩﻗﯿﻖ ﺗﺮ ﺑﻪ ﻣﺘﻦ ﻣﺮﺍﺟﻌﻪ ﮐﻨﯿﺪ‪.‬‬
‫ﺍﺳﺖ‪.‬‬ ‫‪N‬‬
‫‪k2‬‬ ‫‪ n‬ﻗﻀﯿﻪ‪ :‬ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻏﯿﺮﻣﺘﻌﺎﺭﻑ ﮐﻤﺘﺮ ﺍﺯ‬
‫ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﺣﺪ ﻣﺴﺘﻘﻞ ﺍﺯ ﻃﻮﻝ ﺭﺷﺘﻪ ﯾﻌﻨﯽ ‪ m‬ﺍﺳﺖ ﻭ ﺩﺭ ﺿﻤﻦ ﺑﻪ ﻋﺪﺩ‪ k‬ﺑﺴﺘﮕﯽ ﺩﺍﺭﺩ‪ .‬ﻫﺮﭼﻪ ﮐﻪ ﻣﺎ ﻋﺪﺩ‪ k‬ﺭﺍ ﺑﺰ ﺭﮒ ﺗﺮ‬
‫ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﯾﻌﻨﯽ ﺍﯾﻦ ﮐﻪ ﺗﻌﺮ ﯾﻒ ﺧﻮﺩ ﺭﺍ ﺍﺯ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﻓﺮﺍﺥ ﺗﺮ ﮐﻨﯿﻢ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ ﮐﻤﺘﺮ ﻣﯽ ﺷﻮﺩ ﮐﻪ ﺍﻟﺒﺘﻪ ﻃﺒﯿﻌﯽ ﺍﺳﺖ‪.‬‬
‫‪ n‬ﺍﺛﺒﺎﺕ‪ :‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﯾﮏ ﺭﺷﺘﻪ ‪ α‬ﻣﺘﻌﺎﺭﻑ ﻧﺒﺎﺷﺪ ﺭﺍ ﺑﺎ ‪ P0‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺑﻨﺎﺑﺮﺗﻌﺮ ﯾﻒ ﺩﺍﺭ ﯾﻢ‪:‬‬
‫‪fi (α) − mpi‬‬ ‫∑‬ ‫‪N‬‬

‫‪fi (α) − mpi‬‬
‫√ |{‪P0 = P rob‬‬ ‫= } ﺑﺮﺍﯼ ﺣﺪﺍﻗﻞ ﯾﮏ ‪|≥ k, i‬‬ ‫√ |( ‪P‬‬ ‫‪|≥ k).‬‬ ‫)‪(۷۲‬‬
‫) ‪mpi (1 − pi‬‬ ‫‪i=1‬‬
‫) ‪mpi (1 − pi‬‬
‫ﺑﺎﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻧﺎﻣﺴﺎﻭﯼ ﭼﺒﯿﺸﻒ ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ‬
‫∑‬‫‪N‬‬
‫‪1‬‬ ‫‪N‬‬
‫≤ ‪P0‬‬ ‫‪2‬‬
‫‪= 2 ≤ ϵ.‬‬ ‫)‪(۷۳‬‬
‫‪i=1‬‬
‫‪k‬‬ ‫‪k‬‬
‫ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻣﯽ ﮔﻮﯾﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺍﺯ ‪ 1 − kN2‬ﺑﯿﺸﺘﺮ ﺍﺳﺖ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﮔﺮ ﯾﮏ ﺭﺷﺘﻪ ‪ m‬ﺗﺎﯾﯽ ﺑﻪ ﻃﻮﺭ ﺗﺼﺎﺩﻓﯽ‬
‫‪۲۶‬‬
‫ﺍﺯ ﯾﮏ ﻣﺘﻦ ﺑﺮﺩﺍﺭ ﯾﻢ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺍﺯ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﺑﯿﺸﺘﺮ ﺍﺳﺖ‪ .‬ﺍﮔﺮ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ ﺭﺍ ﺑﺎ ‪ Ptypical‬ﻧﺸﺎﻥ ﺩﻫﯿﻢ‬
‫ﺩﺍﺭ ﯾﻢ‪:‬‬
‫‪N‬‬
‫‪1−‬‬ ‫‪≤ Ptypical ≤ 1.‬‬ ‫)‪(۷۴‬‬
‫‪k2‬‬
‫ﻫﺮﮔﺎﻩ ﻗﺮﺍﺭ ﺩﻫﯿﻢ ‪ k = 10‬ﻭ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ‪ ۳۲‬ﺗﺎ ﺑﮕﯿﺮ ﯾﻢ ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺍﺯ‬
‫‪ ۰.۶۸‬ﺑﯿﺸﺘﺮ ﺍﺳﺖ‪ .‬ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﯾﮏ ﺣﺪ ﭘﺎﯾﯿﻦ ﺍﺳﺖ‪ .‬ﻣﻤﮑﻦ ﺍﺳﺖ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﻭﺍﻗﻌﯽ ﺑﯿﺸﺘﺮ ﺍﺯ ﺍﯾﻦ ﻣﻘﺪﺍﺭ ﺑﺎﺷﺪ‪.‬‬
‫‪ n‬ﻗﻀﯿﻪ‪ :‬ﻫﺮﮔﺎﻩ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻣﺘﻌﺎﺭﻑ ﺭﺍ ﺑﺎ ‪ T‬ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﺁﻧﮕﺎﻩ‬
‫√‬ ‫√‬
‫‪2mH(X)−‬‬ ‫‪mA‬‬
‫‪≤ T ≤ 2mH(X)+‬‬ ‫‪mA‬‬
‫)‪(۷۵‬‬
‫ﮐﻪ ﺩﺭ ﺁﻥ‬
‫∑‬
‫√ ‪N‬‬
‫‪A=−‬‬ ‫‪pi (1 − pi ) log pi .‬‬ ‫)‪(۷۶‬‬
‫‪i=1‬‬
‫ﺍﺛﺒﺎﺕ‪ :‬ﺑﻪ ﺷﮑﻞ )‪ (۳‬ﻧﮕﺎﻩ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ‪ ،‬ﯾﻌﻨﯽ ‪ ،‬ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﺩﺭ ﻭﻥ ﻧﺎﺣﯿﻪ ﺭﻧﮕﯽ‬
‫ﺑﺎﺷﺪ ﺭﺍ ﯾﮏ ﺑﺎﺭ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻗﻀﯿﻪ ﭼﺒﯿﺸﻒ ﺣﺴﺎﺏ ﮐﺮﺩﻩ ﺍﯾﻢ‪ .‬ﺣﺎﻝ ﯾﮏ ﺑﺎﺭ ﺩﯾﮕﺮ ﻫﻢ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ ﺭﺍ ﺑﻪ ﺷﯿﻮﻩ ﻣﺘﻔﺎﻭﺗﯽ ﺣﺴﺎﺏ ﻣﯽ ﮐﻨﯿﻢ‬
‫ﻭ ﺍﺯ ﺁﻥ ﺑﺮﺍﯼ ﺑﺪﺳﺖ ﺁﻭﺭﺩﻥ ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﯾﮏ ﻣﻨﺒﻊ ﺑﻪ ﺻﻮﺭﺕ ﺗﺼﺎﺩﻓﯽ ﺭﺷﺘﻪ ﻫﺎ ﺭﺍ ﺗﻮﻟﯿﺪ‬
‫ﻣﯽ ﮐﻨﺪ‪ .‬ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺻﻮﺭﺕ ﻣﺠﺎﺯﯼ ﺗﺼﻮﺭ ﮐﻨﯿﻢ ﮐﻪ ﺭﺷﺘﻪ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ﺗﯿﺮﻫﺎﯼ ﯾﮏ ﺑﺎﺯﯼ ﺩﺍﺭﺕ ﻫﺴﺘﻨﺪ ﮐﻪ ﺑﻪ ﺻﻮﺭﺕ ﺗﺼﺎﺩﻓﯽ‬
‫ﺷﻠﯿﮏ ﻣﯽ ﺷﻮﻧﺪ ﻭ ﻣﻤﮑﻦ ﺍﺳﺖ ﺑﻪ ﺩﺭ ﻭﻥ ﻧﺎﺣﯿﻪ ﺭﻧﮕﯽ ﺍﺻﺎﺑﺖ ﮐﻨﻨﺪ ﯾﺎ ﻧﮑﻨﻨﺪ‪ .‬ﺩﺭ ﻣﺜﺎﻝ ﺳﺎﺩﻩ ﺍﯼ ﮐﻪ ﺍﺯ ﺍﺑﺘﺪﺍﯼ ﺍﯾﻦ ﺩﺭﺱ ﺑﻪ ﺁﻥ ﺍﺷﺎﺭﻩ‬
‫ﮐﺮﺩﻩ ﺍﯾﻢ ‪ ،‬ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺯ ﺧﻮﺩ ﺑﭙﺮﺳﯿﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺗﻮﻟﯿﺪ ﯾﮏ ﺭﺷﺘﻪ ‪ m‬ﺗﺎﯾﯽ ﻣﻌﯿﻦ ﻣﺜﻞ ‪α = AABBCDBDADDAABCCCC‬‬
‫ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﻫﺮﮔﺎﻩ ﮐﻪ ﺣﺮ ﻭﻑ ﺭﺍ ﻣﺴﺘﻘﻞ ﺍﺯ ﻫﻢ ﺑﮕﯿﺮ ﯾﻢ ﭘﺎﺳﺦ ﺍﯾﻦ ﺳﻮﺍﻝ ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ‬
‫‪P (α) = PA PA PB PB PC PC · · · .‬‬
‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺩﺭ ﺣﺎﻟﺖ ﮐﻠﯽ ﺍﺣﺘﻤﺎﻝ ﭘﯿﺪﺍﮐﺮﺩﻥ ﯾﮏ ﺭﺷﺘﻪ ﻣﺜﻞ ‪ α‬ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‪:‬‬
‫) ‪f (α1‬‬ ‫) ‪f (α2‬‬ ‫) ‪f (αN‬‬

‫‪P (α) = P1‬‬ ‫‪P2‬‬ ‫‪· · · PN‬‬ ‫‪.‬‬ ‫)‪(۷۷‬‬
‫‪۲۷‬‬
‫ﯾﮏ ﺭﺷﺘﻪ ﺩﻟﺨﻮﺍﻩ ﺍﺯ ﺍﯾﻦ ﻧﻮﻉ ﺍﻟﺰﺍﻣﺎ ﻧﻤﻮﻧﻪ ﻧﯿﺴﺖ ﻭﻟﯽ ﺍﮔﺮ ﭘﺎﺭﺍﻣﺘﺮﻫﺎﯼ ) ‪ f (αi‬ﺁﻥ ﺩﺭ ﻧﺎﻣﺴﺎﻭﯼ )‪ (۶۵‬ﺻﺪﻕ ﮐﻨﻨﺪ ﺁﻧﻮﻗﺖ ﺣﺘﻤﺎ ﻧﻤﻮﻧﻪ‬
‫ﺍﺳﺖ‪ .‬ﭘﺲ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻨﮑﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ )ﯾﻌﻨﯽ ﺩﺭ ﺩﺭ ﻭﻥ ﻧﺎﺣﯿﻪ ﺭﻧﮕﯽ ﻗﺮﺍﺭ ﺑﮕﯿﺮﺩ( ﺭﺍ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﻃﺮ ﯾﻖ ﺯﯾﺮ ﺑﺪﺳﺖ ﺑﯿﺎﻭﺭ ﯾﻢ‪:‬‬
‫∑‬
‫‪N‬‬
‫= )‪log P (α‬‬ ‫‪fi (α) log pi‬‬ ‫)‪(۷۸‬‬
‫‪i=1‬‬
‫ﻭﺩﺭﻧﺘﯿﺠﻪ ﺗﺮﮐﯿﺐ ﺑﺎ )‪ (65‬ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ‪:‬‬
‫∑‬
‫‪N‬‬ ‫√‬ ‫∑‬
‫‪N‬‬ ‫√‬
‫≤ )‪(mpi − k mpi (1 − pi )) log pi ≤ log P (α‬‬ ‫‪(mpi + k mpi (1 − pi )) log pi .‬‬ ‫)‪(۷۹‬‬
‫‪i=1‬‬ ‫‪i=1‬‬
‫ﺣﺎﻝ ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‬
‫∑‬
‫√ ‪N‬‬
‫‪A := −k‬‬ ‫‪pi (1 − pi ) log pi .‬‬ ‫)‪(۸۰‬‬
‫‪i=1‬‬
‫ﺩﺭﻧﺘﯿﺠﻪ ﻧﺎﻣﺴﺎﻭﯼ ﻗﺒﻠﯽ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺩﺭﻣﯽ ﺁﯾﺪ‪:‬‬
‫√‬ ‫√‬
‫‪−mH + A m ≤ log P (α) ≤ −mH − A m,‬‬ ‫)‪(۸۱‬‬
‫ﮐﻪ ﺍﺯﺁﻥ ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ‬
‫√‬ ‫√‬
‫‪2−mH−A‬‬ ‫‪m‬‬
‫‪≤ Ptypical (α) ≤ 2−mH+A‬‬ ‫‪m‬‬
‫‪.‬‬ ‫)‪(۸۲‬‬
‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﯾﮏ ﺣﺪ ﺑﺎﻻ ﻭ ﭘﺎﯾﯿﻦ ﺑﺮﺍﯼ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺭﺍ ﺑﺪﺳﺖ ﺁﻭﺭﺩﯾﻢ ﯾﻌﻨﯽ‬
‫‪Pmin ≤ Ptypical (α) ≤ Pmax ,‬‬ ‫)‪(۸۳‬‬
‫√‬ ‫√‬
‫‪Pmin = 2−mH−A‬‬ ‫‪m‬‬
‫‪,‬‬ ‫‪Pmax = 2−mH+A‬‬ ‫‪m‬‬
‫‪.‬‬ ‫)‪(۸۴‬‬
‫ﺣﺎﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺗﻮﻟﯿﺪ ﺭﺷﺘﻪ ﻫﺎ ﯼ ﻧﻮﻋﯽ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﺯﯾﺮ ﺣﺴﺎﺏ ﮐﻨﯿﻢ‪ .‬ﺍﮔﺮ ﺗﻌﺪﺍﺩ ‪ T‬ﺗﺎ ﺭﺷﺘﻪ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ ﻭ ﺁﻧﻬﺎ ﺭﺍ‬
‫ﺍﺯ ‪ 1‬ﺗﺎ ‪ T‬ﺷﻤﺎﺭﻩ ﮔﺬﺍﺭﯼ ﮐﺮﺩﻩ ﺑﺎﺷﯿﻢ ﺩﺍﺭ ﯾﻢ‪:‬‬
‫‪Ptypical = Ptypical (1) + Ptypical (2) + · · · Ptypical (T ).‬‬ ‫)‪(۸۵‬‬
‫‪۲۸‬‬
‫ﺑﺎ ﺗﺮﮐﯿﺐ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺑﺎ ﺭﺍﺑﻄﻪ ﻗﺒﻠﯽ ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ ﮐﻪ‬
‫‪Ptypical ≤ Pmax × T,‬‬ ‫‪T × Pmin ≤ Ptypical .‬‬ ‫)‪(۸۶‬‬
‫ﺍﺯ ﻃﺮﻓﯽ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ‬
‫‪N‬‬
‫‪1−‬‬ ‫‪≤ Ptypical ,‬‬ ‫‪Ptypical ≤ 1.‬‬ ‫)‪(۸۷‬‬
‫‪k2‬‬
‫ﺑﺎ ﺗﺮﮐﯿﺐ ﻣﻨﺎﺳﺐ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻫﺎ ﺑﺎ ﺭ ﻭﺍﺑﻂ )( ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ‪:‬‬
‫‪N‬‬ ‫‪N mH−√mA‬‬

‫‪1−‬‬ ‫‪≤ T × PM ax‬‬ ‫‪−→ (1 −‬‬ ‫‪)2‬‬ ‫‪≤ T,‬‬ ‫)‪(۸۸‬‬
‫‪k2‬‬ ‫‪k2‬‬
‫ﻭ‬
‫√‬
‫‪T × PM in ≤ 1‬‬ ‫‪−→ T ≤ 2mH+‬‬ ‫‪mA‬‬
‫‪.‬‬ ‫)‪(۸۹‬‬
‫ﺩﺭ ﺣﺪ ﺭﺷﺘﻪ ﻫﺎﯼ ﻃﻮﻻﻧﯽ ‪ ،‬ﯾﻌﻨﯽ )‪ (m >> 1‬ﺟﻤﻠﻪ ﺩﻭﻡ ﺩﺭ ﻣﻘﺎﯾﺴﻪ ﺑﺎ ﺭﺷﺘﻪ ﺍﻭﻝ ﺑﻪ ﺳﻤﺖ ﺻﻔﺮ ﻣﯿﻞ ﻣﯽ ﮐﻨﺪ ﻭ ﺩﺭ ﻧﺘﯿﺠﻪ ﺍﯾﻦ‬
‫ﺭﺍﺑﻄﻪ ﻣﯽ ﮔﻮﯾﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﺧﺎﺹ ﻣﺜﻞ ‪ α‬ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ ﺑﺴﺘﮕﯽ ﺑﻪ ﻧﻮﻉ ﺁﻥ ﺭﺷﺘﻪ ﻧﺪﺍﺭﺩ ﻭ ﺍﯾﻦ ﺍﺣﺘﻤﺎﻝ‬
‫ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‬
‫‪Ptypical (α) = 2−mH(X)+δm‬‬ ‫)‪(۹۰‬‬
‫‪lim δm = 0.‬‬ ‫)‪(۹۱‬‬

‫∞∈‪m‬‬
‫ﻣﻌﻨﺎﯼ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﺭ ﻭﯼ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﯾﮑﻨﻮﺍﺧﺖ ﺍﺳﺖ‪ .‬ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﻧﻤﯽ ﮔﻮﯾﺪ‬
‫ﮐﻪ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺭ ﻭﯼ ﻫﻤﻪ ﺭﺷﺘﻪ ﻫﺎ ﯾﮑﻨﻮﺍﺧﺖ ﺍﺳﺖ ﺑﻠﮑﻪ ﻣﯽ ﮔﻮﯾﺪ ﮐﻪ ﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﻓﻘﻂ ﺭ ﻭﯼ ﻗﺴﻤﺘﯽ ﺍﺯ ﻓﻀﺎﯼ ﺗﻤﺎﻣﯽ ﺭﺷﺘﻪ ﻫﺎ ﮐﻪ‬
‫ﻣﺮﺑﻮﻁ ﺑﻪ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺍﺳﺖ ﯾﮏ ﻧﻮﺍﺧﺖ ﺍﺳﺖ‪.‬‬
‫‪۲۹‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻭﯾﮑﯿﭙﺪﯾﺎ ﯾﺎ ﻫﺮ ﻣﻨﺒﻊ ﺩﯾﮕﺮﯼ ﮐﻪ ﻣﯽ ﺩﺍﻧﯿﺪ ﻓﺮﮐﺎﻧﺲ ﺣﺮ ﻭﻑ ﻣﺨﺘﻠﻒ ﺍﻧﮕﻠﯿﺴﯽ ﺭﺍ ﺑﺪﺳﺖ ﺁﻭﺭ ﯾﺪ‪ .‬ﺗﺎﺑﻊ‬
‫√ ∑‬
‫ﺁﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ﺭﺍ ﺑﺮﺍﯼ ﺍﯾﻦ ﻣﺘﻐﯿﺮ ﺗﺼﺎﺩﻓﯽ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪ .‬ﺳﭙﺲ ﺗﺎﺑﻊ ‪ A(X) = k i pi (1 − pi ) log2 pi‬ﺭﺍ ﺑﺮﺍﯼ ﺁﻥ‬
‫√‬ ‫√‬
‫‪ 2−mH−‬ﺭﺍ ﺑﺮﺍﯼ ﻣﻘﺎﺩﯾﺮ ﻣﺨﺘﻠﻒ ‪ k‬ﻭ‪ m‬ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪ .‬ﺍﯾﻦ ﮐﻤﯿﺖ ﻫﺎ‬ ‫‪mA‬‬
‫‪ 2−mH+‬ﻭ‬ ‫‪mA‬‬
‫ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪ .‬ﺳﭙﺲ ﮐﻤﯿﺖ ﻫﺎﯼ‬
‫ﺭﺍ ﺑﻪ ﻋﻨﻮﺍﻥ ﺗﻮﺍﺑﻌﯽ ﺍﺯ ﺩﻭ ﻣﻘﺪﺍﺭ ‪ m‬ﻭ‪ k‬ﺭﺳﻢ ﮐﻨﯿﺪ ‪.‬‬
‫ﺳﻮﺍﻝ ﺁﺧﺮ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺗﻌﺪﺍﺩ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﭼﻘﺪﺭ ﺍﺳﺖ؟ ﭘﺎﺳﺦ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍﻝ ﺑﺎ ﺗﺮﮐﯿﺐ ﺩﻭ ﻧﺘﯿﺠﻪ ﻗﺒﻠﯽ ﺑﺪﺳﺖ ﻣﯽ‬
‫ﺁﻭﺭ ﯾﻢ‪ .‬ﺗﻌﺪﺍﺩ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺑﻪ ﻃﻮﻝ ‪ m‬ﺭﺍ ﺑﺎ )‪ Ntypical (m‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﯾﮑﻨﻮﺍﺧﺖ ﺑﻮﺩﻥ ﺗﺎﺑﻊ‬
‫ﺗﻮﺯﯾﻊ ﺭ ﻭﯼ ﺭﺷﺘﻪ ﻫﺎﯼ ﯾﮑﻨﻮﺍﺧﺖ ﺛﺎﺑﺖ ﮐﺮﺩﻩ ﺍﯾﻢ‬
‫)‪Ptypical = Ntypical (m)Ptypical (α‬‬ ‫)‪(۹۲‬‬
‫ﻭ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺭﺍﺑﻄﻪ ‪ ۷۴‬ﺩﺍﺭ ﯾﻢ‬
‫‪N‬‬
‫‪1−‬‬ ‫‪≤ Ntypical (m)Ptypical (α) ≤ 1.‬‬ ‫)‪(۹۳‬‬
‫‪k2‬‬
‫ﻫﺮﮔﺎﻩ ﺑﻪ ﺣﺪﻭﺩﯼ ﮐﻪ ﺭ ﻭﯼ )‪ Ptypical (α‬ﺑﺪﺳﺖ ﺁﻭﺭﺩﯾﻢ ﺩﻗﺖ ﮐﻨﯿﻢ ﻧﺘﯿﺠﻪ ﻣﯽ ﺷﻮﺩ ﮐﻪ‪:‬‬
‫)‪N mH(X‬‬
‫‪(1 −‬‬ ‫‪)2‬‬ ‫‪≤ Ntypical (m) ≤ 2mH(X) .‬‬ ‫)‪(۹۴‬‬
‫‪k2‬‬
‫ﺩﻗﺖ ﮐﻨﯿﺪ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﺍﯾﻦ ﮐﻪ ﯾﮏ ﺭﺷﺘﻪ ﻧﻤﻮﻧﻪ ﻧﺒﺎﺷﺪ ﺭﺍ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﺎ ﺑﺰ ﺭﮒ ﮐﺮﺩﻥ ‪ k‬ﻫﺮ ﭼﻘﺪﺭ ﮐﻪ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﮐﻮﭼﮏ ﮐﻨﯿﻢ ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺍﻟﻔﺒﺎﯾﯽ ﮐﻪ ﺩﺭ ﺭﺍﺑﻄﻪ )‪ (۴۶‬ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ ﺭﺍ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ‪.‬‬
‫ﺍﻟﻒ‪ :‬ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﮐﻪ ﺍﺣﺘﻤﺎﻝ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺍﺯ ‪ 0.95‬ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ‪ .‬ﺣﺴﺎﺏ ﮐﻨﯿﺪ ﮐﻪ ﺗﺎ ﭼﻨﺪ ﺗﺎ ﻭﺍﺭ ﯾﺎﻧﺲ ﻧﺴﺒﺖ ﺑﻪ ﻣﺘﻮﺳﻂ‬
‫ﺗﻌﺪﺍﺩ ﺣﺮ ﻭﻑ ﺭﺍ ﻣﯽ ﺑﺎﯾﺴﺖ ﺟﺰ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺩﺭ ﻧﻈﺮ ﺑﮕﯿﺮ ﯾﻢ؟‬
‫ﺏ‪ :‬ﺍﮔﺮ ﻃﻮﻝ ﺭﺷﺘﻪ ﻫﺎ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ 100‬ﺑﺎﺷﺪ‪ ،‬ﺣﺪﻭﺩ ﺑﺎﻻ ﻭ ﭘﺎﯾﯿﻦ ﺭﺍ ﺑﺮﺍﯼ ﺗﻌﺪﺍﺩ ﮐﻞ ﺭﺷﺘﻪ ﻫﺎﯼ ﻧﻤﻮﻧﻪ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪ .‬ﺣﺴﺎﺏ ﮐﻨﯿﺪ‬
‫‪۳۰‬‬
‫ﮐﻪ ﺍﯾﻦ ﺭﺷﺘﻪ ﻫﺎ ﺭﺍ ﺑﺎ ﭼﻨﺪ ﺗﺎ ﺑﯿﺖ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﮐﺪ ﮐﻨﯿﻢ ﯾﻌﻨﯽ ﭼﻘﺪﺭ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺁﻧﻬﺎ ﺭﺍ ﻓﺸﺮﺩﻩ ﮐﻨﯿﻢ‪.‬‬
‫ﺝ‪ :‬ﻣﻘﺪﺍﺭ ﻓﺸﺮﺩﻩ ﺳﺎﺯﯼ ﺭﺍ ﺑﺮﺍﯼ ﻭﻗﺘﯽ ﮐﻪ ﻃﻮﻝ ﺭﺷﺘﻪ ﻫﺎ ﺑﺮﺍﺑﺮ ﺑﺎ ‪ 500‬ﺍﺳﺖ ﻧﯿﺰ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺗﻤﺮ ﯾﻦ ﻗﺒﻠﯽ ﺭﺍ ﺑﺮﺍﯼ ﺍﻟﻔﺒﺎﯼ ﻣﻌﺮﻓﯽ ﺷﺪﻩ ﺩﺭ ﺭﺍﺑﻄﻪ )‪ (۵۳‬ﻧﯿﺰ ﺍﻧﺠﺎﻡ ﺩﻫﯿﺪ‪.‬‬
‫‪ n‬ﺗﻤﺮ ﯾﻦ‪ :‬ﺗﻤﺮ ﯾﻦ ﻗﺒﻠﯽ ﺭﺍ ﺑﺮﺍﯼ ﺍﻟﻔﺒﺎﯼ ﻣﻌﺮﻓﯽ ﺷﺪﻩ ﺩﺭ ﺭﺍﺑﻄﻪ )‪ (۵۵‬ﻧﯿﺰ ﺍﻧﺠﺎﻡ ﺩﻫﯿﺪ‪.‬‬
‫‪ ۷‬ﺿﻤﯿﻤﻪ‬
‫ﺍﻭﻟﯿﻦ ﻣﺴﺌﻠﻪ ﺍﯼ ﮐﻪ ﺑﺎﺁﻥ ﻣﻮﺍﺟﻪ ﻫﺴﺘﯿﻢ ﯾﮑﺘﺎﯾﯽ ﮐﺪ ﮔﺸﺎﯾﯽ ﺍﺳﺖ‪ .‬ﺑﺮﺍﯼ ﻣﺜﺎﻝ ﺑﻪ ﺟﺪﻭﻝ ﺷﻤﺎﺭﻩ ﯾﮏ ﺗﻮﺟﻪ ﮐﻨﯿﺪ‪:‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ﺳﺘﻮﻥ ﺳﻤﺖ ﭼﭗ ﮐﻠﻤﻪ ﻫﺎ ﻭ ﺳﺘﻮﻥ ﺳﻤﺖ ﺭﺍﺳﺖ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﺭﺍ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﺪ‪ .‬ﺣﺎﻝ ﻫﺮﮔﺎﻩ ﮐﺪ ﭘﯿﺎﻡ ‪ 010‬ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ‬
‫ﮐﻨﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺁﻥ ﺭﺍ ﺑﻪ ﮐﺪﯼ ﺑﺮﺍﯼ ﻫﺮﮐﺪﺍﻡ ﺍﺯ ﭘﯿﺎﻡ ﻫﺎﯼ ‪ x2 , x3 x1 , x1 x4‬ﺗﻌﺒﯿﺮ ﮐﻨﯿﻢ‪ .‬ﺩﺭﻧﺘﯿﺠﻪ ﺍﯾﻦ ﻧﻮﻉ ﮐﺪ ﮔﺬﺍﺭﯼ ﺩﺍﺭﺍﯼ ﺍﺑﻬﺎﻡ‬
‫ﺯﯾﺎﺩ ﺍﺳﺖ ﻭ ﮐﺪ ﮔﺬﺍﺭﯼ ﺧﻮﺑﯽ ﻧﯿﺴﺖ‪ .‬ﻧﺨﺴﺖ ﺑﺎﯾﺪ ﯾﮏ ﺻﻔﺖ ﺍﺳﺎﺳﯽ ﺍﺯ ﻫﺮﻧﻮﻉ ﮐﺪﮔﺬﺍﺭﯼ ﺭﺍ ﻣﺸﺨﺺ ﮐﻨﯿﻢ‪.‬‬
‫ﺗﻌﺮ ﯾﻒ ‪ :‬ﯾﮏ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎﺳﺖ ﺍﮔﺮ ﻫﺮ ﮐﺪ ﭘﯿﺎﻡ ﺣﺪﺍﮐﺜﺮﻣﺘﻨﺎﻇﺮ ﺑﺎ ﯾﮏ ﭘﯿﺎﻡ ﺑﺎﺷﺪ‪.‬‬
‫ﯾﮏ ﺭﺍﻩ ﺑﺮﺍﯼ ﻧﻮﺷﺘﻦ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﺗﻘﺎﺿﺎ ﮐﻨﯿﻢ ﻫﯿﭻ ﮐﺪ ﮐﻠﻤﻪﺍﯼ ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪٔ ﺩﯾﮕﺮﯼ ﻧﺒﺎﺷﺪ‪.‬‬
‫ﺗﻌﺮ ﯾﻒ‪ :‬ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ‪ A‬ﭘﯿﺸﻮﻧﺪ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ‪ B‬ﺧﻮﺍﻧﺪﻩ ﻣﯽ ﺷﻮﺩ ﺍﮔﺮ ‪ B‬ﺭﺍ ﺑﺘﻮﺍﻥ ﺑﻪ ﺻﻮﺭﺕ ‪ B = AC‬ﻧﻮﺷﺖ ﮐﻪ ﺩﺭﺁﻥ ‪C‬‬
‫ﺩﻟﺨﻮﺍﻩ ﺍﺳﺖ ﻭ ﻟﺰ ﻭﻣﯽ ﻧﺪﺍﺭﺩ ﮐﻪ ﺧﻮﺩ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ﺑﺎﺷﺪ‪ .‬ﺩﺭﺟﺪﻭﻝ )‪ x1 (7‬ﭘﯿﺸﻮﻧﺪ ‪ x2‬ﻭ ‪ x3‬ﺍﺳﺖ‪ x3 .‬ﻧﯿﺰ ﭘﯿﺸﻮﻧﺪ ‪ x2‬ﺍﺳﺖ‪.‬‬
‫ﺗﻌﺮ ﯾﻒ ‪ :‬ﯾﮏ ﮐﺪ ﮐﻪ ﺩﺭﺁﻥ ﻫﯿﭻ ﮐﺪ ﮐﻠﻤﻪ ﺍﯼ ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪ ﺩﯾﮕﺮﯼ ﻧﺒﺎﺷﺪ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺧﻮﺍﻧﺪﻩ ﻣﯽ ﺷﻮﺩ‪.‬‬
‫‪۳۱‬‬
‫‪0‬‬ ‫‪x1‬‬
‫‪010‬‬ ‫‪x2‬‬
‫‪01‬‬ ‫‪x3‬‬
‫‪10‬‬ ‫‪x4‬‬
‫ﺟﺪﻭﻝ ‪ :۱‬ﻣﺜﺎﻟﯽ ﺍﺯ ﯾﮏ ﮐﺪ ﮐﻪ ﺩﺭﺁﻥ ﺑﻌﻀﯽ ﺍﺯﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺩﯾﮕﺮﻧﺪ‬
‫‪0‬‬ ‫‪x1‬‬
‫‪100‬‬ ‫‪x2‬‬
‫‪101‬‬ ‫‪x3‬‬
‫‪11‬‬ ‫‪x4‬‬
‫ﺟﺪﻭﻝ ‪ :۲‬ﻣﺜﺎﻟﯽ ﺍﺯﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ‬
‫ﻣﺜﺎﻝ ‪ :‬ﮐﺪ ﺯﯾﺮ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺍﺳﺖ‪.‬‬
‫ﻧﮑﺘﻪ ﻣﻬﻢ ﺩﺭﻣﻮﺭﺩ ﺍﯾﻦ ﻧﻮﻉ ﮐﺪ ﻫﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﻫﺮﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺳﺖ‪ .‬ﺍﻟﺒﺘﻪ ﻣﻌﮑﻮﺱ ﺍﯾﻦ ﻗﻀﯿﻪ ﺩﺭﺳﺖ ﻧﯿﺴﺖ‪.‬‬
‫ﺑﺎﺯﻫﻢ ﺑﻪ ﮐﺪ ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﺷﺪﻩ ﺩﺭﺟﺪﻭﻝ ؟؟ ﺩﻗﺖ ﮐﻨﯿﺪ‪ .‬ﻫﺮﮔﺎﻩ ﮐﺪ ﭘﯿﺎﻣﯽ ﻣﺜﻞ ﺭﺷﺘﻪ‬
‫‪101110100101‬‬ ‫)‪(۹۵‬‬
‫ﺭﺍ ﺩﺭ ﯾﺎﻓﺖ ﮐﻨﯿﻢ ﺗﻨﻬﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺁﻥ ﺭﺍ ﺑﻪ ﺻﻮﺭﺕ ﭘﯿﺎﻡ ﺯﯾﺮ ﺑﺎﺯﮔﺸﺎﯾﯽ ﮐﻨﯿﻢ‪:‬‬
‫‪x3 x4 x1 x2 x3 .‬‬ ‫)‪(۹۶‬‬
‫ﺣﺎﻝ ﮐﺪ ﺯﯾﺮ ﺭﺍ ﺩﺭﻧﻈﺮ ﺑﮕﯿﺮ ﯾﺪ‪:‬‬
‫‪0‬‬ ‫‪x1‬‬
‫‪01‬‬ ‫‪x2‬‬
‫ﺟﺪﻭﻝ ‪ :۳‬ﯾﮏ ﮐﺪ ﮐﻪ ﺑﻪ ﻃﻮﺭ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ ﻭﻟﯽ ﻟﺤﻈﻪ ﺍﯼ ﻧﯿﺴﺖ‪.‬‬
‫‪۳۲‬‬
‫ﺍﯾﻦ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﻧﯿﺴﺖ ﺯﯾﺮﺍ ‪ x1‬ﭘﯿﺸﻮﻧﺪ ‪ x2‬ﺍﺳﺖ‪ .‬ﺑﺎﺍﯾﻦ ﻭﺟﻮﺩ ﺍﯾﻦ ﮐﺪ ﺑﻪ ﻃﻮﺭ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ‪ .‬ﺯﯾﺮﺍ ﻫﺮ ﺭﺷﺘﻪ ﺍﯼ ﺭﺍ ﮐﻪ‬
‫ﺩﺭ ﯾﺎﻓﺖ ﻣﯽ ﮐﻨﯿﻢ ﺭﺷﺘﻪ ﺍﯼ ﺍﺯ ‪ 0‬ﻫﺎﺳﺖ ﮐﻪ ﺩﺭﺑﻌﻀﯽ ﺟﺎﻫﺎﯼ ﺁﻥ ‪ 1‬ﻫﺎﯼ ﻣﻨﻔﺮﺩ ﻗﺮﺍﺭﮔﺮﻓﺘﻪ ﺍﻧﺪ‪ ،‬ﻣﺜﻞ ﺭﺷﺘﻪ ﺯﯾﺮ‪:‬‬
‫‪0 0 1 0 0 0 1 0 1 0 1 0 0 0 0 0 0 1.‬‬ ‫)‪(۹۷‬‬
‫ﭼﻨﯿﻦ ﺭﺷﺘﻪ ﺍﯼ ﺑﻪ ﺁﺳﺎﻧﯽ ﻗﺎﺑﻞ ﮔﺸﺎﯾﺶ ﺍﺳﺖ ﻭ ﮐﺪﯼ ﺑﺮﺍﯼ ﭘﯿﺎﻡ ﺯﯾﺮﺍﺳﺖ‪:‬‬
‫‪x1 x2 x1 x1 x2 x2 x2 x1 x1 x1 x1 x2 .‬‬ ‫)‪(۹۸‬‬
‫ﺩﺭ ﺯﯾﺮ ﺭ ﻭﺷﯽ ﺭﺍ ﺑﯿﺎﻥ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺑﻪ ﮐﻤﮏ ﺁﻥ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺗﺸﺨﯿﺺ ﺑﺪﻫﯿﻢ ﮐﻪ ﺁﯾﺎ ﯾﮏ ﮐﺪ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ ﯾﺎﺧﯿﺮ‪.‬‬
‫ﻓﺮﺽ ﮐﻨﯿﺪﮐﻪ ‪ S0‬ﻣﺠﻤﻮﻋﻪ ﻫﻤﻪ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎ ﺑﺎﺷﺪ‪ .‬ﻣﺠﻤﻮﻋﻪ ﺗﻤﺎﻡ ﭘﺴﻮﻧﺪﻫﺎﯾﯽ ﺭﺍ ﮐﻪ ﺩﺭ ‪ S0‬ﻭﺟﻮﺩ ﺩﺍﺭﺩ ﺩﺭﻣﺠﻤﻮﻋﻪ ﺩﯾﮕﺮﯼ ﺑﻪ‬
‫ﻧﺎﻡ ‪ S1‬ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺣﺎﻝ ﻣﺠﻤﻮﻋﻪ ‪ S2 , S3 , · · · Sn‬ﺭﺍ ﺑﻪ ﻃﺮ ﯾﻖ ﺯﯾﺮ ﺗﺸﮑﯿﻞ ﻣﯽ ﺩﻫﯿﻢ‪:‬‬
‫ﺍﻟﻒ ‪ :‬ﺍﮔﺮ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ‪ A ∈ S0‬ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪ ﺍﯼ ﻣﺜﻞ ‪ w = AB ∈ Sn−1‬ﺑﺎﺷﺪ‪ B ،‬ﺭﺍ ﺩﺭ ‪ Sn‬ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‪.‬‬
‫ﺏ ‪ :‬ﺍﮔﺮ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ‪ A ∈ Sn−1‬ﭘﯿﺸﻮﻧﺪ ﮐﺪ ﮐﻠﻤﻪ ﺍﯼ ﻣﺜﻞ ‪ w = AB ∈ S0‬ﺑﺎﺷﺪ‪ B ،‬ﺭﺍ ﺩﺭ ‪ Sn‬ﻗﺮﺍﺭﻣﯽ ﺩﻫﯿﻢ‪.‬‬
‫‪ n‬ﻗﻀﯿﻪ‪ :‬ﯾﮏ ﮐﺪ ﺑﻪ ﺻﻮﺭﺕ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻣﯽ ﺷﻮﺩ ﺍﮔﺮ ﻭﻓﻘﻂ ﺍﮔﺮ ‪.S0 ∩ [S1 ∪ S2 ∪ S3 · · ·] = ϕ‬‬
‫ﻣﺜﺎﻝ ‪:‬ﮐﺪ ﺯﯾﺮ ﯾﮑﺘﺎ ﮔﺸﺎﻧﯿﺴﺖ‪.‬‬
‫ﺯﯾﺮﺍ‪:‬‬
‫}‪S0 = {0, 010, 01, 10‬‬ ‫}‪S1 = {10, 1, 0‬‬ ‫)‪(۹۹‬‬
‫ﻭ ‪.S0 ∩ S1 ̸= ϕ‬‬
‫ﻣﺜﺎﻝ ‪ :‬ﮐﺪ ﺯﯾﺮ ﯾﮑﺘﺎ ﮔﺸﺎﺳﺖ‪:‬‬
‫‪۳۳‬‬
‫‪0‬‬ ‫‪x1‬‬
‫‪010‬‬ ‫‪x2‬‬
‫‪01‬‬ ‫‪x3‬‬
‫‪10‬‬ ‫‪x4‬‬
‫ﺟﺪﻭﻝ ‪ :۴‬ﻣﺜﺎﻟﯽ ﺍﺯ ﯾﮏ ﮐﺪ ﮐﻪ ﺑﻪ ﻃﻮﺭ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻩ ﻧﻤﯽ ﺷﻮﺩ‪.‬‬
‫‪0‬‬ ‫‪x1‬‬
‫‪001‬‬ ‫‪x2‬‬
‫ﺟﺪﻭﻝ ‪ :۵‬ﻣﺜﺎﻟﯽ ﺍﺯ ﯾﮏ ﮐﺪ ﯾﮑﺘﺎﮔﺸﺎ‬
‫ﺯﯾﺮﺍ‪:‬‬
‫}‪S0 = {0, 001‬‬ ‫}‪S1 = {01‬‬ ‫‪S2 = {1},‬‬ ‫)‪(۱۰۰‬‬
‫ﻭ ‪.S0 ∩ [S1 ∪ S2 ] = ϕ‬‬
‫ﻣﺜﺎﻝ ‪ :‬ﮐﺪ ﺯﯾﺮ ﺭﺍ ﺩﺭﻧﻈﺮﻣﯽ ﮔﯿﺮ ﯾﻢ‪:‬‬
‫‪a‬‬ ‫‪x1‬‬
‫‪c‬‬ ‫‪x2‬‬
‫‪ad‬‬ ‫‪x3‬‬
‫‪abb‬‬ ‫‪x4‬‬ ‫)‪(۱۰۱‬‬
‫‪bad‬‬ ‫‪x5‬‬
‫‪deb‬‬ ‫‪x6‬‬
‫‪bbcde‬‬ ‫‪x7‬‬
‫ﺑﺮﺍﯼ ﺍﯾﻦ ﮐﺪ ﺩﺍﺭ ﯾﻢ‪:‬‬
‫‪S0‬‬ ‫}‪= {a, c, ad, abb, bad, deb, bbcde‬‬
‫‪۳۴‬‬
‫‪S1‬‬ ‫}‪= {d, bb‬‬
‫‪S2‬‬ ‫}‪= {eb, cde‬‬
‫‪S3‬‬ ‫}‪= {de‬‬
‫‪S4‬‬ ‫}‪= {b‬‬
‫‪S5‬‬ ‫}‪= {ad, bcde‬‬
‫‪S6‬‬ ‫}‪= {d‬‬
‫‪S7‬‬ ‫}‪= {eb‬‬ ‫)‪(۱۰۲‬‬
‫ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺍﯾﻦ ﺭ ﻭﺍﺑﻂ ﺧﻮﺍﻫﯿﻢ ﺩﯾﺪ ﮐﻪ‬
‫‪S0 ∩ [S1 ∪ S2 ∪ S3 ∪ S4 ∪ S5 ∪ S6 ∪ S7 ] = ϕ,‬‬ ‫)‪(۱۰۳‬‬
‫ﻭ ﺩﺭﻧﺘﯿﺠﻪ ﺍﯾﻦ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎ ﺍﺳﺖ‪.‬‬
‫‪ n‬ﻗﻀﯿﻪ)ﺷﺮﻁ ﻻﺯﻡ ﻭ ﮐﺎﻓﯽ ﺑﺮﺍﯼ ﻭﺟﻮﺩ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ(‪ :‬ﻣﺠﻤﻮﻋﻪ ﮐﻠﻤﻪ ﻫﺎﯼ } ‪ X = {x1 , x2 , · · · xM‬ﻭ ﻣﺠﻤﻮﻋﻪ ﺣﺮ ﻭﻑ‬
‫ﺍﻟﻔﺒﺎﯼ } ‪ A := {a1 , a2 , · · · aD‬ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﻧﺪ‪ .‬ﻣﺠﻤﻮﻋﻪ ﺍﻋﺪﺍﺩ ﺻﺤﯿﺢ } ‪ {n1 , n2 , · · · nM‬ﻧﯿﺰ ﻣﻔﺮ ﻭﺽ ﺍﻧﺪ‪ .‬ﺁﯾﺎ ﯾﮏ ﮐﺪ‬
‫ﻟﺤﻈﻪ ﺍﯼ ﻣﯽ ﺗﻮﺍﻥ ﺍﺯ ﺍﻟﻔﺒﺎﯼ ‪ A‬ﻧﻮﺷﺖ ﮐﻪ ﻃﻮﻝ ﻫﺎﯼ } ‪ {n1 , n2 , · · · nM‬ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ؟ ﭘﺎﺳﺦ ﺍﯾﻦ ﺳﻮﺍﻝ ﻣﺜﺒﺖ ﺍﺳﺖ ﺍﮔﺮ ﻭﻓﻘﻂ‬
‫ﺍﮔﺮ ﺷﺮﻁ ﺯﯾﺮ ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ‪:‬‬
‫∑‬‫‪M‬‬
‫‪1‬‬
‫‪ni‬‬
‫‪≤ 1.‬‬ ‫)‪(۱۰۴‬‬
‫‪i=1‬‬
‫‪D‬‬
‫ﺍﯾﻦ ﻧﺎﻣﺴﺎﻭﯼ ﺑﻪ ﻧﺎﻣﺴﺎﻭﯼ ‪ Kraf t‬ﻣﺸﻬﻮﺭﺍﺳﺖ‪.‬‬
‫ﻗﺒﻞ ﺍﺯ ﺍﺛﺒﺎﺕ ﺍﯾﻦ ﻗﻀﯿﻪ ﺑﻪ ﯾﮏ ﻧﺘﯿﺠﻪ ﺳﺎﺩﻩ ﺁﻥ ﺗﻮﺟﻪ ﻣﯽ ﮐﻨﯿﻢ‪:‬‬
‫ﻧﺘﯿﺠﻪ‪ :‬ﺑﺮﺍﯼ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ ﺍﻧﮕﻠﯿﺴﯽ ﺑﺎﺍﺣﺘﺴﺎﺏ ﻧﻘﻄﻪ‪ ،‬ﮐﺎﻣﺎ ‪ ،‬ﻭﺩﯾﮕﺮﻋﻼﺋﻢ ﺩﺍﺭ ﯾﻢ‪ .M = 32 :‬ﻫﻢ ﭼﻨﯿﻦ ﺍﮔﺮ ﺑﺨﻮﺍﻫﯿﻢ ﺍﺯ ﺍﻟﻔﺒﺎﯼ‬
‫‪۳۵‬‬
‫∑‬
‫ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ ﺩﺍﺭ ﯾﻢ ‪ .D = 2‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺑﺎﯾﺪﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ‪:‬‬ ‫}‪:= {0, 1‬‬
‫∑‬‫‪32‬‬
‫‪1‬‬
‫‪≤ 1 −→ nmin ≥ 5.‬‬ ‫)‪(۱۰۵‬‬
‫‪i=1‬‬
‫‪2ni‬‬
‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﻧﻤﯽ ﺗﻮﺍﻥ ﻫﯿﭻ ﺣﺮﻓﯽ ﺭﺍ ﺑﺎ ﮐﻤﺘﺮﺍﺯ ‪ 5‬ﺑﯿﺖ ﮐﺪ ﮐﺮﺩ‪.‬‬
‫ﺣﺎﻝ ﺑﻪ ﺍﺛﺒﺎﺕ ﻗﻀﯿﻪ ﻣﯽ ﭘﺮﺩﺍﺯﯾﻢ‪:‬‬
‫‪ n‬ﺍﺛﺒﺎﺕ‪ :‬ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺍﺯﻧﻤﻮﺩﺍﺭﻫﺎﯼ ﺩﺭﺧﺘﯽ ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ‪ .‬ﯾﮏ ﺩﺭﺧﺖ ﺑﺎ ﻣﺮﺗﺒﻪ ‪ D‬ﻭ ﺍﻧﺪﺍﺯﻩ ‪ k‬ﺩﺭﺧﺘﯽ ﺍﺳﺖ ﮐﻪ ‪ D‬ﺭ ﯾﺸﻪ ﺩﺍﺭﺩ ﻭ‬
‫ﺍﺯﻫﺮ ﺭ ﯾﺸﻪ ﻧﯿﺰ ‪ D‬ﺷﺎﺧﻪ ﻣﻨﺸﻌﺐ ﻣﯽ ﺷﻮﺩ ﻭﺍﯾﻦ ﮐﺎﺭ ﺍﺩﺍﻣﻪ ﻣﯽ ﯾﺎﺑﺪ ﺗﺎ ‪ k − 1‬ﻣﺮﺣﻠﻪ ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻌﺪﺍﺩ ﺷﺎﺧﻪ ﻫﺎﯼ ﺁﺧﺮ ﯾﻦ‬
‫ﻣﺮﺣﻠﻪ ﻋﺒﺎﺭﺕ ﺍﺳﺖ ﺍﺯ ‪ D .Dk‬ﺭ ﯾﺸﻪ ﺍﻭﻝ ﺩﺭﺧﺖ ﻣﺘﻨﺎﺳﺐ ﺑﺎ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺗﮏ ﺣﺮﻓﯽ }‪ {1, 2, 3 · · · D‬ﻫﺴﺘﻨﺪ‪ .‬ﺷﺎﺧﻪ ﻫﺎﯼ‬
‫ﻣﺮﺣﻠﻪ ﺑﻌﺪ ﻣﺘﻨﺎﺳﺐ ﺑﺎ ﮐﺪ ﮐﻠﻤﺎﺕ ﺩﻭ ﺣﺮﻓﯽ ﻫﺴﺘﻨﺪ ﻣﺜﻞ }‪ {11, 12, · · · DD‬ﻭ ﻫﻤﯿﻨﻄﻮﺭ ﺗﺎ ﺁﺧﺮ‪ .‬ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﻫﺮ ﮐﺪﮐﻠﻤﻪ‬
‫ﻣﺘﻨﺎﺳﺐ ﺑﺎﯾﮑﯽ ﺍﺯ ﮔﺮﻩ ﻫﺎﯼ ﺍﯾﻦ ﺩﺭﺧﺖ ﻣﯽ ﺷﻮﺩ‪ .‬ﺣﺎﻝ ﺍﮔﺮ ﺑﺨﻮﺍﻫﯿﻢ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺴﺎﺯﯾﻢ ﻣﯽ ﺑﺎﯾﺴﺖ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ‬
‫ﺧﻮﺩ ﺭﺍ ﺍﺯ ﺷﺎﺧﻪ ﻫﺎﯼ ﺍﯾﻦ ﺩﺭﺧﺖ ﺑﻪ ﻧﺤﻮ ﺧﺎﺻﯽ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ‪ .‬ﻫﺮ ﮐﺪ ﮐﻠﻤﻪ ﯾﺎ ﻫﺮﮔﺮﻩ ﮐﻪ ﺍﺯ ﺍﯾﻦ ﺩﺭﺧﺖ ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ‬
‫ﻣﯽ ﺑﺎﯾﺴﺖ ﺗﻤﺎﻡ ﺷﺎﺧﻪ ﻫﺎﯼ ﻣﻨﺸﻌﺐ ﺍﺯ ﺁﻥ ﮔﺮﻩ ﺭﺍ ﮐﻨﺎﺭﺑﮕﺬﺍﺭ ﯾﻢ ﺯﯾﺮﺍ ﻫﻤﻪ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﻣﺮﺑﻮﻁ ﺑﻪ ﺁﻥ ﺷﺎﺧﻪ ﻫﺎ ﮐﻠﻤﻪ ﻣﺮﺑﻮﻁ‬
‫ﺑﻪ ﺍﯾﻦ ﮔﺮﻩ ﺭﺍ ﺑﻪ ﻋﻨﻮﺍﻥ ﭘﯿﺸﻮﻧﺪ ﺧﻮﺩ ﺩﺍﺭﻧﺪ‪ .‬ﺍﮔﺮ ﻃﻮﻝ ﯾﮏ ﮐﺪ ﮐﻠﻤﻪ ﮐﻪ ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ ﺑﺮﺍﺑﺮﺑﺎ ‪ i‬ﺑﺎﺷﺪ‪ ،‬ﺗﻌﺪﺍﺩ ﺷﺎﺧﻪ ﻫﺎﯾﯽ‬
‫ﮐﻪ ﺍﺯﺁﻥ ﻣﻨﺸﻌﺐ ﻣﯽ ﺷﻮﺩ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ .Dk−i‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ ﮐﺪﮐﻠﻤﻪ ﺑﻪ ﻃﻮﻝ ‪ i‬ﺗﻌﺪﺍﺩ ‪ Dk−i‬ﺗﺎ ﺍﺯ ﺷﺎﺧﻪ ﻫﺎ ﺣﺬﻑ ﻣﯽ‬
‫ﺷﻮﻧﺪ‪ .‬ﺩﺭﻧﺘﯿﺠﻪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬
‫‪Dk−i1 + Dk−i2 + · · · Dk−iM ≤ Dk‬‬ ‫)‪(۱۰۶‬‬
‫ﮐﻪ ﺑﺎﺗﻘﺴﯿﻢ ﻃﺮﻓﯿﻦ ﺑﺮ ‪ Dk‬ﺑﻪ ﺭﺍﺑﻄﻪ )‪ (116‬ﻣﯽ ﺭﺳﯿﻢ‪ .‬ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺭﺍ ﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﻧﯿﺰ ﻧﻮﺷﺖ‪:‬‬
‫∑‬
‫‪wi D−i ≤ 1,‬‬ ‫)‪(۱۰۷‬‬
‫‪i‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ‪ wi‬ﺗﻌﺪﺍﺩ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺑﺎ ﻃﻮﻝ ‪ i‬ﺍﺳﺖ‪.‬‬
‫ﺣﺎﻝ ﻣﻌﮑﻮﺱ ﻗﻀﯿﻪ ﺭﺍ ﺛﺎﺑﺖ ﻣﯽ ﮐﻨﯿﻢ‪ :‬ﺗﺎﮐﻨﻮﻥ ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﮐﻪ ﺍﮔﺮ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺎﺷﺪ ﻣﯽ ﺑﺎﯾﺴﺖ ﺷﺮﻁ )‪ (116‬ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ‪.‬‬
‫ﺣﺎﻝ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ ﮐﻪ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ ) ‪ (n1 , n2 , · · · nM‬ﮐﻪ ﺩﺭﺷﺮﻁ )‪ (116‬ﺻﺪﻕ ﮐﻨﺪ ﻣﯽ ﺗﻮﺍﻥ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺳﺎﺧﺖ‪.‬‬
‫‪۳۶‬‬
‫‪ ni‬ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﻣﺮﺗﺐ ﻣﯽ ﮐﻨﯿﻢ‪:‬‬
‫‪n1 ≤ n2 ≤ n3 ≤ · · · ≤ nM .‬‬ ‫)‪(۱۰۸‬‬
‫ﺣﺎﻝ ﯾﮏ ﻧﻘﻄﻪ ﺑﻪ ﺍﻧﺪﺍﺯﻩ ‪ n1‬ﺭﺍ ﺭ ﻭﯼ ﺩﺭﺧﺖِ ﺑﺎ ﻣﺮﺗﺒﻪ ‪ D‬ﻭﺍﻧﺪﺍﺯﻩ ‪ nM‬ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺑﻪ ﺍﯾﻦ ﺗﺮﺗﯿﺐ ﺗﻌﺪﺍﺩ ‪ DnM −n1‬ﻧﻘﻄﻪ‬
‫ﺣﺬﻑ ﻣﯽ ﺷﻮﻧﺪ‪ .‬ﺗﻌﺪﺍﺩ ﻧﻘﺎﻁ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ .DnM − DnM −n1‬ﻧﻘﻄﻪ ﺩﻭﻡ ﺭﺍ ﺑﻪ ﻃﻮﻝ ‪ n2‬ﺍﻧﺘﺨﺎﺏ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺍﯾﻦ‬
‫ﻧﻘﻄﻪ ﺗﻌﺪﺍﺩ ‪ DnM −n2‬ﻧﻘﻄﻪ ﺩﯾﮕﺮ ﺭﺍ ﺣﺬﻑ ﻣﯽ ﮐﻨﺪ‪ .‬ﺗﻌﺪﺍﺩﻧﻘﺎﻁ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ .DnM − DnM −n1 − DnM −n2‬ﺍﯾﻦ‬
‫ﮐﺎﺭ ﺭﺍ ﺍﺩﺍﻣﻪ ﻣﯽ ﺩﻫﯿﻢ ﺗﺎ ﻧﻘﻄﻪ ﻣﺎﻗﺒﻞ ﺁﺧﺮ ﮐﻪ ﻃﻮﻝ ﺁﻥ ‪ nM −1‬ﺍﺳﺖ‪ .‬ﺍﯾﻦ ﻧﻘﻄﻪ ﻧﯿﺰ ﺗﻌﺪﺍﺩ ‪ DnM −nM −1‬ﺭﺍ ﺣﺬﻑ ﻣﯽ ﮐﻨﺪ‪.‬‬
‫ﺁﯾﺎ ﺩﺭﺧﺖ ﻣﻮﺭﺩﻧﻈﺮ ﺍﯾﻦ ﻫﻤﻪ ﺟﺎ ﺩﺍﺭﺩ؟ ﺑﺮﺍﯼ ﭘﺎﺳﺦ ﺑﻪ ﺍﯾﻦ ﺳﻮﺍ ﻝ ﮐﺎﻓﯽ ﺍﺳﺖ ﮐﻪ ﺗﻌﺪﺍﺩ ﻧﻘﺎﻁ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺭﺍ ﺑﻌﺪ ﺍﺯ ﻣﺮﺣﻠﻪ ﻣﺎﻗﺒﻞ‬
‫ﺁﺧﺮ ﺑﺸﻤﺎﺭ ﯾﻢ‪ :‬ﺍﯾﻦ ﺗﻌﺪﺍﺩ ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ‬
‫‪Q‬‬ ‫‪= DnM − DnM −n1 − DnM −n2 − · · · DnM −nM −1‬‬
‫[‬ ‫]‬
‫‪= DnM 1 − D−n1 − D−n2 − · · · D−nM −1‬‬ ‫)‪(۱۰۹‬‬
‫ﺍﻣﺎ ﭼﻮﻥ ﺷﺮﻁ )‪ (116‬ﺑﺮﻗﺮﺍﺭﺍﺳﺖ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬
‫∑‬
‫‪M‬‬ ‫∑‬
‫‪M‬‬ ‫‪−1‬‬
‫‪−ni‬‬
‫‪D‬‬ ‫‪≤ 1 −→ 1 −‬‬ ‫‪D−ni ≤ D−nM‬‬ ‫)‪(۱۱۰‬‬
‫‪i=1‬‬ ‫‪i=1‬‬
‫ﻭ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﺣﺪﺍﻗﻞ ﯾﮏ ﺍﻧﺘﺨﺎﺏ ﺑﺮﺍﯼ ﺁﺧﺮ ﯾﻦ ﮐﺪ ﮐﻠﻤﻪ ﺑﺎﻗﯽ ﻣﯽ ﻣﺎﻧﺪ‪ .‬ﺍﺛﺒﺎﺕ ﻗﻀﯿﻪ ﺩﺭﺍﯾﻦ ﺟﺎ ﮐﺎﻣﻞ‬
‫ﻣﯽ ﺷﻮﺩ‪.‬‬
‫‪ n‬ﻗﻀﯿﻪ‪ :‬ﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺷﺮﻁ ﻻﺯﻡ ﻭ ﮐﺎﻓﯽ ﺑﺮﺍﯼ ﺳﺎﺧﺘﻦ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎﮔﺸﺎﺳﺖ‪.‬‬
‫ﺍﺛﺒﺎﺕ‪ :‬ﺍﻟﻒ‪ :‬ﺍﮔﺮ ﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﻣﻄﺎﺑﻖ ﺑﺎ ﻗﻀﯿﻪ ﻗﺒﻞ ﺑﺴﺎﺯﯾﻢ ﻭ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﮐﺪ ﻫﺎﯼ‬
‫ﻟﺤﻈﻪ ﺍﯼ ﯾﮑﺘﺎ ﮔﺸﺎﻫﺴﺘﻨﺪ‪.‬‬
‫‪۳۷‬‬
‫ﺏ ‪ :‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎﺩﺍﺭ ﯾﻢ‪ .‬ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﮐﻪ ﺣﺘﻤﺎً ﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭﺍﺳﺖ‪ .‬ﺑﺠﺎﯼ ﻋﺒﺎﺭﺕ‬
‫‪∑r‬‬ ‫∑‬
‫ﺭﺍ ﺑﮑﺎﺭﻣﯽ ﺑﺮ ﯾﻢ ﮐﻪ ﺩﺭﺁﻥ ‪ wi‬ﺗﻌﺪﺍﺩﮐﻠﻤﺎﺕ ﺑﺎ ﻃﻮﻝ ‪ i‬ﺍﺳﺖ‪ .‬ﺣﺎﻝ ﻋﺒﺎﺭﺕ ﺍﺧﯿﺮ ﺭﺍﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﺻﻮﺭﺕ‬ ‫‪i=1‬‬ ‫ﻋﺒﺎﺭﺕ ‪wi D−i‬‬ ‫‪i‬‬ ‫‪D−ni‬‬
‫ﯾﮏ ﺗﺎﺑﻊ ﻣﻮﻟﺪ ﺗﻌﺒﯿﺮﮐﺮﺩ‪ .‬ﻣﯽ ﺗﻮﺍﻥ ﺩﺭ ﯾﺎﻓﺖ ﮐﻪ‬
‫(‬ ‫‪)n‬‬
‫∑‬
‫‪r‬‬ ‫∑‬
‫‪nr‬‬
‫‪−i‬‬
‫‪wi D‬‬ ‫=‬ ‫‪Xk D−k ,‬‬ ‫)‪(۱۱۱‬‬
‫‪i=1‬‬ ‫‪k=r‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ‪ Xk‬ﺗﻌﺪﺍﺩﮐﻞ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺑﺎ ﻃﻮﻝ ‪ k‬ﺩﺭﮐﺪﮔﺬﺍﺭﯼ ﺭﺷﺘﻪ ﻫﺎﯼ ‪ r‬ﺗﺎﯾﯽ ﺍﺳﺖ‪ .‬ﺍﻣﺎ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﮐﺪ ﺍﺯﻧﻮﻉ ﯾﮑﺘﺎ ﮔﺸﻮﺩﻧﯽ‬
‫ﺍﺳﺖ‪ .‬ﺩﺭﺿﻤﻦ ﺗﻌﺪﺍﺩ ﮐﻞ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺑﺎﻃﻮﻝ ‪ k‬ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ‪ .Dk‬ﭼﻮﻥ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎﮔﺸﺎ ﺯﯾﺮﻣﺠﻤﻮﻋﻪ ﮐﻠﯿﻪ ﮐﺪ ﻫﺎﻫﺴﺘﻨﺪ ﻧﺘﯿﺠﻪ‬
‫ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ ‪ . Xk ≤ Dk‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬

‫‪( r‬‬ ‫‪)n‬‬
‫∑‬ ‫∑‬
‫‪nr‬‬
‫‪−i‬‬
‫‪wi D‬‬ ‫≤‬ ‫‪1 = nr − r + 1.‬‬ ‫)‪(۱۱۲‬‬
‫‪i=1‬‬ ‫‪k=r‬‬
‫ﻭ ﺍﺯﺁﻧﺠﺎ‬
‫(‬ ‫)‬
‫∑‬
‫‪r‬‬
‫‪−i‬‬ ‫‪1‬‬
‫‪wi D‬‬ ‫‪≤ (1 + (n − 1)r) n .‬‬ ‫)‪(۱۱۳‬‬
‫‪i=1‬‬
‫ﺩﺭﺣﺪ ‪ n‬ﻫﺎﯼ ﺑﺰ ﺭﮒ ﺍﯾﻦ ﺭﺍﺑﻄﻪ ﺗﺒﺪﯾﻞ ﻣﯽ ﺷﻮﺩ ﺑﻪ ﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ‪.‬‬
‫‪ n‬ﻗﻀﯿﻪ ﮐﺪﮔﺬﺍﺭﯼ ﺑﺪﻭﻥ ﻧﻮﻓﻪ‪ :‬ﻣﺠﻤﻮﻋﻪ ﮐﻠﻤﺎﺕ } ‪ X = {x1 , x2 , · · · xM‬ﮐﻪ ﺩﺭﺁﻥ ﻧﻤﺎﺩ ‪ xi‬ﺑﺎ ﺍﺣﺘﻤﺎﻝ ) ‪ Pi := P (xi‬ﻇﺎﻫﺮ ﻣﯽ‬
‫ﺷﻮﺩ ﻭ ﻣﺠﻤﻮﻋﻪ ﺣﺮ ﻭﻑ ﺍﻟﻔﺒﺎﯼ } ‪ A := {a1 , a2 , · · · aD‬ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﻧﺪ‪ .‬ﺍﯾﻦ ﻧﻤﺎﺩ ﻫﺎ ﺑﺎ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ } ‪ {w1 , w2 , · · · wM‬ﮐﺪ‬
‫ﺷﺪﻩ ﺍﻧﺪ ﻭ ﻃﻮﻝ ﻫﺮﮐﺪﮐﻠﻤﻪ ‪ wi‬ﺑﺮﺍﺑﺮﺍﺳﺖ ﺑﺎ ) ‪ .ni := l(wi‬ﻫﺪﻑ ﻣﺎ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﺪﮐﻠﻤﻪ ﻫﺎ ﺭﺍ ﮐﻤﯿﻨﻪ ﮐﻨﯿﻢ ﯾﻌﻨﯽ‬
‫ﮐﻤﯿﺖ ﺯﯾﺮ ﺭﺍ‪:‬‬

‫∑‬
‫‪M‬‬
‫=‪n :‬‬ ‫‪p i ni .‬‬ ‫)‪(۱۱۴‬‬
‫‪i=1‬‬
‫ﻣﺠﻤﻮﻋﻪ ﺍﻋﺪﺍﺩ ﺻﺤﯿﺢ } ‪ {n1 , n2 , · · · nM‬ﻧﯿﺰ ﻣﻔﺮ ﻭﺽ ﺍﻧﺪ‪ .‬ﺑﻬﺘﺮ ﯾﻦ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎﯾﯽ ﮐﻪ ﻣﯽ ﺗﻮﺍﻥ ﺑﺮﺍﯼ ﮐﺪﮐﺮﺩﻥ ﺍﯾﻦ‬
‫ﺍﻟﻔﺒﺎﺳﺎﺧﺖ‪ ،‬ﯾﻌﻨﯽ ﮐﺪ ﯾﮑﺘﺎﮔﺸﺎﯾﯽ ﮐﻪ ﮐﻤﺘﺮ ﯾﻦ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺭﺍ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﮐﺪﯼ ﺍﺳﺖ ﺑﺎ ﻃﻮﻝ ﻣﺘﻮﺳﻂ‬
‫)‪H(X‬‬
‫=‪n‬‬ ‫‪.‬‬ ‫)‪(۱۱۵‬‬
‫‪log D‬‬
‫‪۳۸‬‬
‫‪ n‬ﺍﺛﺒﺎﺕ‪ :‬ﻧﺨﺴﺖ ﺗﻮﺟﻪ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﮐﺪ ﻣﻮﺭﺩﻧﻈﺮﻣﺎﯾﮑﺘﺎ ﮔﺸﺎﺳﺖ ﺍﮔﺮ ﻭﻓﻘﻂ ﺍﮔﺮ ﺷﺮﻁ ﺯﯾﺮ ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ‪:‬‬
‫∑‬‫‪M‬‬
‫‪1‬‬
‫‪ni‬‬
‫‪≤ 1.‬‬ ‫)‪(۱۱۶‬‬
‫‪i=1‬‬
‫‪D‬‬
‫ﺑﻘﯿﻪ ﺍﺛﺒﺎﺕ ﺭﺍ ﺩﺭﺳﻪ ﻣﺮﺣﻠﻪ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﺍﺯ ﺍﯾﻦ ﺑﻪ ﺑﻌﺪ ﻧﯿﺰ ﻣﺎ ﻓﻘﻂ ﺩﺭﺑﺎﺭﻩ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺣﺮﻑ ﻣﯽ ﺯﻧﯿﻢ‪ .‬ﺩﺭﻣﺮﺣﻠﻪ‬
‫ﺍﻭﻝ ﯾﮏ ﺣﺪ ﭘﺎﯾﯿﻦ ﺑﺮﺍﯼ ‪ n‬ﭘﯿﺪﺍ ﻣﯽ ﮐﻨﯿﻢ ﻭ ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ ﮐﻪ‬
‫)‪H(X‬‬
‫≥‪n‬‬ ‫)‪(۱۱۷‬‬
‫‪logD‬‬
‫ﮐﻪ ﺩﺭﺁﻥ ﺷﺮﻁ ﺗﺴﺎﻭﯼ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﺍﮔﺮ ﻭﻓﻘﻂ ﺍﮔﺮ ‪.pi = D−ni‬‬
‫ﺩﺭﻣﺮﺣﻠﻪ ﺩﻭﻡ ﺗﺤﻘﯿﻖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﭼﻘﺪﺭ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺍﯾﻦ ﺣﺪ ﭘﺎﯾﯿﻦ ﻧﺰﺩﯾﮏ ﺷﺪ‪ .‬ﻭ ﺑﺎﻻﺧﺮﻩ ﺩﺭﻣﺮﺣﻠﻪ ﺳﻮﻡ ﺑﻬﺘﺮ ﯾﻦ ﮐﺪ ﻣﻤﮑﻦ‬
‫ﺭﺍ ﻣﯽ ﺳﺎﺯﯾﻢ‪.‬‬
‫ﺑﺮﺍﯼ ﺍﺛﺒﺎﺕ ﻧﺎﻣﺴﺎﻭﯼ )‪ (117‬ﻣﯽ ﺑﺎﯾﺴﺖ ﻧﺎﻣﺴﺎﻭﯼ ﺯﯾﺮ ﺭﺍ ﺛﺎﺑﺖ ﮐﻨﯿﻢ‪:‬‬
‫∑‬
‫‪M‬‬ ‫∑‬
‫‪M‬‬
‫‪log pi‬‬
‫‪ni pi ≥ −‬‬ ‫‪pi‬‬ ‫‪,‬‬ ‫)‪(۱۱۸‬‬
‫‪i=1‬‬ ‫‪i=1‬‬
‫‪log D‬‬
‫ﻭ ﯾﺎ‬
‫∑‬
‫‪M‬‬ ‫∑‬
‫‪M‬‬
‫‪(ni log D)pi ≥ −‬‬ ‫‪pi log pi .‬‬ ‫)‪(۱۱۹‬‬
‫‪i=1‬‬ ‫‪i=1‬‬
‫ﻗﺒﻼ ﺩﺍﺷﺘﯿﻢ ﮐﻪ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮﺩﻭ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ } ‪ {pi‬ﻭ } ‪ ،{qi‬ﻧﺎﻣﺴﺎﻭﯼ ﺯﯾﺮﺑﺮﻗﺮﺍﺭﺍﺳﺖ‪:‬‬
‫∑‬ ‫∑‬
‫‪−pi log pi ≤ −‬‬ ‫‪pi log qi ,‬‬ ‫)‪(۱۲۰‬‬
‫‪i‬‬
‫ﻭﺗﺴﺎﻭﯼ ﺗﻨﻬﺎﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ } ‪.{qi } = {pi‬‬
‫ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﯾﮏ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﻣﻄﺎﺑﻖ ﺑﺎﺭﺍﺑﻄﻪ ﺯﯾﺮﺗﻌﺮ ﯾﻒ ﮐﻨﯿﻢ‪:‬‬
‫‪D−ni‬‬
‫‪qi := ∑M‬‬ ‫)‪(۱۲۱‬‬
‫‪−ni‬‬
‫‪i=1 D‬‬
‫‪۳۹‬‬
‫ﻭ ﺍﺯ ﺭﺍﺑﻄﻪ )‪ (118‬ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ‪ .‬ﯾﮏ ﻣﺤﺎﺳﺒﻪ ﺳﺎﺩﻩ ﻣﻨﺠﺮﺑﻪ ﺭﺍﺑﻄﻪ ﺯﯾﺮﺧﻮﺍﻫﺪ ﺷﺪ‪:‬‬
‫∑‬
‫‪M‬‬
‫(‪H(X) ≤ n log D + log‬‬ ‫‪D−ni ),‬‬ ‫)‪(۱۲۲‬‬
‫‪i=1‬‬
‫ﮐﻪ ﺗﺴﺎﻭﯼ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ‬
‫‪D−ni‬‬
‫‪pi = ∑M‬‬ ‫‪.‬‬ ‫)‪(۱۲۳‬‬
‫‪−ni‬‬
‫‪i=1 D‬‬
‫‪∑M‬‬
‫ﻧﺘﯿﺠﻪ ﻣﯽ ﮔﯿﺮ ﯾﻢ ﮐﻪ‬ ‫‪i=1‬‬ ‫ﺣﺎﻝ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺍﯾﻨﮑﻪ ﺑﺮﺍﯼ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎﮔﺸﺎﻧﺎﻣﺴﺎﻭﯼ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭ ﺍﺳﺖ ﯾﻌﻨﯽ ‪D−ni ≤ 1‬‬
‫‪∑M‬‬
‫‪ log‬ﻭ ﺍﺯﺁﻧﺠﺎ ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ ﮐﻪ‬ ‫‪i=1‬‬ ‫‪D−ni ≤ 0‬‬
‫‪H(X) ≤ n log D.‬‬ ‫)‪(۱۲۴‬‬
‫‪1‬‬
‫‪ ni = logD‬ﺗﺒﻌﯿﺖ ﮐﻨﺪ‪ ،‬ﺁﻧﮕﺎﻩ ﺧﻮﺍﻫﯿﻢ‬ ‫‪pi‬‬ ‫ﻫﺮﮔﺎﻩ ﺑﺘﻮﺍﻧﯿﻢ ﯾﮏ ﮐﺪ ﺭﺍ ﭼﻨﺎﻥ ﺍﻧﺘﺨﺎﺏ ﮐﻨﯿﻢ ﮐﻪ ﻃﻮﻝ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﺁﻥ ﺍﺯ ﺭﺍﺑﻄﻪ‬
‫= ‪ n‬ﺑﺮﻗﺮﺍﺭﺑﺎﺷﺪ ﺁﻧﮕﺎﻩ ‪.pi = D−ni‬‬ ‫)‪H(X‬‬

‫‪log D‬‬ ‫= ‪ . n‬ﻣﻌﮑﻮﺱ ﺍﯾﻦ ﻗﻀﯿﻪ ﻧﯿﺰ ﺻﺤﯿﺢ ﺍﺳﺖ ﯾﻌﻨﯽ ﺍﯾﻨﮑﻪ ﺍﮔﺮ ﺭﺍﺑﻄﻪ‬ ‫)‪H(X‬‬
‫‪log D‬‬ ‫ﺩﺍﺷﺖ ‪:‬‬
‫ﺑﺮﺍﯼ ﺍﺛﺒﺎﺕ ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﺍﺯ ﺭﺍﺑﻄﻪ ‪ 122‬ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ ﻭ ﺑﻪ ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﻣﯽ ﺭﺳﯿﻢ ﮐﻪ‬
‫∑‬
‫‪M‬‬
‫(‪n log D ≤ n log D + log‬‬ ‫‪D−i ),‬‬ ‫)‪(۱۲۵‬‬
‫‪i=1‬‬
‫‪∑M‬‬ ‫‪∑M‬‬
‫‪ .‬ﺍﻣﺎﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺭﺍﺑﻄﻪ ‪ 123‬ﺍﯾﻦ ﻧﺘﯿﺠﻪ‬ ‫‪i=1‬‬ ‫‪ ،‬ﺑﻪ ﺍﯾﻦ ﻧﺘﯿﺠﻪ ﻣﯽ ﺭﺳﯿﻢ ﮐﻪ ‪D−j = 1‬‬ ‫‪i=1‬‬ ‫ﻭﺍﺯﺁﻧﺠﺎ ﺑﺎﺗﻮﺟﻪ ﺑﻪ ﺍﯾﻨﮑﻪ ‪D−ni ≤ 1‬‬
‫ﺑﻪ ﺍﯾﻦ ﻣﻌﻨﺎﺳﺖ ﮐﻪ ‪.pi = D−ni‬‬
‫)‪H(X‬‬
‫= ‪.n‬‬ ‫‪log D‬‬ ‫‪ n‬ﺗﻌﺮ ﯾﻒ‪ :‬ﯾﮏ ﮐﺪ ﮐﺎﻣﻼ ﺑﻬﯿﻨﻪ ﮐﺪﯼ ﺍﺳﺖ ﮐﻪ ﺑﺮﺍﯼ ﺁﻥ‬
‫ﯾﮏ ﻣﺜﺎﻝ ﺍﺯ ﯾﮏ ﮐﺪ ﮐﺎﻣﻼ ﺑﻬﯿﻨﻪ ﺩﺭﺟﺪﻭﻝ ﺯﯾﺮ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬
‫‪۴۰‬‬
‫‪Cw‬‬ ‫‪P‬‬ ‫‪X‬‬
‫‪1‬‬
‫‪0‬‬ ‫‪2‬‬ ‫‪x1‬‬
‫‪10‬‬ ‫‪1‬‬
‫‪x2‬‬ ‫)‪(۱۲۶‬‬
‫‪4‬‬
‫‪1‬‬
‫‪110‬‬ ‫‪8‬‬ ‫‪x3‬‬
‫‪1‬‬
‫‪111‬‬ ‫‪8‬‬ ‫‪x4‬‬
‫‪1‬‬
‫‪.ni = log‬‬ ‫‪pi‬‬ ‫ﺍﯾﻦ ﮐﺪ ﺩﺍﺭﺍﯼ ﺍﯾﻦ ﺧﺎﺻﯿﺖ ﺍﺳﺖ ﮐﻪ‬
‫‪1‬‬ ‫‪H‬‬
‫‪ ni = logD‬ﻣﻌﻠﻮﻡ ﻧﯿﺴﺖ‬ ‫‪pi‬‬ ‫= ‪ n‬ﺑﺮﻗﺮﺍﺭﺷﻮﺩ‪ ،‬ﺯﯾﺮﺍ ﺍﻋﺪﺍﺩ‬ ‫‪log D‬‬ ‫ﺩﺭﺣﺎﻟﺖ ﮐﻠﯽ ﻣﻌﻠﻮﻡ ﻧﯿﺴﺖ ﮐﻪ ﺑﺘﻮﺍﻥ ﮐﺪ ﺭﺍﭼﻨﺎﻥ ﻃﺮﺍﺣﯽ ﮐﺮﺩ ﮐﻪ ﺣﺪ‬
‫ﮐﻪ ﺻﺤﯿﺢ ﺑﺎﺷﻨﺪ‪ .‬ﺑﺎﺍﯾﻦ ﻭﺟﻮﺩ ﻣﯽ ﺗﻮﺍﻥ ﮐﺎﺭﯼ ﮐﺮﺩ ﮐﻪ ﺷﺮﻁ ﺯﯾﺮ ﺑﺮﻗﺮﺍﺭﺷﻮﺩ‪:‬‬
‫‪1‬‬ ‫‪1‬‬
‫‪logD‬‬ ‫‪≤ ni ≤ logD‬‬ ‫‪+ 1.‬‬ ‫)‪(۱۲۷‬‬
‫‪pi‬‬ ‫‪pi‬‬
‫ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ ‪:‬‬
‫)‪H(X‬‬ ‫)‪H(X‬‬
‫≤‪≤n‬‬ ‫‪+ 1.‬‬ ‫)‪(۱۲۸‬‬
‫‪log D‬‬ ‫‪log D‬‬
‫ﺣﺎﻝ ﻧﮑﺘﻪ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﻫﺮﻗﺪﺭﺑﺨﻮﺍﻫﯿﻢ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺑﻪ ﺣﺪّ ﭘﺎﯾﯿﻦ ﻧﺎﻣﺴﺎﻭﯼ ﺑﺎﻻ ﻧﺰﺩﯾﮏ ﺷﻮﯾﻢ‪ .‬ﺑﺮﺍﯼ ﺍﯾﻦ ﮐﺎﺭ ﻣﯽ ﺑﺎﯾﺴﺖ ﺍﺯ ﮐﺪﻫﺎﯼ‬
‫ﭼﻨﺪﺗﺎﯾﯽ ﯾﺎ ﮐﺪﻫﺎﯼ ﺑﻠﻮﮐﯽ ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﯿﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﺑﻪ ﺟﺎﯼ ﮐﺪ ﻧﮕﺎﺭﯼ ‪ X‬ﺭﺷﺘﻪ ﻫﺎﯼ ‪ s‬ﺗﺎﯾﯽ ﺍﺯ ‪ X‬ﻫﺎ ﺭﺍﮐﺪ ﻧﮕﺎﺭﯼ ﮐﻨﯿﻢ‪ ،‬ﯾﻌﻨﯽ‬
‫ﺭﺷﺘﻪ ﻫﺎﯼ ) ‪ Y = (X1 , X2 , · · · Xs‬ﺭﺍ‪ .‬ﺣﺎﻝ ﺑﺎﯾﺪ ﻧﺸﺎﻥ ﺩﻫﯿﻢ ﮐﻪ ﺗﺤﺖ ﺍﯾﻦ ﺷﺮﺍﯾﻂ ﻃﻮﻝ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ ‪ X‬ﭘﺎﯾﯿﻦ ﻣﯽ ﺁﯾﺪ‪.‬‬
‫ﺑﻪ ﺭﺍﺑﻄﻪ )‪ (127‬ﺩﻗﺖ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺍﺯﺁﻧﺠﺎ ﮐﻪ ) ‪ ،Y = (X1 , X2 , · · · Xs‬ﮐﻠﻤﻪ ﻫﺎ ﺑﻪ ﺻﻮﺭﺕ ‪ s‬ﺗﺎﯾﯽ ﻫﺎﯼ ﺍﺯﻧﻮﻉ ) ‪yij = (xi , xj , · · · xs‬‬
‫‪۴۱‬‬
‫ﻫﺴﺘﻨﺪ‪ .‬ﺩﺍﺭ ﯾﻢ‬
‫∑‬
‫‪H(Y ) = −‬‬ ‫‪pij··· log pij··· .‬‬ ‫)‪(۱۲۹‬‬
‫···‪i,j,‬‬
‫ﭼﻮﻥ ﮐﻠﻤﺎﺕ ﭘﯿﺎﻡ ‪ Y‬ﺍﺯﻫﻢ ﻣﺴﺘﻘﻞ ﻫﺴﺘﻨﺪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪ .H(Y ) = sH(X) :‬ﻭﺑﻨﺎﺑﺮﺍﯾﻦ‬
‫) ‪H(Y‬‬ ‫) ‪H(Y‬‬
‫≤‪≤n‬‬ ‫‪+ 1,‬‬ ‫)‪(۱۳۰‬‬
‫‪log D‬‬ ‫‪log D‬‬
‫ﻭﯾﺎ‬
‫)‪H(X‬‬ ‫‪1‬‬ ‫‪H(X) 1‬‬

‫≤‪≤ n‬‬ ‫‪+ .‬‬ ‫)‪(۱۳۱‬‬
‫‪log D‬‬ ‫‪s‬‬ ‫‪log D‬‬ ‫‪s‬‬
‫‪1‬‬
‫ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﻫﺮ ﮐﺪ ﮐﻠﻤﻪ ﺑﻪ ﺍﺯﺍﯼ ﻫﺮ ﮐﻠﻤﻪ ﺩﺭ ‪ X‬ﺍﺳﺖ ﻭﺩﺭﺣﺪ ‪ s‬ﻫﺎﯼ ﺑﺰ ﺭﮒ ﺩﯾﺪﻩ ﻣﯽ ﺷﻮﺩ ﮐﻪ ﻣﺎ ﺑﻪ ﺣﺪ‬ ‫‪sn‬‬ ‫ﺩﺭﺍﯾﻦ ﺭﺍﺑﻄﻪ‬
‫ﺑﻬﯿﻨﻪ ﻧﺰﺩﯾﮏ ﻣﯽ ﺷﻮﯾﻢ‪.‬‬
‫ﺳﺎﺧﺘﻦ ﮐﺪ ﻫﺎﯼ ﺑﻬﯿﻨﻪ‬ ‫‪۱.۷‬‬
‫ﺣﺎﻝ ﺑﺎﯾﺪ ﺁﻟﮕﻮﺭ ﯾﺘﻤﯽ ﺭﺍ ﻣﻌﺮﻓﯽ ﮐﻨﯿﻢ ﮐﻪ ﮐﺪ ﻫﺎﯼ ﺑﻬﯿﻨﻪ ﺭﺍ ﺑﻪ ﻃﻮﺭ ﺭ ﻭﺷﻤﻨﺪ ﻣﯽ ﺳﺎﺯﺩ‪ .‬ﻧﺨﺴﺖ ﺑﻪ ﯾﮏ ﻟﻢ ﺍﺣﺘﯿﺎﺝ ﺩﺍﺭ ﯾﻢ‪:‬‬
‫ﻟﻢ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺑﺮﺍﯼ ﺍﺣﺘﻤﺎﻻﺕ ‪ ،P1 , P2 , · · · PM‬ﯾﮏ ﮐﺪ ‪ C‬ﺩﺭ ﺩﺭ ﻭﻥ ﻣﺠﻤﻮﻋﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﺑﻬﯿﻨﻪ ﺑﺎﺷﺪ‪ .‬ﯾﻌﻨﯽ‬
‫ﻫﯿﭻ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺩﯾﮕﺮﯼ ﺑﺎ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﮐﻤﺘﺮ ﺍﺯ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﻣﺮﺑﻮﻁ ﺑﻪ ‪ C‬ﻭﺟﻮﺩ ﻧﺪﺍﺷﺘﻪ ﺑﺎﺷﺪ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺍﯾﻦ ﮐﺪ ﺩﺭﺩﺭ ﻭﻥ‬
‫ﻣﺠﻤﻮﻋﻪ ﮐﺪﻫﺎﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﻧﯿﺰ ﺑﻬﯿﻨﻪ ﺍﺳﺖ‪.‬‬
‫ﺍﺛﺒﺎﺕ‪ :‬ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﺯﯾﺮﻣﺠﻤﻮﻋﻪ ﮐﺪ ﻫﺎﯼ ﯾﮑﺘﺎ ﮔﺸﺎ ﺳﺖ‪ .‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﯾﮏ ﮐﺪ ﯾﮑﺘﺎ ﮔﺸﺎﯼ ‪ C ′‬ﺑﺎ ﻃﻮﻝ‬
‫ﮐﺪﮐﻠﻤﻪ ﻫﺎﯼ ‪ n′1 , n′2 , · · · n′M‬ﻭﺟﻮﺩ ﺩﺍﺭﺩ ﮐﻪ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ﺁﻥ ﺍﺯ ﻃﻮﻝ ﻣﺘﻮﺳﻂ ‪ C‬ﮐﻤﺘﺮﺍﺳﺖ‪ .‬ﺍﻭﻻً ﭼﻮﻥ ‪ C ′‬ﯾﮑﺘﺎ ﮔﺸﺎﺳﺖ ﺑﻨﺎﺑﺮﻗﻀﯿﻪ‬
‫‪∑M‬‬ ‫‪′‬‬
‫‪ .‬ﺍﻣﺎ ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﻨﺎﺑﺮﻗﻀﯿﻪ ﻗﺒﻞ ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺎ ﻃﻮﻝ ﮐﻠﻤﺎﺕ‬ ‫‪i=1‬‬ ‫ﺍﯼ ﮐﻪ ﻗﺒﻼً ﺛﺎﺑﺖ ﮐﺮﺩﯾﻢ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪D−ni ≤ 1 :‬‬
‫‪ n′1 , n′2 , · · · n′M‬ﻭﺟﻮﺩ ﺧﻮﺍﻫﺪ ﺩﺍﺷﺖ ‪ .‬ﺑﺪﯾﻦ ﺗﺮﺗﯿﺐ ﺑﻬﯿﻨﻪ ﺑﻮﺩﻥ ﮐﺪ ‪ C‬ﺩﺭﺩﺭ ﻭﻥ ﻣﺠﻤﻮﻋﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﻧﯿﺰ ﻧﻘﺾ ﻣﯽ ﺷﻮﺩ‪.‬‬
‫‪۴۲‬‬
‫ﺍﺯ ﺍﯾﻦ ﺑﻪ ﺑﻌﺪ ﺗﻮﺟﻪ ﺧﻮﺩ ﺭﺍ ﺑﻪ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﻭ ﺩﻭﺗﺎﯾﯽ ‪ binary‬ﻣﻌﻄﻮﻑ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﻧﺨﺴﺖ ﺑﻪ ﯾﮏ ﻟﻢ ﺍﺣﺘﯿﺎﺝ ﺩﺍﺭ ﯾﻢ‪:‬‬
‫ﻟﻢ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ‪ C‬ﯾﮏ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ﺑﺎ ﻃﻮﻝ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ‪ n1 , n2 , · · · nM‬ﺑﺮﺍﯼ ﮐﺪ ﮔﺬﺍﺭﯼ ﻋﻼﻣﺎﺕ ‪ x1 , x2 , · · · xM‬ﺑﺎﺷﺪ‬
‫ﮐﻪ ﺍﯾﻦ ﻋﻼﻣﺎﺕ ﻧﯿﺰ ﺑﺎ ﺍﺣﺘﻤﺎﻻﺕ ‪ p1 , p2 , · · · pM‬ﺗﮑﺮﺍﺭﺷﻮﻧﺪ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺍﮔﺮ ﮐﺪ ‪ C‬ﺩﺭ ﻭﻥ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﺑﻬﯿﻨﻪ ﺑﺎﺷﺪ ﺁﻧﮕﺎﻩ‬
‫ﺧﺎﺻﯿﺖ ﻫﺎﯼ ﺯﯾﺮﺑﺮﻗﺮﺍﺭﻧﺪ‪:‬‬
‫ﺍﻟﻒ‪ :‬ﻋﻼﻣﺖ ﻫﺎﯼ ﺑﺎﺍﺣﺘﻤﺎﻝ ﺑﯿﺸﺘﺮ ﻃﻮﻝ ﮐﻤﺘﺮ ﺩﺍﺭﻧﺪ‪ .‬ﯾﻌﻨﯽ ﺍﮔﺮ ‪ pi ≥ pj‬ﺁﻧﮕﺎﻩ ‪.ni ≤ nj‬‬
‫ﺏ‪ :‬ﺩﻭﺗﺎﺍﺯﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯾﯽ ﮐﻪ ﮐﻤﺘﺮ ﯾﻦ ﺍﺣﺘﻤﺎﻝ ﻫﺎ ﺭﺍ ﺩﺍﺭﻧﺪ ﺣﺘﻤﺎً ﺩﺍﺭﺍﯼ ﻃﻮﻝ ﻣﺴﺎﻭﯼ ﻫﺴﺘﻨﺪ‪.‬‬
‫ﺝ‪ :‬ﺩﺭﺑﯿﻦ ﮐﻠﻤﺎﺗﯽ ﮐﻪ ﺑﯿﺸﺘﺮ ﯾﻦ ﻃﻮﻝ ﺭﺍ ﺩﺍﺭﻧﺪ‪ ،‬ﺣﺘﻤﺎً ﺑﺎﯾﺪ ﺩﻭ ﮐﻠﻤﻪ ﻭﺟﻮﺩ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﮐﻪ ﻓﻘﻂ ﻭﻓﻘﻂ ﺩﺭ ﯾﮏ ﺭﻗﻢ ﺑﺎﯾﮑﺪﯾﮕﺮ ﺗﻔﺎﻭﺕ‬
‫ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ‪.‬‬
‫ﺍﺛﺒﺎﺕ ﺍﻟﻒ ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ‪ p1 ≥ p2‬ﮐﻪ ﺩﺭﺁﻥ ‪ p2 , p1‬ﺑﻪ ﺗﺮﺗﯿﺐ ﺍﺣﺘﻤﺎﻝ ﻇﻬﻮﺭ ﻋﻼﻣﺎﺕ ‪ x2 , x1‬ﺑﺎﺷﻨﺪ‪ .‬ﻫﻢ ﭼﻨﯿﻦ ﻓﺮﺽ ﮐﻨﯿﺪ‬
‫ﮐﻪ ﺩﺭﺍﯾﻦ ﮐﺪ ﻟﺤﻈﻪ ﺍﯼ ‪ C‬ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ ‪ .n1 ≥ n2‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﻣﯽ ﺗﻮﺍﻥ ﯾﮏ ﮐﺪ ﺑﻬﺘﺮﺍﺯ ‪ C‬ﺳﺎﺧﺖ‪ .‬ﺟﺎﯼ ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﻣﺮﺑﻮﻁ‬
‫ﺑﻪ ‪ x1‬ﻭ ‪ x2‬ﺭﺍ ﻋﻮﺽ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﮐﺪ ﻫﻨﻮﺯﻟﺤﻈﻪ ﺍﯼ ﺍﺳﺖ ﺯﯾﺮﺍﺷﺮﻁ ﮐﺮﺍﻓﺖ ﺑﺮﻗﺮﺍﺭﺍﺳﺖ‪ .‬ﺩﺭﮐﺪ ﺟﺪﯾﺪ ‪ C ′‬ﺩﺍﺭ ﯾﻢ ‪:‬‬
‫‪n′ − n = n1 p2 + n2 p1 − n1 p1 − n2 p2 = (n1 − n2 )(p2 − p1 ) ≤ 0.‬‬ ‫)‪(۱۳۲‬‬
‫ﺍﺛﺒﺎﺕ ﺏ‪ :‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﻤﺘﺮ ﯾﻦ ﺍﺣﺘﻤﺎﻻﺕ ﻋﺒﺎﺭﺕ ﺑﺎﺷﻨﺪ ﺍﺯ ‪ PM −1 , PM‬ﻭ ‪ .PM −1 ≥ PM‬ﺣﺎﻝ ﻣﯽ ﺧﻮﺍﻫﯿﻢ ﺣﺎﻟﺖ ‪nM −1 < nM‬‬
‫ﺭﺍﺣﺬﻑ ﮐﻨﯿﻢ‪ .‬ﮐﺪ ﮐﻠﻤﻪ ﻫﺎﯼ ﻣﺮﺑﻮﻁ ﺑﻪ ﻋﻼﻣﺖ ﻫﺎﯼ ‪ xM −1‬ﻭ ‪ xM‬ﺭﺍ ﺑﻪ ﺗﺮﺗﯿﺐ ﺑﺎ ‪ S‬ﻭ ̃‪ S‬ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﯿﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ‬
‫‪S‬‬ ‫=‬ ‫‪s1 s2 · · · snM −1‬‬
‫̃‪S‬‬ ‫≡‬ ‫) ‪S ′ S̃ ′ = s′1 s′2 · · · s′nM −1 (s′nM −1 +1 snM −1 +2 · · · s′nM‬‬ ‫)‪(۱۳۳‬‬
‫ﺣﺎﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﻗﺴﻤﺖ ﺍﺿﺎﻓﯽ ﺭﺍ ﮐﻪ ﺩﺭ ﭘﺮﺍﻧﺘﺰﻗﺮﺍﺭﺩﺍﺩﻩ ﺍﯾﻢ ﺣﺬﻑ ﮐﻨﯿﻢ ﺑﺪﻭﻥ ﺍﯾﻨﮑﻪ ﺑﻪ ﻟﺤﻈﻪ ﺍﯼ ﺑﻮﺩﻥ ﮐﺪ ﺧﻠﻠﯽ ﻭﺍﺭﺩ ﺷﻮﺩ‪ .‬ﭼﻮﻥ‬
‫ﺍﮔﺮ ﮐﻠﻤﻪ ﺍﯼ ﭘﯿﺸﻮﻧﺪ ‪ S ′ S̃ ′‬ﻧﺒﻮﺩﻩ ﺍﺳﺖ ﭘﯿﺸﻮﻧﺪ ‪ S ′‬ﻧﯿﺰ ﻧﺨﻮﺍﻫﺪ ﺑﻮﺩ‪ .‬ﺿﻤﻨﺎً ‪ S ′‬ﻧﻤﯽ ﺗﻮﺍﻧﺪ ﭘﯿﺸﻮﻧﺪ ﮐﺪﮐﻠﻤﻪ ﺩﯾﮕﺮﯼ ﺑﺎﺷﺪ‪،‬ﭼﻮﻥ ﮐﻠﻤﺎﺕ‬
‫ﻣﺮﺑﻮﻁ ﺑﻪ ‪ xM −1‬ﻭ ‪ xM‬ﺑﺰ ﺭﮔﺘﺮ ﯾﻦ ﻃﻮﻝ ﻫﺎ ﺭﺍ ﺩﺍﺭﻧﺪ‪ .‬ﺗﻨﻬﺎﺍﻣﮑﺎﻧﯽ ﮐﻪ ﺑﺎﻗﯽ ﻣﯽ ﻣﺎﻧﺪ ﺁﻥ ﺍﺳﺖ ﮐﻪ ﮐﻠﻤﺎﺕ ﺑﺎ ﻃﻮﻝ ‪ nM −1‬ﺑﯿﺶ ﺍﺯ‬
‫ﺩﻭ ﺗﺎﺑﺎﺷﻨﺪ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺗﻨﻬﺎ ﺭﺍ ﻩ ﺑﺮﺍﯼ ﭘﯿﺸﻮﻧﺪ ﺑﻮﺩﻥ ‪ S ′‬ﺁﻥ ﺍﺳﺖ ﮐﻪ ‪ S ′‬ﺩﻗﯿﻘﺎً ﺑﺎﯾﮑﯽ ﺍﺯ ﺁﻥ ﮐﻠﻤﺎﺕ ﺑﺮﺍﺑﺮﺑﺎﺷﺪ‪ .‬ﻭﻟﯽ ﺍﯾﻦ ﺑﺪﺍﻥ‬
‫ﻣﻌﻨﺎﺳﺖ ﮐﻪ ﺩﺭﮐﺪ ﺍﻭﻟﯿﻪ ﮐﻪ ﺩﺭﺁﻥ ﺣﺬﻓﯽ ﺻﻮﺭﺕ ﻧﮕﺮﻓﺘﻪ ﺑﻮﺩ‪ ،‬ﺁﻥ ﮐﻠﻤﻪ ﺧﺎﺹ ﭘﯿﺸﻮﻧﺪ ̃‪ S‬ﺑﻮﺩﻩ ﺍﺳﺖ‪.‬‬
‫‪۴۳‬‬
‫ﺍﺛﺒﺎﺕ ﺝ‪ :‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﺩﻭﺗﺎﺍﺯﺑﻠﻨﺪﺗﺮ ﯾﻦ ﮐﻠﻤﺎﺕ ﺭﺍ ﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﻢ‪ .‬ﺍﮔﺮ ﺗﻨﻬﺎ ﺩﺭ ﺭﻗﻢ ﺁﺧﺮ ﺍﺧﺘﻼﻑ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﮐﻪ ﺍﯾﻦ ﻫﻤﺎﻥ‬
‫ﭼﯿﺰﯼ ﺍﺳﺖ ﮐﻪ ﻣﻄﻠﻮﺏ ﻣﺎﺳﺖ‪ .‬ﺍﮔﺮ ﺑﯿﺶ ﺍﺯ ﺭﻗﻢ ﺁﺧﺮ ﺑﺎﻫﻢ ﺍﺧﺘﻼﻑ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﻣﺎ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺭﻗﻢ ﺁﺧﺮ ﺭﺍ ﺣﺬﻑ ﮐﻨﯿﻢ ﻭ ﯾﮏ ﮐﺪ‬
‫ﻟﺤﻈﻪ ﺍﯼ ﺑﻬﺘﺮ ﺑﺪﺳﺖ ﺑﯿﺎﻭﺭ ﯾﻢ‪ .‬ﺍﺳﺘﺪﻻﻝ ﺍﯾﻦ ﮐﻪ ﻟﺤﻈﻪ ﺍﯼ ﺑﻮﺩﻥ ﮐﺪ ﺑﻪ ﻫﻢ ﻧﻤﯽ ﺧﻮﺭﺩ ﻣﺜﻞ ﻗﺴﻤﺖ ﺏ ﺍﺳﺖ‪.‬‬
‫‪ ۲.۷‬ﺭ ﻭﺵ ﻫﻮﻓﻤﺎﻥ ﺑﺮﺍﯼ ﺳﺎﺧﺘﻦ ﮐﺪ ﻫﺎﯼ ﻟﺤﻈﻪ ﺍﯼ ﺑﻬﯿﻨﻪ‬
‫ﺍﺯﺍﯾﻦ ﺑﻪ ﺑﻌﺪ ﻧﻤﺎﺩﻫﺎ ﻭﺍﺣﺘﻤﺎﻻﺕ ﺭﺍ ﺑﺎ ) ‪ (X, P‬ﻧﻤﺎﯾﺶ ﻣﯽ ﺩﻫﯿﻢ‪:‬‬
‫‪(X, P ) = {(x1 , p1 ), (x2 , p2 ), · · · (xM , pM )}.‬‬ ‫)‪(۱۳۴‬‬
‫ﻣﺮﺣﻠﻪ ﺍﻭﻝ ‪ :‬ﺍﺯ ) ‪ (X, P‬ﯾﮏ ) ̃‪ (X̃, P‬ﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮﻣﯽ ﺳﺎﺯﯾﻢ‪:‬‬
‫‪(X̃, P̃ ) = {(x1 , p1 ), (x2 , p2 ), · · · (xM −2 , pM −2 ), (xM −1,M , pM −1 + pM )}.‬‬ ‫)‪(۱۳۵‬‬
‫ﺳﻮﺍﻝ‪ :‬ﻣﻨﻈﻮﺭ ﺍﺯ ‪ xM −1,M‬ﭼﯿﺴﺖ؟ ﻣﻨﻈﻮﺭﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺩﺭﺫﻫﻦ ﺧﻮﺩ ﺗﻔﺎﻭﺕ ﺑﯿﻦ ‪ xM −1‬ﻭ ‪ xM‬ﺭﺍ ﺍﺯﺑﯿﻦ ﺑﺒﺮ ﯾﻢ‪ .‬ﺑﻪ ﻋﺒﺎﺭﺕ‬
‫ﺩﯾﮕﺮ ﻣﯽ ﺩﺍﻧﯿﻢ ﮐﻪ ﺗﻨﻬﺎ ﺍﺣﺘﻤﺎﻻﺕ ﻣﻬﻢ ﻫﺴﺘﻨﺪ ﻭ ﻧﻪ ﺧﻮﺩ ﻧﻤﺎﺩﻫﺎ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﻣﺠﻤﻮﻋﻪ } ‪ {p1 , p2 , · · · pM −1 , pM‬ﺭﺍ ﺑﻪ ﻣﺠﻤﻮﻋﻪ‬
‫} ‪ {p1 , p2 , · · · pM −1 + pM‬ﺗﻘﻠﯿﻞ ﺩﺍﺩﻩ ﺍﯾﻢ‪ .‬ﺣﺎﻝ ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﺪ ﺑﻬﯿﻨﻪ ﺍﯼ ﺑﺮﺍﯼ ) ̃‪ (X̃, P‬ﺩﺭﺩﺳﺖ ﺑﺎﺷﺪ ﺑﺎ ﻣﺸﺨﺼﺎﺕ ﺯﯾﺮ‪:‬‬
‫‪۴۴‬‬
Ñ C̃ P̃ X̃
n1 w1 p1 x1
n2 w2 p2 x2
(۱۳۶)
· · · ·
nM −2 wM −2 pM −2 xM −2
nM −1,M wM −1,M pM −1 + pM xM −1,M
.‫( ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﻣﯽ ﺳﺎﺯﯾﻢ‬X, P ) ‫ ﺭﺍ ﺑﺮﺍﯼ‬C ‫ﺣﺎﻝ ﮐﺪ‬
۴۵
‫̃‪N‬‬ ‫̃‪C‬‬ ‫̃‪P‬‬ ‫̃‪X‬‬
‫‪n1‬‬ ‫‪w1‬‬ ‫‪p1‬‬ ‫‪x1‬‬
‫‪n2‬‬ ‫‪w2‬‬ ‫‪p2‬‬ ‫‪x2‬‬
‫)‪(۱۳۷‬‬
‫·‬ ‫·‬ ‫·‬ ‫·‬
‫‪nM −2‬‬ ‫‪wM −2‬‬ ‫‪pM −2‬‬ ‫‪xM −2‬‬
‫‪nM −1,M + 1‬‬ ‫‪wM −1,M 0‬‬ ‫‪pM −1‬‬ ‫‪xM −1‬‬
‫‪nM −1,M + 1‬‬ ‫‪wM −1,M 1‬‬ ‫‪pM‬‬ ‫‪xM‬‬
‫ﺣﺎﻝ ﺛﺎﺑﺖ ﻣﯽ ﮐﻨﯿﻢ ﮐﻪ ﺍﮔﺮ ̃‪ C‬ﺑﻬﯿﻨﻪ ﺑﺎﺷﺪ ﺁﻧﮕﺎﻩ ‪ C‬ﻧﯿﺰ ﺑﻬﯿﻨﻪ ﺍﺳﺖ‪ .‬ﺍﺯﺑﺮﻫﺎﻥ ﺧﻠﻒ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﻓﺮﺽ ﮐﻨﯿﺪ ﮐﻪ ﮐﺪﯼ ﻣﺜﻞ‬
‫‪ C ′‬ﻭﺟﻮﺩ ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ ﮐﻪ ﺍﺯ ﮐﺪ ‪ C‬ﺑﻬﺘﺮ ﺑﺎﺷﺪ‪ .‬ﺩﺭﺍﯾﻦ ﺻﻮﺭﺕ ﺑﺎﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﮐﺪ ‪ C ′‬ﻣﯽ ﺗﻮﺍﻥ ﮐﺪﯼ ﻣﺜﻞ ‪ C̃ ′‬ﺳﺎﺧﺖ ﮐﻪ ﺍﺯ ̃‪ C‬ﺑﻬﺘﺮﺑﺎﺷﺪ‪.‬‬
‫ﮐﺪ ‪ C ′‬ﺩﺭﺟﺪﻭﻝ ﺯﯾﺮﻧﺸﺎﻥ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬
‫‪۴۶‬‬
‫‪N′‬‬ ‫‪C′‬‬ ‫‪P‬‬ ‫‪X‬‬
‫‪n′1‬‬ ‫‪w1′‬‬ ‫‪p1‬‬ ‫‪x1‬‬
‫‪n′2‬‬ ‫‪w2′‬‬ ‫‪p2‬‬ ‫‪x2‬‬
‫)‪(۱۳۸‬‬
‫·‬ ‫·‬ ‫·‬ ‫·‬
‫‪n′M −2‬‬ ‫‪′‬‬

‫‪wM‬‬ ‫‪−2‬‬ ‫‪pM −2‬‬ ‫‪xM −2‬‬
‫‪n′M −1‬‬ ‫‪′‬‬

‫‪wM‬‬ ‫‪−1‬‬ ‫‪pM −1‬‬ ‫‪xM −1‬‬
‫‪n′M‬‬ ‫‪′‬‬
‫‪wM‬‬ ‫‪pM‬‬ ‫‪xM‬‬
‫‪′‬‬ ‫‪′‬‬ ‫‪′‬‬ ‫‪′‬‬

‫‪ wM‬ﻧﯿﺰ ﺗﻨﻬﺎ ﺩﺭ ﺭﻗﻢ ﺁﺧﺮﺑﺎﻫﻢ ﺍﺧﺘﻼﻑ ﺩﺍﺭﻧﺪ‪ .‬ﺣﺎﻝ ﮐﺪ ‪ C̃ ′‬ﺭﺍ ﻣﻄﺎﺑﻖ ﺟﺪﻭﻝ ﺯﯾﺮﻣﯽ ﺳﺎﺯﯾﻢ‪:‬‬ ‫‪ wM‬ﻭ‬ ‫ﺩﺭﺍﯾﻦ ﮐﺪ ‪−1 . nm = nM −1‬‬
‫‪۴۷‬‬
Ñ ′ C̃ ′ P X
n′1 w1′ p1 x1
n′2 w2′ p2 x2
(۱۳۹)
· · · ·
n′M −2 ′
wM −2 pM −2 xM −2
n′M −1 w̃′ M −1,M pM −1 + pM xM −1,M
′ ′ ′
:‫ ﺣﺎﻝ ﺑﺪﺳﺖ ﻣﯽ ﺁﻭﺭ ﯾﻢ‬.‫ ﺍﺳﺖ ﮐﻪ ﺭﻗﻢ ﺁﺧﺮ ﺁﻥ ﺑﺮﺩﺍﺷﺘﻪ ﺷﺪﻩ ﺍ ﺳﺖ‬wM −1 ‫ ﯾﺎ‬wM ‫ ﻫﻤﺎﻥ‬w̃ M −1,M ‫ﮐﻪ ﺩﺭﺁﻥ‬
n − ñ = (pM1 + pM )(nM −1,M + 1 − nM −1,M ) = pM −1 + pM , (۱۴۰)
‫ﻭ‬
n′ − ñ′ = (pM1 + pM )(n′M − n′M − 1) = pM −1 + pM . (۱۴۱)
‫ﺩﺭﻧﺘﯿﺠﻪ‬
n − ñ = n′ − ñ′ (۱۴۲)
:‫ﮐﻪ ﺍﺯﺁﻥ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‬
if n′ < n −→ ñ′ < ñ. (۱۴۳)
۴۸
‫ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﮔﺮ ﮐﺪ ‪ C ′‬ﺍﺯ ﮐﺪ ‪ C‬ﺑﻬﺘﺮ ﺑﺎﺷﺪ ﮐﺪ ̃‪ C‬ﻧﯿﺰ ﺍﺯ ﮐﺪ ̃‪ C‬ﺑﻬﺘﺮﺍﺳﺖ ﻭ ﺍﯾﻦ ﺧﻼﻑ ﺑﻬﯿﻨﻪ ﺑﻮﺩﻥ ﮐﺪ ̃‪ C‬ﺍﺳﺖ‪.‬‬
‫ﺍﯾﻦ ﻗﻀﺎﯾﺎ ﺑﻪ ﻣﺎ ﻣﯽ ﺁﻣﻮﺯﻧﺪ ﮐﻪ ﭼﮕﻮﻧﻪ ﮐﺪ ﻫﺎﯼ ﺑﻬﯿﻨﻪ ﺑﺴﺎﺯﯾﻢ‪.‬‬
‫ﻣﺜﺎﻝ ﯾﮏ‪ :‬ﺭ ﻭﺵ ﺳﺎﺧﺖ ﺩﺭﺟﺪﻭﻝ ﻫﺎﯼ ﺯﯾﺮ ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ‪:‬‬
‫‪P‬‬ ‫‪X‬‬
‫‪0.5‬‬ ‫‪x1‬‬
‫)‪(۱۴۴‬‬
‫‪0.35‬‬ ‫‪x2‬‬
‫‪0.15‬‬ ‫‪x3‬‬
‫̃‪C‬‬ ‫̃‪P‬‬ ‫̃‪X‬‬
‫‪0‬‬ ‫‪0.5‬‬ ‫‪x1‬‬ ‫)‪(۱۴۵‬‬
‫‪1‬‬ ‫‪0.5‬‬ ‫‪x2,3‬‬
‫ﻭﺍﺯﺁﻧﺠﺎ‬
‫‪C‬‬ ‫‪P‬‬ ‫‪X‬‬
‫‪0‬‬ ‫‪0.5‬‬ ‫‪x1‬‬

‫)‪(۱۴۶‬‬
‫‪10‬‬ ‫‪0.35‬‬ ‫‪x2‬‬
‫‪11‬‬ ‫‪0.15‬‬ ‫‪x3‬‬
‫ﻫﺮﮔﺎﻩ ﺗﻌﺪﺍﺩﮐﻠﻤﺎﺕ ﺑﯿﺸﺘﺮﺑﺎﺷﺪ ﺍﯾﻦ ﮐﺎﺭ ﺭﺍﺩﺭﭼﻨﺪﻣﺮﺣﻠﻪ ﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ ‪ .‬ﺩﺭﻫﺮﻣﺮﺣﻠﻪ ﺍﺣﺘﻤﺎﻻﺕ ﺭﺍﺍﺯﺑﯿﺸﺘﺮ ﯾﻦ ﺑﻪ ﮐﻤﺘﺮ ﯾﻦ ﻣﺮﺗﺐ‬
‫ﻣﯽ ﮐﻨﯿﻢ ﻭ ﺁﺧﺮ ﯾﻦ ﺩﻭ ﮐﻠﻤﻪ ﺭﺍ ﺑﺎﻫﻢ ﻣﻄﺎﺑﻖ ﺑﺎﺁﻧﭽﻪ ﮐﻪ ﺩﺭﺑﺎﻻ ﮔﻔﺘﻪ ﺷﺪﺍﺩﻏﺎﻡ ﻣﯽ ﮐﻨﯿﻢ‪ .‬ﺍﯾﻦ ﮐﺎﺭ ﺭﺍﺁﻧﻘﺪﺭﺍﻧﺠﺎﻡ ﻣﯽ ﺩﻫﯿﻢ ﺗﺎ ﺑﻪ ﯾﮏ‬
‫ﻣﺠﻤﻮﻋﻪ ﺑﺮﺳﯿﻢ ﻣﺘﺸﮑﻞ ﺍﺯ ﺩﻭﻧﻤﺎﺩ ﻭ ﺩﻭﺍﺣﺘﻤﺎﻝ‪ .‬ﺑﻪ ﺩﻭ ﻧﻤﺎﺩ ﺁﺧﺮ ﮐﻠﻤﻪ ﻫﺎﯼ ‪ 0‬ﻭ ‪ 1‬ﺭﺍ ﻧﺴﺒﺖ ﻣﯽ ﺩﻫﯿﻢ ﻭ ﺳﭙﺲ ﻣﺮﺍﺣﻞ ﺭﺍ ﺩﺭﺟﻬﺖ‬
‫ﻋﮑﺲ ﻃﯽ ﻣﯽ ﮐﻨﯿﻢ ﺗﺎ ﺑﻪ ﺟﺪﻭﻝ ﺍﻭﻟﯿﻪ ﺑﺮﺳﯿﻢ ﻭﮐﺪ ﻫﺎﯼ ﺗﻤﺎﻡ ﻧﻤﺎﺩ ﻫﺎ ﺭﺍ ﺑﺪﺳﺖ ﺁﻭﺭ ﯾﻢ‪.‬‬
‫‪۴۹‬‬

17-QCI-New Classical Information Theory (Part 1) PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

17-QCI-New Classical Information Theory (Part 1) PDF

Uploaded by

Copyright:

Available Formats

‫ﻧﻈﺮ ﯾﻪ ﺍﻃﻼﻋﺎﺕ ﮐﻼﺳﯿﮏ ‪ -‬ﺑﺨﺶ ﺍﻭﻝ‬

‫ﻭﺣﯿﺪﮐﺮ ﯾﻤﯽ ﭘﻮﺭ‪ -‬ﺩﺍﻧﺸﮑﺪﻩ ﻓﯿﺰﯾﮏ ‪ -‬ﺩﺍﻧﺸﮕﺎﻩ ﺻﻨﻌﺘﯽ ﺷﺮ ﯾﻒ‬

‫ﺗﻮﺍﻥ ﺗﺎﺑﻌﯽ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﻧﺴﺒﺖ ﺩﺍﺩ‪.‬‬

‫ﺍﻃﻼﻋﺎﺕ ﯾﮏ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ‬ ‫‪۱.۲‬‬

‫‪P (x1 ) = 1,‬‬ ‫‪P (xi ) = 0,‬‬ ‫‪i = 2, 3, · · · N,‬‬ ‫)‪(۲‬‬

‫ﺑﺎﯾﺴﺖ ﻧﺴﺒﺖ ﻣﻌﮑﻮﺱ ﺑﺎ ﺍﺣﺘﻤﺎﻝ ﻭﻗﻮﻉ ﺁﻥ ﭘﯿﺸﺎﻣﺪ ﯾﻌﻨﯽ ‪ pi‬ﺩﺍﺷﺘﻪ ﺑﺎﺷﺪ‪.‬‬

‫ﺑﻪ ﺗﻨﻬﺎﯾﯽ ﻭ ‪ yj‬ﺑﻪ ﺗﻨﻬﺎﯾﯽ ﮐﺴﺐ ﻣﯽ ﮐﻨﯿﻢ ﺑﻨﺎﺑﺮﺍﯾﻦ ﺍﻧﺘﻈﺎﺭﺩﺍﺭ ﯾﻢ ﮐﻪ‬

‫‪h(pi qj ) = h(pi ) + h(qj ).‬‬ ‫)‪(۴‬‬

‫ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ‪:‬‬

‫‪ p log‬ﺩﺭﻓﺎﺻﻠﻪ ]‪ p ∈ [0, 1‬ﯾﮏ ﺗﺎﺑﻊ ﻣﺜﺒﺖ ﺍﺳﺖ‬ ‫‪1‬‬

‫ﺑﻨﺎﺑﺮﺍﯾﻦ )‪ H(X‬ﯾﮏ ﺗﺎﺑﻊ ﻣﺜﺒﺖ ﺍﺳﺖ‪.‬‬

‫ﺍﻃﻼﻋﺎﺕ ﺷﺮﻃﯽ‬ ‫‪۳.۲‬‬

‫)‪P (x, y‬‬ ‫∑‬

‫ﺩﺭﻧﺘﯿﺠﻪ ﺍﻃﻼﻋﺎﺕ ﺑﺎﻗﯿﻤﺎﻧﺪﻩ ﺩﺭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﺑﺮﺍﺑﺮﺧﻮﺍﻫﺪ ﺑﻮﺩ ﺑﺎ‪:‬‬

‫ﻣﺘﻮﺳﻂ ﺑﮕﯿﺮ ﯾﻢ‪ .‬ﺑﻨﺎﺑﺮﺍﯾﻦ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬

‫ﺍﺯ ﺭﺍﺑﻄﻪ )‪ (11‬ﺑﻪ ﻧﺘﯿﺠﻪ ﺯﯾﺮ ﻣﯽ ﺭﺳﯿﻢ‪:‬‬

‫‪H(X, Y ) = H(X|Y ) + H(Y ) = H(Y |X) + H(X).‬‬ ‫)‪(۱۲‬‬

‫)‪ H(X|Y ) = H(X‬ﻭ ﺑﻨﺎﺑﺮ )‪. H(X, Y ) = H(X) + H(Y ) ،(12‬‬

‫ﺷﻬﻮﺩﯼ ﺭ ﻭﺷﻨﯽ ﺩﺍﺭﺩ‪.‬‬

‫ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ‬ ‫‪۴.۲‬‬

‫ﺍﻃﻼﻋﺎﺕ ﻣﺘﻘﺎﺑﻞ ﺩﺭﺩﻭﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X‬ﻭ ‪ Y‬ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺗﻌﺮ ﯾﻒ ﻣﯽ ﺷﻮﺩ‪:‬‬

‫‪I(X : Y ) := H(X) + H(Y ) − H(X, Y ).‬‬ ‫)‪(۱۳‬‬

‫‪I(X : Y ) := H(X) − H(X|Y ).‬‬ ‫)‪(۱۴‬‬

‫})‪X = {000(1/2), 111(1/2‬‬ ‫)‪(۱۵‬‬

‫ﺗﻮﺍﻧﯿﻢ ﺭﺷﺘﻪ ﺳﻮﺍﻻﺕ ﺧﻮﺩﺭﺍ ﺑﻪ ﺗﺮﺗﯿﺐ ﺯﯾﺮﺗﻨﻈﯿﻢ ﮐﻨﯿﻢ‪:‬‬

‫‪ - ۱‬ﺁﯾﺎ ﻫﻤﻪ ﺍﻋﺪﺍﺩ ﺻﻔﺮ ﻫﺴﺘﻨﺪ؟‬

‫ﺑﺮﺍﯼ ﺭﺳﯿﺪﻥ ﺑﻪ ﺭﺷﺘﻪ ﻣﻮﺭﺩ ﻧﻈﺮ ﮐﻔﺎﯾﺖ ﻣﯽ ﮐﻨﺪ‪.‬‬

‫ﺣﺎﻝ ﻣﻨﺒﻊ ﺯﯾﺮ ﺭﺍﺩﺭﻧﻈﺮﺑﮕﯿﺮ ﯾﺪ‪:‬‬

‫})‪X = {000(1/4), 111(1/4), 001(1/4), 110(1/4‬‬ ‫)‪(۱۶‬‬

‫ﺣﺎﻝ ﻣﯽ ﺗﻮﺍﻧﯿﻢ ﺳﻮﺍﻻﺕ ﺧﻮﺩ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮﺗﻨﻈﯿﻢ ﮐﻨﯿﻢ‪:‬‬

‫‪ - ۱‬ﺁﯾﺎ ﺍﮐﺜﺮ ﯾﺖ ﺑﯿﺖ ﻫﺎ ﺻﻔﺮﻫﺴﺘﻨﺪ؟‬

‫‪ - ۲‬ﺁﯾﺎ ﻫﻤﻪ ﺑﯿﺖ ﻫﺎ ﻣﺜﻞ ﻫﻢ ﻫﺴﺘﻨﺪ؟‬

‫‪H(X | 1) = 1,‬‬ ‫‪H(X | 0) = 1, −→ H(X|Y ) = 1.‬‬ ‫)‪(۱۷‬‬

‫‪I(X : Y ) = H(X) − H(X | Y ) = 2 − 1 = 1.‬‬ ‫)‪(۱۸‬‬

‫ﺑﺮﺍﯼ ﭘﺮﺳﯿﺪﻥ ﺑﺎﻗﯽ ﻧﻤﯽ ﻣﺎﻧﺪ‪ .‬ﺩﺭ ﺍﯾﻦ ﺟﺎ ﺩﺍﺭ ﯾﻢ‪:‬‬

‫ﺩﺭ ﻧﺘﯿﺠﻪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ‪:‬‬

‫‪I(X : Y ) = H(X) − H(X | Y ) = 2 − 0 = 2.‬‬ ‫)‪(۲۰‬‬

‫‪log x ln(x) − 1,‬‬ ‫)‪(۲۲‬‬

‫ﮐﻪ ﺩﺭﺁﻥ ﺗﺴﺎﻭﯼ ﻓﻘﻂ ﻭﻗﺘﯽ ﺑﺮﻗﺮﺍﺭﻣﯽ ﺷﻮﺩ ﮐﻪ )‪ .q(x) = p(x‬ﺩﺭﻧﺘﯿﺠﻪ‬

‫∑‬ ‫∑ )‪q(x‬‬ ‫∑‬

‫∑‬ ‫)‪q(x‬‬ ‫)‪q(x‬‬

‫ﻫﻤﻪ ‪ i‬ﻫﺎ )‪ .q(x) = p(x‬ﯾﻌﻨﯽ ﺩﻭﺗﺎﺑﻊ ﺗﻮﺯﯾﻊ ﺍﺣﺘﻤﺎﻝ ﯾﮑﯽ ﻫﺴﺘﻨﺪ‪.‬‬

‫= )‪ {p(x‬ﺑﺮﻗﺮﺍﺭ ﻣﯽ ﺷﻮﺩ‬ ‫}‪M‬‬

‫= )‪ . q(x‬ﺩﺭﻧﺘﯿﺠﻪ ﺧﻮﺍﻫﯿﻢ ﺩﺍﺷﺖ ‪:‬‬ ‫‪1‬‬

‫‪ n‬ﻧﺘﯿﺠﻪ ‪ : ۲‬ﺑﺮﺍﯼ ﺩﻭ ﻣﺘﻐﯿﺮﺗﺼﺎﺩﻓﯽ ‪ X, Y‬ﻧﺎﻣﺴﺎﻭﯼ ﺯﯾﺮﺑﺮﻗﺮﺍﺭﺍﺳﺖ‬

‫‪H(X, Y ) ≤ H(X) + H(Y ),‬‬ ‫)‪(۲۸‬‬

‫∑‬ ‫)‪q(x, y‬‬

‫ﭼﯿﺰﯼ ﻧﯿﺴﺖ ﺟﺰ‬

‫‪H(X, Y ) ≤ H(X) + H(Y ),‬‬ ‫)‪(۳۱‬‬

‫ﮐﻪ ﻣﯽ ﺗﻮﺍﻥ ﺁﻥ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﺯﯾﺮ ﻧﯿﺰ ﻧﻮﺷﺖ‪:‬‬

‫‪H(X|Y ) ≤ H(X).‬‬ ‫)‪(۳۲‬‬

‫‪x1‬‬ ‫‪2‬‬ ‫‪0‬‬ ‫‪5‬‬ ‫‪2‬‬ ‫‪4‬‬ ‫‪2‬‬

‫‪x2‬‬ ‫‪0‬‬ ‫‪3‬‬ ‫‪6‬‬ ‫‪0‬‬ ‫‪1‬‬ ‫‪5‬‬

‫‪x3‬‬ ‫‪9‬‬ ‫‪4‬‬ ‫‪0‬‬ ‫‪0‬‬ ‫‪3‬‬ ‫‪0‬‬

‫‪x4‬‬ ‫‪3‬‬ ‫‪1‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪7‬‬ ‫‪1‬‬

‫‪x5‬‬ ‫‪0‬‬ ‫‪2‬‬ ‫‪0‬‬ ‫‪2‬‬ ‫‪1‬‬ ‫‪3‬‬

‫‪x6‬‬ ‫‪0‬‬ ‫‪7‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪5‬‬ ‫‪0‬‬

‫ﺍﻟﻒ‪ :‬ﺗﺎﺑﻊ ﺁﻧﺘﺮ ﻭﭘﯽ ﺷﺎﻧﻮﻥ ) ‪ H(X, Y‬ﺭﺍ ﺣﺴﺎﺏ ﮐﻨﯿﺪ‪.‬‬

‫)‪ P (x‬ﻭ ﺑﺮﺍﯼ ﺑﻌﻀﯽ ﺩﯾﮕﺮ ﺩﺍﺷﺘﻪ ﺑﺎﺷﯿﻢ ‪P (x | y) ≥ P (x).‬‬

‫‪H0 (X) ≥ λH1 (X) + (1 − λ)H2 (X).‬‬ ‫)‪(۳۳‬‬

‫‪H0 − λH1 − (1 − λ)H2‬‬

‫∑‬ ‫‪1‬‬ ‫∑‬ ‫‪1‬‬ ‫∑‬ ‫‪1‬‬

‫∑‬ ‫‪p1‬‬ ‫∑‬ ‫‪p2‬‬