You are on page 1of 51

情報理論

nitmk
はじめに
 基本的にW教授の資料のまとめです

 自分自身情報理論が得意なわけではない
 ここに書いてないことは聞かないでほしい

 基本的に準備不足
 火曜日から準備を開始したため
確率論の復習
 確率変数Xがxとなる確率: PX (x)
 性質
・PX ( x)  0
 PX ( x)  1
・ 
xX

 同時確率
 確率変数X,Yが(x,y)となる確率:PXY ( x, y)
周辺化 P ( x)  P ( x, y )

X 
yY
XY

PY ( y )   PXY ( x, y )
xX
確率論の復習2
 条件付確率
PXY ( x, y ) PXY ( x, y )
PY | X ( y | x)  
PX ( x)  PXY ( x, y)
yY

 事象xが起こったという条件下で事象yが発生する確率

 あとは調べて
I先生の情報理論の資料から
 情報理論とは
 通信を効率的に
行うための数理的理論
 通信を正しく
(確率論がベース)

 簡単な例題
 天気データを効率的に送りたい
 1bit1円の伝送コスト
 1日あたり平均伝送コストを最小にしたい
 ディスクからデータを正しく読みだしたい
 冗長性を低く保って信頼性を上げたい
情報源
 確率的にシンボル(情報)を出力するもの
 情報源Xがシンボルxを出力する確率: PX (x)

 情報源の例
 サイコロの情報源
 シンボルx = {1,2,3,4,5,6}
1
 PX (1)  PX (2)  PX (3)  PX (4)  PX (5)  PX (6) 
6
エントロピー (定義)
 情報源Xのエントロピー
   PX ( x) log PX ( x)
H ( X ) 
xX
 logの底は省略されることが多い
 (そのときの底は2で単位はビット)

  log PX ( x) を自己情報量という
 エントロピー = 自己情報量の期待値

自己情報量は「びっくり度」!?
エントロピーの解釈
 びっくり度
 確率が低い(めずらしい)事象ほど
びっくり度(情報量)は大きい 自己情報量
-logPx(x)

 エントロピー
 情報源が出力する情報の
珍しさの期待値
 大きいほど予測が困難
 エントロピーが0
→結果が確定
確率Px(x)

チーム 勝率p -log p -p log p
巨人 0.8 0.321928 0.257542
阪神 0.1 3.321928 0.332193
広島 0.075 3.736966 0.280272
横浜 0.025 5.321928 0.133048 注意
横浜は現在4位
横浜が勝ったときのびっくり度は大きい
でも勝つ確率が低いためあまり起こらない

このときのエントロピーは
   PX ( x) log PX ( x)  1.003056
H ( X ) 
xX
エントロピーの性質 注意
横浜は現在4位
 1チームが圧倒的に強い
 さっきの例 H(x) = 1.003056
チーム 勝率p -log p -p log p
 1チームが圧倒的に弱い 巨人 0.33 1.5994 0.5278
阪神 0.33 1.5994 0.5278
 H(x) = 1.649906
広島 0.33 1.5994 0.5278
横浜 0.01 6.6438 0.0664
 実力が同じ
 H(x) = 2 チーム 勝率p -log p -p log p
巨人 0.25 2 0.5
実力が同等だとどのチームが勝つか
阪神 0.25 2 0.5
わからない
広島 0.25 2 0.5
→試合が盛り上がる
横浜 0.25 2 0.5
エントロピーの性質
 最大値
H ( X )  log L   
( L | X |)
1
 等号は PX ( x1 )  PX ( x2 )  ...  PX ( xL )  で成立
L

 非負性
H(X )  0
 略証
0  PX ( x)  1  log 2 p X ( x)  0
例題
 サイコロのエントロピー
H ( X )    PX ( x) log 2 PX ( x)
xX

 PX (1) log 2 PX (1)  PX (2) log 2 PX (2)  


  
           ...  PX (6) log 2 PX (6)
1 1
  log 2  * 6
6 6
 log 2 6
ベルヌーイ情報源
 X ={ 0, 1 } 0  p  1
PX (0)  1  p 微分すれば上に凸で
P=1/2のとき最大値1をとる
PX (1)  p ことが分かる

 ベルヌーイ情報源のエントロピー h( p )
H ( X )   p log 2 p  (1  p) log 2 (1  p)
≝ h( p ) 2値エントロピー関数

 例:コイントス 0 log 2 0  0とする p


0 1
同時エントロピー
 確率変数X,Yの同時確率分布 PXY ( x, y) が
与えられている

 同時エントロピー
H ( X , Y )  PXY ( x, y) log 2 PXY ( x, y)
x, y

 性質
 X,Yが独立のとき ( PXY ( x, y)  PX ( x) PY ( y) )

H ( X , Y )  H ( X )  H (Y )
証明 XYが独立のときH ( X , Y )  H ( X )  H (Y )
1
H ( X , Y )   PXY ( x, y ) log 2
x y PXY ( x, y )
独立なので分解
1
  PX ( x) PY ( y ) log 2
x y PX ( x) PY ( y )
logの分解
 1 1 
  PX ( x) PY ( y )log 2  log 2 
x y  PX ( x) PY ( y ) 
1 1
  PX ( x) PY ( y ) log 2   PX ( x) PY ( y ) log 2
x y PX ( x) x y PY ( y )
周辺化 周辺化
1 1
  PX ( x) log 2   PX ( x) log 2
x PX ( x) x PX ( x)
 H ( X )  H (Y )
条件付エントロピー
 YのXに関する条件付エントロピー
 Xが観測されたときのYのエントロピー
H (Y | X )  PY | X ( y | x) log 2 PY | X ( y | x)
y

 性質 (チェイン則)
H ( X , Y )  H ( X )  H (Y | X )
X,Yが独立かどうかによらない

PXY ( x, y )
PY | X ( y | x) 
PX ( x)
条件付きエントロピーの例1
 天気予報(右の表) Y(天気予報) PX(x)
が与えられたとき 晴 雤

X(実際の 晴 0.45 0.12 0.57


観測)
雤 0.15 0.28 0.43

PY(y) 0.6 0.4


 当たる確率

PXY (晴, 晴)  PXY (雨, 雨)  0.73


 天気のエントロピー
1 1
H ( X )  0.57 log 2  0.43 log 2  0.986
0.57 0.43
条件付きエントロピーの例2
 天気予報Yが晴れのとき
 本当に晴れる確率は0.45/0.60=0.75
 外れて雤が降る確率は0.15/0.60=0.25
1 1
H ( X | 晴れ)  PY | X (晴 | 晴) log 2  PY | X (雨 | 晴) log 2
PY | X (晴 | 晴) PY | X (雨 | 晴)
1 1
 0.75 log 2  0.25 log 2
0.75 0.25
 0.811
Y(天気予報) PX(x)
晴 雤
「晴れ」という予報を知ることで
エントロピーが小さくなった X(実際の 晴 0.45 0.12 0.57
→予測が簡単なった 観測)
雤 0.15 0.28 0.43
PY(y) 0.6 0.4
チェイン則 (2変数)
 二つの確率変数X,Yについて
H ( X , Y )  H ( X )  H (Y | X )
が成り立つ
 X,Yがどのような同時分布をもっていても成立する
(X,Yが独立かどうかによらない)
 X,Yが独立のときは
H (Y | X )  H (Y )
となり
H ( X , Y )  H ( X )H (Y )
証明 (2変数チェイン則)
1
H ( X , Y )   PXY ( x, y ) log 2
x, y PXY ( x, y ) ベイズの定理
1
  PXY ( x, y ) log 2  
 
x, y PX ( x) PY | X ( y | x) Logの分解
1 1
  PXY ( x, y ) log 2   PXY ( x, y ) log 2
x, y PX ( x) x , y PY | X ( y | x)
Σの分解
1 条件付き
  log 2  PXY ( x, y )  H (Y | X ) エントロピーの定義
x PX ( x) y =P (x)X

1
  PX ( x) log 2  H (Y | X )
x PX ( x)
 H ( X )  H (Y | X )
チェイン則 (n変数)
 n個の確率変数においてもチェイン則は成り立つ
H ( X1 , X 2 .... X n )  H ( X1 )  H ( X 2 | X1 )   H ( X n | X n1 , , , X1 )

 略証
 条件確率定義を再帰的に繰り返しチェイン分解式を得る
 得られた分解式で上の式を導く
KLダイバージェンス
 二つの確率分布p,qの差の尺度
 pとqの間の距離を表す?
 相対エントロピーとも

 p(x),q(x)を確率分布とすると
KLダイバージェンス D(p||q)は
p ( x)
D( p || q)   p( x) log 2
x q ( x)
と定義される
KLダイバージェンスの性質
 対称性をもたない
D( p || q)  D(q || p)
 距離とはいえない(擬距離ということも)

 通常pは観測値から得られた正確な確率分布
qは理論値、pの予測値とする
 真の確率分布がpである符号に対して
間違った最適化をされた確率分布qの符号で
メッセージをやり取りするときに
余分にかかるメッセージ長
ギブスの不等式
 任意の確率分布p,qについて

D( p || q)  0
 等号成立は p = q のとき
 情報理論においては超重要な式だが
院試にはほとんど出ない?
 証明の準備:ジェンセンの不等式
 下に凸な関数f(x)について
E[ f ( x)]  f ( E[ x])
が成り立つ
証明 (ギブスの不等式)
p( x)
D ( p || q )  
x X
p ( x ) log 2
q( x)
 p( x) 
 E   log 2 
 q ( x ) 
 q( x) 
  log 2  
 p ( x ) 
 q( x) 
  log 2   p ( x ) 
 xX p( x) 
 
  log 2   q ( x ) 
 xX 
  log 2 1  0
ギブスの不等式の応用1
 条件付けるとエントロピーは減尐する
H(X )  H(X | Y)

 略証
D( PXY ( x, y ) || PX ( x) PY ( y ))
PXY ( x, y )
  PXY ( x, y ) log 2
x, y PX ( x) PY ( y )

 H ( X | Y )  H ( X )
0
ギブスの不等式の応用2
 エントロピーの上界
H ( X )  log 2 |  |

 略証(U(x) = 1/|X|)
D( PX ( x) || U ( x))
PX ( x)
  PX ( x) log 2
x U ( x)

  H ( X )  log 2 | X |
0
相互情報量
 二つの確率変数X,Yについて相互情報量を
I ( X ; Y )  D( PXY ( x, y) || PX ( x) PY ( y))
と定義する

 二つの確率変数の相互依存の尺度(相関)
 X,Yが独立のときI(X;Y) = 0
相互情報量の性質
 上界と下界

0  I ( X ; Y )  minH ( X ), H (Y )
 下界
 ギブスの不等式から

 上界
 以下の等式から
I ( X ; Y )  H (Y )  H (Y | X )
I ( X ;Y )  H ( X )  H ( X | Y )
相互情報量の等価な表現

I ( X ; Y )  D( PXY ( x, y ) || PX ( x) PY ( y ))
PXY ( x, y ) 直観的解釈:
  PXY ( x, y ) log 2 Yを知ったことで削減される
x, y PX ( x) PY ( y ) Xの不確かさの量

 H (Y )  H (Y | X )
先の天気予報の
 H (X )  H (X |Y) 例では
 H ( X )  H (Y )  H ( X , Y )
0 H(X)=0.986
H(X|晴)=0.811
「晴れ」の予報のもつ情報量は
0.986-0.811=0.175
情報量とベン図
移動体追跡・トラッキング

オプティカルフロー
はじめに
 背景
 Webカメラが安い
 最近のパソコンはカメラが標準で付いてることも多い

 カメラを用いたUI,アプリケーション
 FingerMouse
 個人識別・認証
ジェスチャーやモーションの
追跡(トラッキング)が必要
オプティカルフロー
 連続するフレーム間のモーションを
フレーム内容の事前知識無しに求めたい
 物体の動きをベクトルで表したもの

時刻t 時刻t+dt
オプティカルフロー
概要
 前提条件
 追跡している点の明るさは変わらない
 追跡点はフレーム間で大きく移動しない
 隣接点は似たような動きをする
 画像上の点(x,y)の時刻tでの明るさをI(x,y,t)
 微小時間dtの間にdx,dyだけ移動したとすると
I ( x, y, t )  I ( x  dx, y  dy, t  dt )
テイラー展開
I I I
 I ( x, y, t )  dx  dy  dt  
x y t
オプティカルフローの拘束式
 二次以上の項εを無視すると
I dx I dy I
  0
x dt y dt t
x
 オプティカルフローの拘束式
I(x,y,t)
I I I
 I x ,    I y ,    It
x y t  dx dy 
 , 
dx dy
 u ,    v とする  dt dt 
dt dt

y
オプティカルフローの拘束条件
 オプティカルフローの拘束式
I xu  I y v  I t  0
v

 この拘束式だけでは I xu  I y v  I t  0
(u,v)を直線に拘束することは
できるが、値を求めることは
できない It
I 2x  I 2 y

u
拘束条件の追加
 案1)
オプティカルフローを求めたい点の近傍は
同じようなオプティカルフローをもつという条件

 案2)
オプティカルフローは滑らかに変化するという条件
追跡しやすい点
 例えば
 [A] 濃度が一様な領域
 拘束式が0本→求めれない

 [B] 一方向のエッジ
 移動してもわからない
 拘束式は実質1本
(アパーチャ問題)

 [C] 複数方向のエッジ(コーナー)
 拘束式が複数→求めれる
オプティカルフローの種類
 密なオプティカルフロー
 前のフレームから現在のフレームの間で移動した距離を
画像内のすべてのピクセルで求める
 トラッキングしやすい点(C)の動きから
あいまいな点の動きをトラッキング
 計算コスト大
 疎なオプティカルフロー
 あらかじめトラッキングする点を指定
 通常はコーナー
 計算コスト小
オプティカルフロー計算の概要
 5x5の窓を考える(周辺の24点)
 I x ( p1 )  I y ( p1 )    I t ( p1 ) 
  I ( p ) 
 I ( p )   I ( p )  u   t 2 
 
x 2 y 2
      v       


  
 
 x 25
I ( p )   I y ( p 25 
)   t 25 
I ( p )
A d b

 最小二乗法 min || Ad  b || 2

( AAT )d  AT b
u 
    ( AAT ) 1 AT b
v 
実際は…
 一様でない大きなモーションが多く見られる
 オプティカルフローを上手く検出できない
 大きなモーションを捕捉したい
 大きな窓を使う→一様なモーションという仮定が崩
れる

 画像ピラミッドを用いて
上記の問題を軽減する
 低解像度画像に対する荒い探索や
構成を行い徐々に高精度化する
実行結果
と、いうわけで…
練習問題
 確率変数XとYの同時分布が表で与えられている
PXY(x,y) x=0 x=1
y=0 0.6 0.1
y=1 0.1 0.2

 (a) 周辺確率PX(x)とPY(y)を求めよ
 (b) エントロピーH(X,Y),H(Y),H(X)を求めよ
 logはそのままでいい
 (c) 確率変数XとYが独立でないことを示せ
 (d) 条件付き確率PY|X(y|x)を求めよ
 (e) 条件付エントロピーH(Y|X)を求めよ
解答
 (a) 周辺確率PX(x),PY(y)を求めよ

PX (0)  PXY (0, 0) PX Y(0 ,1)  0.7


PX (1)  1  0.7  0.3
PY(0)  PXY (0, 0) PX Y( 1,0)  0.7
PY(1)  1  0.7  0.3

PXY(x,y) x=0 x=1


y=0 0.6 0.1
y=1 0.1 0.2
解答
 (b) エントロピーH(X,Y),H(Y),H(X)を求めよ
H ( X , Y )  PXY ( x, y ) log 2 PXY ( x, y )
x, y

 {0.6 log 2 0.6  0.1log 2 0.1  0.1log 2 0.1  0.2 log 2 0.2}
3 1
 log 2 5  log 2 3 
5 5

H ( X ) H (Y )  {0.3 log 2 0.3  0.7 log 2 0.7}


3 7
 1  log 2 5  log 2 3  log 2 7
10 5
PXY(x,y) x=0 x=1
y=0 0.6 0.1
y=1 0.1 0.2
解答
 (c) 確率変数XとYが独立でないことを示せ
 反例を挙げる

PX (0) PY (0)  0.49


PXY (0,0)  0.6
 PX (0) PY (0)  PXY (0,0)

 従ってXとYは独立ではない

PXY(x,y) x=0 x=1


y=0 0.6 0.1
y=1 0.1 0.2
解答
 (d) 条件付き確率PY|X(y|x)を求めよ
 条件付き確率の定義(↓)から
PXY ( x, y )
PY | X ( y | x) 
PX ( x)

 よって PX|Y(y|x) x=0 x=1


y=0 6/7 1/3
y=1 1/7 2/3
解答
 (e) 条件付エントロピーH(Y|X)を求めよ
 チェイン則を用いる

H (Y | X )  H ( X , Y )  H ( X )
7 3 4
 log 2 7  log 2 3 
10 10 5

PXY(x,y) x=0 x=1


y=0 0.6 0.1
y=1 0.1 0.2
次回予告
 符号と符号化
 通信路符号化

 特徴点抽出(コーナー,SURF)?