Fundamental: Kullback-Leibler Divergence Explanation and beyond

今天介紹的是Kullback-Leibler Divergence (KL-divergence), 這和之前介紹的Variational Inference都是在Machine Learning中重要且基礎的概念。KL-Divergence在需要比較兩個分配的相似性時經常會用到,也常被設計為ML/DL的Objective Function。但他背後的意義到底是什麼呢?今天小編要介紹的這篇文章給KL-divergence作了相當活潑具體的介紹:

假設今天有個太空任務需要觀察與紀錄外星蟲蟲有幾顆牙齒,但礙於技術問題,我們僅能以機率分配的形式(Uniform or Binomial., etc.)與參數回傳資訊給地球,我們該如何選擇一個分配與最適參數呢?是不是有個方法能評價我們的選擇?嗯,KL-divergence可能可以給我們一個參考答案!

首先,根據觀察我們發現蟲蟲的牙齒顆數分配如下圖:

 

而我們目前有兩個方案,第一個是Uniform Distribution,參數(a=0, b=10),而對應的機率則是1/11:

 

第二個方案則是Binomial Distribution,並以觀察值的平均值5.7作為估計來設定參數(n=10, p=0.57):

 

乍看之下,我們可能會以為Binomial相較於Uniform來說應該是更貼近我們的觀測值,但我們可以利用KL-divergence來幫我們評估一下:

DKL(Observed  Uniform)=0.338

DKL(Observed  Binomial)=0.477

結果發現,KL-divergence告訴我們,Uniform的資訊丟失反而比較少,因此我們應該以Uniform的形式與參數回傳資料。

透過上面的例子帶出了KL-divergence的用途,然而KL-divergence的原理是什麼呢?這篇文章也會說明從Entropy到KL-divergece之間的關係,以及一些模型參數最佳化的簡單小例子,例如我們可以發現在上例中Binomial Distribution使用觀察值的平均值作為參數估計就已經做到參數最佳化了:

其他更多詳細的介紹請參考:

Kullback-Leibler Divergence Explained(blog)

(PS: 作者的blog也還有很多其他關於機率論的文章)

最後,讀者是否好奇這邊所說的資訊到底是什麼呢,這裡就要在同場加映一個由Google Brain的Resident Chris Olah所寫的 Visual Information Theory ,這是小編目前看過最好的有關於資訊理論的介紹。看完它、這篇還有Variatoinal Inference ,相信讀者會對Machine Learning的常用基礎知識有深刻的了解唷。

 

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

leoyang Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *