Word embeddings via Tensor Factorization: 一詞多義的詞向量

今天小編要介紹一篇今年剛出爐的 paper: "Word embeddings via Tensor Factorization"。

Word embeddings 簡單來說就是將 word 的語意/文法的資訊 encode 成 N 維的 vector。例如,目前很紅的 word2vec 能夠對 word vector 作向量加減的操作,最有名的例子就是 vector("king") - vector("man") + vector("woman") 會得到 vector("queen"),這種特性稱為 "additive compositionality"。而目前不僅被廣泛應用很多應用上,也特別在 deep learning for NLP/CV 的領域中已經成為前處理中的必要工具。

這一篇的亮點在於它的 word embeddings 透過對 tensor (higher order word co-occurrence data) 做分解,讓學出來的 word embeddings 具有 "multiplicative compositionality" 的特性,並且 implicitly 的捕捉到一詞多義(polysemous) 的資訊。(附圖中說明可為一詞多義字詞的 vector 與其不同搭配詞的 vector 作 element-wise multiplication 來生成不同意義的 representation)

以下節錄自論文:

"In our tensor-based embeddings, we found that one can create a vector that represents a word w in the context of another word w′ by taking the elementwise product vw ∗vw′ . We call vw ∗ vw′ a “meaning vector” for the polysemous word w."

利用 "multiplicative compositionality" 為一詞多義的字詞產生新的 word embeddings:

論文連結:
https://arxiv.org/pdf/1704.02686.pdf

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

Howard Lo Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *