Web Intelligence and Data Mining Laboratory: A Study of Statistical Models for Query Translation ：Finding a Good Unit of Translation

利用雙語字典來翻譯query，目前有兩個比較重要的課題：一是如何增強字典的覆蓋度，二是如何從字典中選出正確的字來進行翻譯。而本篇文章著重在後者。

作者在論文中結合了三種的Model，分別為Co-occurence Model、Noun Phrase Model和Dependency Translation Model來幫助翻譯。這三種Model都是使用統計的資料（如：corpus），並藉由定義特徵函數，求最大化來取得較有可能的翻譯方式，三者的差異之處在於是針對不同的translation unit來進行處理。

Noun Phrase Model針對的是名詞片語，其利用大部分名詞片語可以直譯的特性，配合由字典中來尋找翻譯的Template，以對名詞片語進行翻譯，希望最佳化Translation Template和word selection機率乘積所組成的特徵函數。
Dependency Translation Model針對的是關係triples，意指在兩個單字w1及w2之間，經常存在一種關係r，使這三者產生一組triple(w1, r, w2)，其中r在本文中只限定為以下四種：(1)subject-verb (2)verb-object (3)adjective-noun (4)adverb-verb。希望最佳化w1及w2各別單字翻譯和目標語言triple被翻譯機率的乘積再乘上relation的值，當翻譯前後的r保持不變則relation的值為1，反之則為0。
Co-occurence Model則是針對上述兩者剩餘的部分，作者推論，一個正確的翻譯，其翻譯後的句子中單字彼此間的相關度會較高，即利用這個特性，我們對該句所有翻譯後的句子做排列組合，以特徵函數來做評分，找出組合後分數最高者進行翻譯，其好處是可以不用考慮跨語言間相似度的問題。

結合以上三種模式所設計的演算法步驟如下：

1.首先利用句子剖析找出查詢問句中的名詞片語和使用關係triples
2.接著使用NP Model來翻譯名詞片語
3.第三步使用Dependency Translation Model來翻譯關係triples
4.最後使用Co-occurence Model來翻譯剩餘其他的部分

在Co-occurence Model中，作者利用了Graphic Model，讓一個query translation的問題對應到一個undirected GM上，藉解GM的最佳化來算出翻譯的最佳解。所謂的GM即是特徵函數的一種，將圖論中的node比喻為欲被翻譯的字，而edge比喻為字之間的關係，透過多層遞迴來求一個句子中，每個單字對於其他個別單字的關係度，並且期望最大化這個關係度。但在求最佳化的過程中有些算式是極耗費計算的，因此作者也有適時做一些修正的假設，不過由最後的實驗結果來看，即使是修正後仍可得到不錯的翻譯效果。

SIGIR’06, August 6–11, 2006, Seattle, Washington, USA.

Web Intelligence and Data Mining Laboratory

2007年6月5日

A Study of Statistical Models for Query Translation ：Finding a Good Unit of Translation

關於我們

研究相關鏈結

依標籤分類文章

追蹤者

回應

Archives

RSS Substribe

網站統計