2007年6月5日

A Study of Statistical Models for Query Translation :Finding a Good Unit of Translation

利用雙語字典來翻譯query,目前有兩個比較重要的課題:一是如何增強字典的覆蓋度,二是如何從字典中選出正確的字來進行翻譯。而本篇文章著重在後者。

作者在論文中結合了三種的Model,分別為Co-occurence Model、Noun Phrase Model和Dependency Translation Model來幫助翻譯。這三種Model都是使用統計的資料(如:corpus),並藉由定義特徵函數,求最大化來取得較有可能的翻譯方式,三者的差異之處在於是針對不同的translation unit來進行處理。

Noun Phrase Model針對的是名詞片語,其利用大部分名詞片語可以直譯的特性,配合由字典中來尋找翻譯的Template,以對名詞片語進行翻譯,希望最佳化Translation Template和word selection機率乘積所組成的特徵函數。
Dependency Translation Model針對的是關係triples,意指在兩個單字w1及w2之間,經常存在一種關係r,使這三者產生一組triple(w1, r, w2),其中r在本文中只限定為以下四種:(1)subject-verb (2)verb-object (3)adjective-noun (4)adverb-verb。希望最佳化w1及w2各別單字翻譯和目標語言triple被翻譯機率的乘積再乘上relation的值,當翻譯前後的r保持不變則relation的值為1,反之則為0。
Co-occurence Model則是針對上述兩者剩餘的部分,作者推論,一個正確的翻譯,其翻譯後的句子中單字彼此間的相關度會較高,即利用這個特性,我們對該句所有翻譯後的句子做排列組合,以特徵函數來做評分,找出組合後分數最高者進行翻譯,其好處是可以不用考慮跨語言間相似度的問題。

結合以上三種模式所設計的演算法步驟如下:

1.首先利用句子剖析找出查詢問句中的名詞片語和使用關係triples
2.接著使用NP Model來翻譯名詞片語
3.第三步使用Dependency Translation Model來翻譯關係triples
4.最後使用Co-occurence Model來翻譯剩餘其他的部分

在Co-occurence Model中,作者利用了Graphic Model,讓一個query translation的問題對應到一個undirected GM上,藉解GM的最佳化來算出翻譯的最佳解。所謂的GM即是特徵函數的一種,將圖論中的node比喻為欲被翻譯的字,而edge比喻為字之間的關係,透過多層遞迴來求一個句子中,每個單字對於其他個別單字的關係度,並且期望最大化這個關係度。但在求最佳化的過程中有些算式是極耗費計算的,因此作者也有適時做一些修正的假設,不過由最後的實驗結果來看,即使是修正後仍可得到不錯的翻譯效果。



SIGIR’06, August 6–11, 2006, Seattle, Washington, USA.