PhD Thesis
98 范登凱 網路個人化廣告配置之研究
94 黃國瑜 交易型資料庫之跨交易關聯規則探勘之研究
Master Thesis (Graduated semester/ Name/ Thesis)
101-2 陳慶治
101-2 林伯翰
101-2 黃俞翔
101-2 鄭乃洪
101-2 陳貞伶
100-2 吳忠翰(在職專班) 行程邀約郵件的辨識與不規則時間擷取之研究
100-2 吳文斌 以聲符部件為主的漢字識字教學系統設計
100-2 趙士賢 平行化資訊理論共分群演算法
100-2 吳禹欣 改善三贏架構之行動廣告效果
100-2 陳柏志 The Design of Free Wireless Framework for Triple-win Mobile Advertising
99-2 謝承璋 Learning Transportation Modes with Two-Level Inference
99-2 劉睿哲 使用擴充資料進行共分群的協同式推薦系統
99-2 陳志銘 基於多元化部落格網頁之自動化擷取部落格主要文章
99-2 霍冠樺 手機廣告:使用者、廣告商及電信業者三贏架構
99-2 林書彥 形聲字發音規則探勘
98-2 林衍伶 非監督式網頁層次包覆程式之驗證
98-2 張志豪(在職專班) 機器學習應用於樣版網頁擷取之研究
98-2 潘立人(在職專班)資料搜尋系統視覺化與多維度分析之設計:以資訊工程研究論文檢索系統為例
97-2 李淑瑩 英文郵政地址與鄰近相關資訊擷取之研究
97-2 楊萍華 部落格意見檢索系統之設計-部落格內文之擷取與不相關部落格之過濾
97-1 楊傑程 應用樣式探勘與機器學習方法於中文未知詞擷取之研究
97-1 丁昭廷 以使用者為導向的Web資料整合系統之設計
96-2 林俊宏 線上拍賣結標價與期望獲利之預測
96-2 楊士峰 應用資料擷取於Web小工具開發之研究–多個資料源之資料整合
96-1 陳正揚 網頁意見特徵評價化之應用於旅館比較
96-1 施宗昆 使用隱藏式馬可夫模型之特定網頁資訊抓取蒐集
95-2 韓樹岡 以資料清潔為基礎的拍賣決策輔助系統
95-2 蔡坤璋 部落格理由摘要之社會科學應用
95-2 朱育德 基於字詞內容之適應性對話系統
94-2 何承道 頻繁同構圖形探勘策略之研究
94-2 林千翔 基於特製隱藏式馬可夫模型之中文斷詞研究
94-2 童俊宏 無候選型樣產生之頻繁樹狀結構探勘
94-2 胡舒涵(在職專班) 會議公告網站資訊擷取之研究
94-2 劉仁宇(在職專班) 以網頁識別及清理改善資料擷取之研究
93-2 陳信伊 星狀座標之軸排列於群聚視覺化之應用
93-2 張立帆 由瀏覽歷程自動產生網頁抓取程式之研究
93-2 黃執強 同性質網頁資料整合之自動化研究
93-2 李季壕 動態網頁之樣版與資料分析研究
92-2 林國瑞 時序資料庫中緊密頻繁連續事件型樣之探勘
92-2 李泓儒 淨化網頁:網頁區塊化以及資料區域擷取
92-2 楊智宇 問題答覆系統中使用語句分類排序方式之設計與研究
91-2 丁智凱 非數值型資料視覺化與兼具主客觀的分群
91-2 郭釋謙 半結構化文件線上擷取規則分析之研究
91-2 何聰鑫 時序性資料庫中未知週期之非同步週期性樣板的探勘
91-2 林志龍 關聯性字組在文件摘要上成效的探討
90-2 楊士賢 遞增資料關聯式規則探勘之改進
90-2 張毓美 應用卡方獨立性檢定於關連分類問題
90-2 吳東軒 中文資訊擷取系統之設計與研究
89-2 呂紹誠 網際網路半結構性資料擷取系統之設計與實作
89-2 吳彥欽 非簡單瀏覽路徑之探勘與應用
2007年6月28日
2007年6月5日
A Study of Statistical Models for Query Translation :Finding a Good Unit of Translation
利用雙語字典來翻譯query,目前有兩個比較重要的課題:一是如何增強字典的覆蓋度,二是如何從字典中選出正確的字來進行翻譯。而本篇文章著重在後者。
作者在論文中結合了三種的Model,分別為Co-occurence Model、Noun Phrase Model和Dependency Translation Model來幫助翻譯。這三種Model都是使用統計的資料(如:corpus),並藉由定義特徵函數,求最大化來取得較有可能的翻譯方式,三者的差異之處在於是針對不同的translation unit來進行處理。
Noun Phrase Model針對的是名詞片語,其利用大部分名詞片語可以直譯的特性,配合由字典中來尋找翻譯的Template,以對名詞片語進行翻譯,希望最佳化Translation Template和word selection機率乘積所組成的特徵函數。
Dependency Translation Model針對的是關係triples,意指在兩個單字w1及w2之間,經常存在一種關係r,使這三者產生一組triple(w1, r, w2),其中r在本文中只限定為以下四種:(1)subject-verb (2)verb-object (3)adjective-noun (4)adverb-verb。希望最佳化w1及w2各別單字翻譯和目標語言triple被翻譯機率的乘積再乘上relation的值,當翻譯前後的r保持不變則relation的值為1,反之則為0。
Co-occurence Model則是針對上述兩者剩餘的部分,作者推論,一個正確的翻譯,其翻譯後的句子中單字彼此間的相關度會較高,即利用這個特性,我們對該句所有翻譯後的句子做排列組合,以特徵函數來做評分,找出組合後分數最高者進行翻譯,其好處是可以不用考慮跨語言間相似度的問題。
結合以上三種模式所設計的演算法步驟如下:
1.首先利用句子剖析找出查詢問句中的名詞片語和使用關係triples
2.接著使用NP Model來翻譯名詞片語
3.第三步使用Dependency Translation Model來翻譯關係triples
4.最後使用Co-occurence Model來翻譯剩餘其他的部分
在Co-occurence Model中,作者利用了Graphic Model,讓一個query translation的問題對應到一個undirected GM上,藉解GM的最佳化來算出翻譯的最佳解。所謂的GM即是特徵函數的一種,將圖論中的node比喻為欲被翻譯的字,而edge比喻為字之間的關係,透過多層遞迴來求一個句子中,每個單字對於其他個別單字的關係度,並且期望最大化這個關係度。但在求最佳化的過程中有些算式是極耗費計算的,因此作者也有適時做一些修正的假設,不過由最後的實驗結果來看,即使是修正後仍可得到不錯的翻譯效果。
SIGIR’06, August 6–11, 2006, Seattle, Washington, USA.
作者在論文中結合了三種的Model,分別為Co-occurence Model、Noun Phrase Model和Dependency Translation Model來幫助翻譯。這三種Model都是使用統計的資料(如:corpus),並藉由定義特徵函數,求最大化來取得較有可能的翻譯方式,三者的差異之處在於是針對不同的translation unit來進行處理。
Noun Phrase Model針對的是名詞片語,其利用大部分名詞片語可以直譯的特性,配合由字典中來尋找翻譯的Template,以對名詞片語進行翻譯,希望最佳化Translation Template和word selection機率乘積所組成的特徵函數。
Dependency Translation Model針對的是關係triples,意指在兩個單字w1及w2之間,經常存在一種關係r,使這三者產生一組triple(w1, r, w2),其中r在本文中只限定為以下四種:(1)subject-verb (2)verb-object (3)adjective-noun (4)adverb-verb。希望最佳化w1及w2各別單字翻譯和目標語言triple被翻譯機率的乘積再乘上relation的值,當翻譯前後的r保持不變則relation的值為1,反之則為0。
Co-occurence Model則是針對上述兩者剩餘的部分,作者推論,一個正確的翻譯,其翻譯後的句子中單字彼此間的相關度會較高,即利用這個特性,我們對該句所有翻譯後的句子做排列組合,以特徵函數來做評分,找出組合後分數最高者進行翻譯,其好處是可以不用考慮跨語言間相似度的問題。
結合以上三種模式所設計的演算法步驟如下:
1.首先利用句子剖析找出查詢問句中的名詞片語和使用關係triples
2.接著使用NP Model來翻譯名詞片語
3.第三步使用Dependency Translation Model來翻譯關係triples
4.最後使用Co-occurence Model來翻譯剩餘其他的部分
在Co-occurence Model中,作者利用了Graphic Model,讓一個query translation的問題對應到一個undirected GM上,藉解GM的最佳化來算出翻譯的最佳解。所謂的GM即是特徵函數的一種,將圖論中的node比喻為欲被翻譯的字,而edge比喻為字之間的關係,透過多層遞迴來求一個句子中,每個單字對於其他個別單字的關係度,並且期望最大化這個關係度。但在求最佳化的過程中有些算式是極耗費計算的,因此作者也有適時做一些修正的假設,不過由最後的實驗結果來看,即使是修正後仍可得到不錯的翻譯效果。
SIGIR’06, August 6–11, 2006, Seattle, Washington, USA.
Digital Content Recommender on the Internet
這篇論文的出處是從IEEE INTELLIGENT SYSTEMS 2006,目的是做數位文章的推薦。此系統分成development及online use兩個環境。development 環境做了內容跟使用者的分析並建立數個元件以供online use environment使用。
文章內容分析部分,先用貝氏分類器做文章分類,同時將information gain高的字放入word dictionary,之後一些base的建立都會參考到word dictionary。接下來用SOM做文章分群,並建立出article-keywords index跟keyword-articles index database。
使用者分析部分,依照使用者對每個之前所分群好的文章類別之RFM值用SOM做分群,並依每個群建出user preference rules。online use environment先依使用者讀過的文章將他分至某一使用者群中,接下來依使用者所看的文章,從article-keywords index找出前項,再依前項從user reference rules找出後項,最後用後項從keyword-articles index 找出推薦文章。
論文連結:Digital content recommender on the Internet
文章內容分析部分,先用貝氏分類器做文章分類,同時將information gain高的字放入word dictionary,之後一些base的建立都會參考到word dictionary。接下來用SOM做文章分群,並建立出article-keywords index跟keyword-articles index database。
使用者分析部分,依照使用者對每個之前所分群好的文章類別之RFM值用SOM做分群,並依每個群建出user preference rules。online use environment先依使用者讀過的文章將他分至某一使用者群中,接下來依使用者所看的文章,從article-keywords index找出前項,再依前項從user reference rules找出後項,最後用後項從keyword-articles index 找出推薦文章。
論文連結:Digital content recommender on the Internet
2007年6月4日
Interactive Wrapper Generation with Minimal User Effort
這篇論文出自WWW 2006,目標是提出一個半自動化的wrapper generation方法。
不同於其他semi-automatic和unsupervised wrapper,這篇論文並沒有很困難的方法,主要是提供一個使用者介面利用minimal user effort來完成wrapper工作。內容可以區分為兩個部分:
Proceedings of the 15th international conference on World Wide Web
不同於其他semi-automatic和unsupervised wrapper,這篇論文並沒有很困難的方法,主要是提供一個使用者介面利用minimal user effort來完成wrapper工作。內容可以區分為兩個部分:
- Interactive User Interface:只需少量的training pages,讓使用者highlight頁面中的tuples,然後系統根據使用者highlight的部分做處理,將文件轉為DOM parse tree。
- Wrapper Generation System:系統定義了自己的Extraciton Language predicates,來作為產生extraction patterns的工具。
- 首先透過training tuple產生dom_path和最低層的共同節點LCA(lowest common ancestor),LCA object記錄了兩項資訊:
1. training page中tuple的lca nodes。
2. 萃取出這些lca nodes的patterns。 - 利用LCA objects產生patterns, 然後萃取出tuple attributes。
- 利用patterns去找出tuple region,產生初始的wrapper。
- 利用predicates產生tuple validation rules,並產生新的wrapper。
- 利用category utility function對wrapper做ranking。
C: cluster, A: attribute, v: value
同一群的兩個物件我們希望有較多相同的屬性,因此P(A=v|C)期望越大越好。
不同群的兩的物件我們希望有較少相同的屬性,因此P(C|A=v)期望越小越好。
因此CU值越大越好。 - 由使用者做確認。
- 將產生的wrapper使用一些verification set測試。
Proceedings of the 15th international conference on World Wide Web
2007年6月1日
Conference Call For Paper
ICDE 2008 Homepage and Submission WebsiteResearch and Industrial papers | |
Abstract deadline: | June 22, 2007 5pm PDT |
Paper submission deadline: | June 27, 2007 5pm PDT |
Notification: | October 12, 2007 |
Camera-ready deadline: | November 22, 2007 - |
訂閱:
文章 (Atom)