2007年6月28日

歷屆畢業論文 (Updated 8/15/2013)

PhD Thesis
98 范登凱 網路個人化廣告配置之研究
94 黃國瑜 交易型資料庫之跨交易關聯規則探勘之研究

Master Thesis (Graduated semester/ Name/ Thesis)
101-2 陳慶治
101-2 林伯翰
101-2 黃俞翔
101-2 鄭乃洪
101-2 陳貞伶
100-2 吳忠翰(在職專班) 行程邀約郵件的辨識與不規則時間擷取之研究
100-2 吳文斌 以聲符部件為主的漢字識字教學系統設計
100-2 趙士賢 平行化資訊理論共分群演算法
100-2 吳禹欣 改善三贏架構之行動廣告效果
100-2 陳柏志 The Design of Free Wireless Framework for Triple-win Mobile Advertising
99-2 謝承璋 Learning Transportation Modes with Two-Level Inference
99-2 劉睿哲 使用擴充資料進行共分群的協同式推薦系統
99-2 陳志銘 基於多元化部落格網頁之自動化擷取部落格主要文章
99-2 霍冠樺 手機廣告:使用者、廣告商及電信業者三贏架構
99-2 林書彥 形聲字發音規則探勘

98-2 林衍伶 非監督式網頁層次包覆程式之驗證
98-2 張志豪(在職專班) 機器學習應用於樣版網頁擷取之研究
98-2 潘立人(在職專班)資料搜尋系統視覺化與多維度分析之設計:以資訊工程研究論文檢索系統為例


97-2 李淑瑩 英文郵政地址與鄰近相關資訊擷取之研究
97-2 楊萍華 部落格意見檢索系統之設計-部落格內文之擷取與不相關部落格之過濾

97-1 楊傑程 應用樣式探勘與機器學習方法於中文未知詞擷取之研究
97-1 丁昭廷 以使用者為導向的Web資料整合系統之設計


96-2 林俊宏 線上拍賣結標價與期望獲利之預測
96-2 楊士峰 應用資料擷取於Web小工具開發之研究–多個資料源之資料整合

96-1 陳正揚 網頁意見特徵評價化之應用於旅館比較
96-1 施宗昆 使用隱藏式馬可夫模型之特定網頁資訊抓取蒐集

95-2 韓樹岡 以資料清潔為基礎的拍賣決策輔助系統
95-2 蔡坤璋 部落格理由摘要之社會科學應用
95-2 朱育德 基於字詞內容之適應性對話系統 


94-2 何承道 頻繁同構圖形探勘策略之研究
94-2 林千翔 基於特製隱藏式馬可夫模型之中文斷詞研究
94-2 童俊宏 無候選型樣產生之頻繁樹狀結構探勘
94-2 胡舒涵(在職專班) 會議公告網站資訊擷取之研究
94-2 劉仁宇(在職專班) 以網頁識別及清理改善資料擷取之研究


93-2 陳信伊 星狀座標之軸排列於群聚視覺化之應用
93-2 張立帆 由瀏覽歷程自動產生網頁抓取程式之研究
93-2 黃執強 同性質網頁資料整合之自動化研究
93-2 李季壕 動態網頁之樣版與資料分析研究

92-2 林國瑞 時序資料庫中緊密頻繁連續事件型樣之探勘
92-2 李泓儒 淨化網頁:網頁區塊化以及資料區域擷取
92-2 楊智宇 問題答覆系統中使用語句分類排序方式之設計與研究

91-2 丁智凱 非數值型資料視覺化與兼具主客觀的分群
91-2 郭釋謙 半結構化文件線上擷取規則分析之研究
91-2 何聰鑫 時序性資料庫中未知週期之非同步週期性樣板的探勘
91-2 林志龍 關聯性字組在文件摘要上成效的探討

90-2 楊士賢 遞增資料關聯式規則探勘之改進
90-2 張毓美 應用卡方獨立性檢定於關連分類問題
90-2 吳東軒 中文資訊擷取系統之設計與研究

89-2 呂紹誠 網際網路半結構性資料擷取系統之設計與實作
89-2 吳彥欽 非簡單瀏覽路徑之探勘與應用

2007年6月5日

A Study of Statistical Models for Query Translation :Finding a Good Unit of Translation

利用雙語字典來翻譯query,目前有兩個比較重要的課題:一是如何增強字典的覆蓋度,二是如何從字典中選出正確的字來進行翻譯。而本篇文章著重在後者。

作者在論文中結合了三種的Model,分別為Co-occurence Model、Noun Phrase Model和Dependency Translation Model來幫助翻譯。這三種Model都是使用統計的資料(如:corpus),並藉由定義特徵函數,求最大化來取得較有可能的翻譯方式,三者的差異之處在於是針對不同的translation unit來進行處理。

Noun Phrase Model針對的是名詞片語,其利用大部分名詞片語可以直譯的特性,配合由字典中來尋找翻譯的Template,以對名詞片語進行翻譯,希望最佳化Translation Template和word selection機率乘積所組成的特徵函數。
Dependency Translation Model針對的是關係triples,意指在兩個單字w1及w2之間,經常存在一種關係r,使這三者產生一組triple(w1, r, w2),其中r在本文中只限定為以下四種:(1)subject-verb (2)verb-object (3)adjective-noun (4)adverb-verb。希望最佳化w1及w2各別單字翻譯和目標語言triple被翻譯機率的乘積再乘上relation的值,當翻譯前後的r保持不變則relation的值為1,反之則為0。
Co-occurence Model則是針對上述兩者剩餘的部分,作者推論,一個正確的翻譯,其翻譯後的句子中單字彼此間的相關度會較高,即利用這個特性,我們對該句所有翻譯後的句子做排列組合,以特徵函數來做評分,找出組合後分數最高者進行翻譯,其好處是可以不用考慮跨語言間相似度的問題。

結合以上三種模式所設計的演算法步驟如下:

1.首先利用句子剖析找出查詢問句中的名詞片語和使用關係triples
2.接著使用NP Model來翻譯名詞片語
3.第三步使用Dependency Translation Model來翻譯關係triples
4.最後使用Co-occurence Model來翻譯剩餘其他的部分

在Co-occurence Model中,作者利用了Graphic Model,讓一個query translation的問題對應到一個undirected GM上,藉解GM的最佳化來算出翻譯的最佳解。所謂的GM即是特徵函數的一種,將圖論中的node比喻為欲被翻譯的字,而edge比喻為字之間的關係,透過多層遞迴來求一個句子中,每個單字對於其他個別單字的關係度,並且期望最大化這個關係度。但在求最佳化的過程中有些算式是極耗費計算的,因此作者也有適時做一些修正的假設,不過由最後的實驗結果來看,即使是修正後仍可得到不錯的翻譯效果。



SIGIR’06, August 6–11, 2006, Seattle, Washington, USA.

Digital Content Recommender on the Internet

這篇論文的出處是從IEEE INTELLIGENT SYSTEMS 2006,目的是做數位文章的推薦。此系統分成development及online use兩個環境。development 環境做了內容跟使用者的分析並建立數個元件以供online use environment使用。
文章內容分析部分,先用貝氏分類器做文章分類,同時將information gain高的字放入word dictionary,之後一些base的建立都會參考到word dictionary。接下來用SOM做文章分群,並建立出article-keywords index跟keyword-articles index database。
使用者分析部分,依照使用者對每個之前所分群好的文章類別之RFM值用SOM做分群,並依每個群建出user preference rules。online use environment先依使用者讀過的文章將他分至某一使用者群中,接下來依使用者所看的文章,從article-keywords index找出前項,再依前項從user reference rules找出後項,最後用後項從keyword-articles index 找出推薦文章。

論文連結:Digital content recommender on the Internet

2007年6月4日

Interactive Wrapper Generation with Minimal User Effort

這篇論文出自WWW 2006,目標是提出一個半自動化的wrapper generation方法。

不同於其他semi-automatic和unsupervised wrapper,這篇論文並沒有很困難的方法,主要是提供一個使用者介面利用minimal user effort來完成wrapper工作。內容可以區分為兩個部分:
  • Interactive User Interface:只需少量的training pages,讓使用者highlight頁面中的tuples,然後系統根據使用者highlight的部分做處理,將文件轉為DOM parse tree。
  • Wrapper Generation System:系統定義了自己的Extraciton Language predicates,來作為產生extraction patterns的工具。
  1. 首先透過training tuple產生dom_path和最低層的共同節點LCA(lowest common ancestor),LCA object記錄了兩項資訊:
    1. training page中tuple的lca nodes。
    2. 萃取出這些lca nodes的patterns。
  2. 利用LCA objects產生patterns, 然後萃取出tuple attributes。
  3. 利用patterns去找出tuple region,產生初始的wrapper。
  4. 利用predicates產生tuple validation rules,並產生新的wrapper。
  5. 利用category utility function對wrapper做ranking。
    C: cluster, A: attribute, v: value
    同一群的兩個物件我們希望有較多相同的屬性,因此P(A=v|C)期望越大越好。
    不同群的兩的物件我們希望有較少相同的屬性,因此P(C|A=v)期望越小越好。
    因此CU值越大越好。
  6. 由使用者做確認。
  7. 將產生的wrapper使用一些verification set測試。
論文中提到雖然他們的方法和其他方法比較,可能需要較多的人力介入,且training examples較多,但是相信可以減少所需要的time和effort。實驗部分和WIEN, STALKER, WL^2等wrapper比較,都可以發現所需的training tuples較少,並且做了14個網站的wrapper實驗,在total user effort的部分表現也都不錯。




Proceedings of the 15th international conference on World Wide Web

2007年6月1日

Conference Call For Paper

ICDE 2008 Homepage and Submission Website

Research and Industrial papers

Abstract deadline:
June 22, 2007 5pm PDT
Paper submission deadline:
June 27, 2007 5pm PDT
Notification:
October 12, 2007
Camera-ready deadline: November 22, 2007 -