2008年10月27日

10/28 Regular Meeting: Monority Report in Fraud Detection Classification of Skewed Data

摘要:
本篇論文提出一個新的詐欺偵測方法,根據現存的詐欺偵測系統以及minority report,處理與skewed data有關的資料探勘問題。

本篇論文提出的方法使用Backpropagation (BP),Naive Bayesian (NB),及C4.5演算法,配合over-sampling的方式。獨特的方在於使用一個meta-classifier (stacking),選擇這些比較performance好的base classifiers,再將這些base classifiers的預測合併 (bagging),用以改善cost savings (stacking-bagging)。

實驗的結果證明stacking-bagging的performance比起傳統的algorithms要來的好。

接著,本篇論文比較新的詐欺偵測方法與C4.5使用undersampling、oversampling、SMOTE。結果顯示當給予一個固定的決策門檻及cost matrix,partitioning和多個演算法的方式會比以整個training data set方式有比較高的cost savings。

以下是論文連結
論文連結


2008年10月12日

10/14 Regular Meeting: Pattern Mining to Chinese Unknown Word Extraction

本次報告為我的論文: Pattern Mining to Chinese Unknown Word Extraction。

摘要如下:
中文的文件資訊處理,由於沒有如歐美語系中有區隔符號(ex:空白)斷開每個辭彙,會遇到兩個大問題: 歧義性 與 未知詞問題。

本篇的論文主要為解決中文的未知詞問題。未知詞又稱為OOV words(Out-Of-Vocabulary),顧名思義,就是字典無法辨識的辭彙。由字典輔助的初步斷詞,會將這些不存在於字典裡的辭彙,錯誤的斷開成多個部份,如人名-王小明會被斷成 王 小 明 三個字。未知詞的任務,就是針對錯誤切割的多個字元部份,重新結合成一個正確的辭彙。

本篇論文的架構,主要分成兩個階段:

1. 第一階段為未知詞偵測部份。文章裡並非所有的字元都是未知詞的候選字元,必須先經過判斷,哪些是屬於未知詞的可能字元。因此一開始我們會找尋可能的未知詞字元,並著重於單音節字元(96%的未知詞經初步斷詞切開後,會包含至少一個單音節字元)。我們使用Prowl這個continuity pattern mining工具,有效率的從語料庫中找出單音節字元屬於已知詞的特徵規則(pattern rule),透過特徵規則,對於落單的中文字,去判斷他是可單獨存在的已知詞,或是未知詞的一部份。

2. 第二階段為未知詞擷取部份,我們針對第一階段所偵測出的未知詞可能字元,運用上下文資訊、POS資訊與統計資訊等,學習並判斷是否該要結合(是否形成一個該結合的未知詞詞彙)。我們使用機器學習(Machine Learning)中的間接式序列學習方法(Sequential Learning),將原本的序列文件資料,轉換為可分類(未知詞與否)的資料格式,再搭配SVM分類演算法進行擷取的訓練與測試。我們設計了三種長度的模型,可用來擷取這三種長度的未知詞。

此外,在擷取的實驗中,本文亦針對資料不均衡問題以及數種模型中的選擇問題提出解決的方法。對資料不均衡問題,本文使用under-sampling產生模型用資料,再使用Ensemble Method的投票方式聚集多個模型的學習能力,以提升擷取的表現。由於我們設計三種長度的模型提供擷取,在甚麼樣的情況下該選擇哪一種模型作為最終的結合方式,我們亦提供了幾種判斷的方式。

報告後大家給我的意見,已經更改於投影片中,只不過有些投影片是用動畫方式呈現,SlideShare好像秀不出來,另外上傳至SlideShare後,有部分地方變得怪怪的,因此我會再寄投影片檔給大家,謝謝。

2008年10月5日

10/07 Regular Meeting: A fuzzy symbolic Inference System for Postal Address Component Extraction and labeling

論文連結:請點此

論文摘要:

此篇論文主要是提出一個系統可以將地址的各項元素標示上不同的標籤,例如:地區名稱和街道號碼等資訊。對於有規律架構的地址格式和非標準架構的地址格式,後者在研究上顯得較不容易,因此本論文主要在解決unstructured address的問題。

首先,利用符號表示法來表示地址,建立知識庫作為標籤的依據,系統主要從輸入地址的各項元素和知識庫之間找出相似度,再利用提出的方法論來確定地址各項元素的標籤為何,所以fuzzy symbolic inference system即是對於一些較為模糊意義的地址元素加以判斷、擷取並標上標籤。

論文介紹:

a fuzzy symbolic system是這篇論文提出的系統,主要在解決unstrctured address的問題。一般我們所建的地址格式通常較為精確,可標示在Google Map上,但文中提到,類似India所使用的地址描述方式,沒有較為切確的位置,所以無法在Google Map上標示出來(有試過,但無法標出地點),因此主要想要解決的問題為此。

其中定義address和Knowledge base兩種基本格式,利用Assertion Object、Hoard Object和Synthetic Object來做表示。postal address使用Assertion Object和Hoard Object;Knowledge Base則是使用Assertion Object、Hoard Object和Synthetic Object。每個Assertion Object內都有其event,event包含了feature variable和其feature value。

而系統提出兩個方法,將我們所輸入的input component和knowledge base中的component label求算出相似度,稱為symbolic similarity measure。將求算出來的相似度依大小排序好後,再利用我們另外計算的alpha值(臨界值)去找出比alpha高的相似度,將這些比alpha高的相似度看作alpha-cut set,如果set中只有一個component label,那即為我們要找的label,並將confidence設為100,若set中的值有兩個或以上,則confidence則在50左右,可套用confidence的公式去計算出來。

這篇論文所使用的knowledge base,內容資料數量並未提到,不過根據他們測試500筆地址出來的labelling結果,高達94%,即便是只侷限在一個國家的範圍裡,其資料量應該是蠻大的。

其實閱讀完這篇論文,對目前研究領域幫助沒有很大,但仍值得做為參考。

投影片:
2008/10/07 Regular meeting
View SlideShare presentation or Upload your own.

2008年10月2日

080930 Rugular Meeting:Relations, Cards, and Search Templates:User-Guided Web Data Integration and Layout

這次報告的論文出自於UIST 2007,是由微軟、adobe及華盛頓大學所合作的一篇論文。

對現在人們來說,WWW是一個很大的資訊來源,使用者可以透過網路作旅遊計畫、購物、學習新事物或者是看電視等等,但是資訊內容極多,使用者有時候要找到適當的資訊會變的越來越難,所以他們的研究是提出一個互動式介面來幫助使用者更方便更容易的去收集、管理、組織及分享他們的資料。

對於此研究,他們提出了三個技術,分別是:
1. an interaction technique:允許使用者去規劃網站之間的關係並且使用這些關係自動地從多個網站收集內容。
2. an interface:此介面是為了合併來自數個網站的內容並且以視覺化來呈現它們,此介面稱為card.
3.a novel search paradigm:利用 search template 來從網路收集內容。
以上三種技術是會建立在summaries framework[1]上面。

最後他們也請了學生來實際操作,大部分都覺得是一個不錯的系統,不過也同時針對relation、card及search template作了一些反映。

[1]M. Dontcheva, S.M. Drucker, G.Wade, D. Salesin, and M. F. Cohen. Summarizing personalWeb browsing sessions. In Proc. of UIST, pp. 115–124, 2006.

此為這次的報告投影片

20080930
View SlideShare presentation or Upload your own.