2009年11月16日

Conditional Random Fields : Probabilistic Models for Segmenting and Labeling Sequence Data

主要介紹CRF的概念,參考一下兩篇相關文獻 :
[1] J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields: probabilistic models for segmenting and labeling sequence data. In International Conference on Machine Learning, 2001.
[2] Hanna M. Wallach. Conditional Random Fields: An Introduction. University of Pennsylvania CIS Technical Report MS-CIS-04-21.

過去針對sequential data進行segmenting或是labeling的動作,有HMM、MEMMs等技術,以Generative和Discriminative Model區分之。CRFs則是近年來提出的新穎做法,其模型為無向圖,在給定一個觀察序列下,求算整體狀態序列的條件機率。參數的估計方式原先提出iterative scaling algorithm找出Log-likelihood objective function中的最大值,而後的相關文獻中也針對參數預估提出不同的計算方式,以增快求算的效率。

2009年11月4日

Semantics In Digital Photos A Contenxtual Analysis

Interpreting the semantics of an image is a hard problem.
However, for storing and indexing large multimedia lections,it is essential to build systems that can automatically extract semantics from images. In this research we show how we can fuse content and context to extract semantics from digital photographs. Our experiments show that if we can properly model context associated with media, we can interpret semantics using only a part of high dimensional content data.

2009年10月12日

Matching Task Profiles and User Needs in Personalized Web Search

本篇文章(Matching Task Profiles and User Needs in Personalized Web Search)出自於CIKM'08,
本篇研究提出一套個人化網路搜尋架構, 其主要係透過以統計為基礎的語言模型方法,用它來偵測使用者在網路搜尋時的需求與意圖.

此個人化架構基於使用者個人過往的歷史搜尋紀錄, 並藉此資訊來媒合使用者當前的搜尋需求, 其主要方法如下:
首先, 個人化搜尋架構會將使用者目前的搜尋結果和歷史搜尋記錄進行相似度計算, 計算方法採用Kullback-Leibler (KL) divergence.
接著, 系統會利用 threshold 機制來決定是否要將搜尋查詢實施 query rewritting 或將搜尋結果進行 re-ranking 的動作.有鑒於, 相似度的計算所採用的是KL divergence方法, 因此主要係比較歷史紀錄(tasks)的機率分佈以及當前搜尋結果(facets)的機率分佈.
然而過往歷史搜尋記錄(task)所涉及的行為非常的多元化 (例如: 歷史搜尋,點選的搜尋結果, 閱覽網站行為....), 本論文則是透過混合的方式(mixture)為每一個資料集產生一個語言模型; 同樣的語言模型方式亦應用於當前的搜尋結果(facet)上.

本研究在實驗方面作了一系列詳盡的比較:
1. 採用固定的query expansion 數量 vs. 個人化的query expansion.
2. 不同使用者所計算出來的KL correlation 對個人化結果的改善比較.
3. 不同是使用者所採用的參數實驗.
4. 個人化架構整體的效率分佈.
...
以下提供讀者參閱該論文, 所自行製作的投影片:

2009年10月5日

Designing a Syntax-Based Retrieval System for Supporting Language Learning


這篇論文主要想處理的問題是能夠解學英文學習者在快速精確搜尋語句與文法。使用regular expression search engine 提供快速、可靠度高而且搜尋結果不錯的功能。但是,如果沒有好的index scheme 設計的話,搜尋執行的時間卻是它的嚴重致命傷。Cho and Rajagopalan (2002) 提出來的presuf index constructing algorithm 和 deciding minimum filter factor (minff) 等等,是一個不錯的方法解決搜尋時間過長的問題。他把index size 縮小,而且效能不錯。另外,本論文的作者還設計的一個user-friendly query generator ,對不暸解regular expression 的人來說是一大福音。最後,很可惜這個系統沒有辦法處理找不到index 的情況,效能和原來的沒有兩樣。目前還在持續往這方面研究。

2009年8月23日

Detecting Online Commercial Intention (OCI)

本篇文章 (Detecting Online Commercial Intention (OCI)) 出自於WWW'06, 主要的作者為微軟研究團隊.
如果可以瞭解或預測使用者的網路行為, 則可以進一步給予個人化內容, 例如: 呈現使用者喜愛的產品或新聞內容給使用者. 因此對資訊服務提供者 (Information Service Provider) 而言能夠精確的預測使用者行為, 係一項很重要的任務. 本論文主要探討使用者在網路上面的行為是否具有商業意圖, 稱為 Online Commercial Intention (OCI), 作者將網路行為主要分成使用者正在瀏覽的網頁 (web) 和使用者所搜尋的查詢 (query), 因此將線上商業意圖偵測議題分成網頁商業意圖偵測 (Web Page Online Commercial Intention Detection) 及查詢商業意圖偵測 (Query Online Commercial Intention Detection).
Web Page OCI Detector: 作者透過機器學習的方式產生網頁商業意圖偵測器, 此偵測器為二元分類器, 主要任務係將一般網頁分成商業 (commercial) 或是非商業 (non-commercial), 所採用的特徵 (feature) 除了使網頁中所有的文字之外, 也使用feature selection方法挑選了額外較具有鑑別力的特徵, 關於機器學習演算法則為SVM (Support Vector Machine).
Query OCI Detector: 一般查詢均會有相對應的網頁, 例如: 搜尋引擎回傳的網頁. 因此作者將先前訓練好的Web Page OCI Detector對這些網頁進行分類, 判斷所回傳的網頁是否屬於commercial. 由於搜尋引擎所回傳的網頁具有順序性, 為了將rank因素考量在內, 作者採用第二種分類器 (Query OCI Detector), 將查詢判斷成具有商業意圖或者非商業意圖.
實驗部份, 在Web Page OCI部分, 平均F-measure可達92%, 同時也比較了不同的feature size對於結果的影響. 關於Query OCI, 平均 F-measure可達85%, 並且實驗出有趣的發現, 查詢的頻率越高越有可能具有商業意圖, 相對的頻率越短的查詢越不具有商業意圖.
本論文對於欲探討使用者行為除了做個一個基本的介紹外, 亦使用了機器學習演算法來判斷網頁及查詢的意圖, 可讓讀者了解機器學習如何實際應用到網頁領域的基本知識.
以下附上, 閱讀過後所整理的投影片.

2009年8月12日

徵博士後研究及專任研究助理

【職務說明】
本校為執行「培育優質人力促進就業計畫-教育部補助大專校院研究人才延攬方案」,遴聘相關人員。
相關權利義務,以雙方訂定之契約規範之。
本方案延聘之研究人才不得兼任其他工作。
本方案以95-97學年度畢業之本國籍.碩博士生為優先延聘對象。
本方案不得聘任因本方案之實施而辦理休退學者。
聘任單位/計畫主持人:國立中央大學資工系/張嘉惠 網路智慧暨資料探勘研究室

【職務類別】
博士後研究員1名,碩士或大專專任研究助理1名

【工作範疇】
主要研究內容:Web資料擷取及整合,機器學習及資料探勘,文件探勘及摘要
協助研究計畫之進行、程式與報告撰寫

【徵求條件】
資工相關科系畢業,或對資料,文件,Web分析有經驗,且具有研究熱忱者。
  • 熟悉資料庫管理程式(mySQL&php)Web伺服器架設

  • 熟悉Google , Yahoo API and Widgets tools 的設計
  • 熟悉資料探勘及機器學習演算法的應用
【工作待遇】
依教育部補助大專校院研究人才延攬方案經費審查作業要點辦理
擬聘任期間:98/09/01-99/07/31

【聯絡人/連絡方式】
意者請將履歷表、自傳、畢業證書影本及成績單等資料,Email計畫主持人。
意者請儘早投遞履歷,隨到隨審;如有合適人選,即不再收件。
條件符合者邀請面談,應徵資料恕不退件及函覆。

收件截止日:98.08.31

2009年4月14日

2009.04.13 Integrating Web Query Results: Holistic Schema Matching

Integrating web query results: holistic schema matching
Full text PdfPdf (368 KB)
Source Conference on Information and Knowledge Management

這次報告的主題是schema matching,而這篇的主題不是提出一個新的方法而是在現有的方法作效能的改善別且希望可以多到多來源網站的schema matching。

Approach:

1.兩個網站中產生Query Result的資料格式呈現方法皆不同,某兩個屬性值雖然不同,但是可能是屬於同一類,卻因為可能沒有包含語意的Label,所以可能無法match,此時,可以利用第三方網站的資料格式去做一個連結。

譬如:
A:有一個A1欄位值是「Paperback」 C:有一個C1欄位值是「Format: Handcover」這兩個字串值如果比較的話,相似度理論上是很低的,但是他們確是屬於同一種欄位,因此此時若有第三方來當一個中間Link的話,B:有一個B1欄位值是「Handcover」,這樣A1跟C1這兩個資料欄位就可以對應到了。

2.資料格式的全部欄位中,可以觀察出一些Constraint,譬如說:作者欄位大都跟隨在書名後面,而特價永遠小於等於原價,另外到達時間晚於起飛時間,這些Contraints對schema matching的準確率是非常有幫助的。

所以他們主要是以欄位作為matching的一個基本單位
  1. the content of a field
  2. the kinds of fields
  3. the constraints of fields
接著他們把instace-based matching轉換成domain schema discovery的問題,接著他們把問題變成一個最佳化的問題,接下來就是他們的演算法。

最後的實驗結果,可以明顯看出他們的方法的確贏過其他方法(ClusMatch, ChainMatch, ProgMatch, InitMatch) ,在Source只有兩個的時後,平均的準確率還可以到達九成五左右。

不過數學式子的部分還要多看幾次之後,再補上我自己的解釋方法。

以下是我這次的簡報,建議演算法式子的部分參考原始論文:

2009年2月18日

Emotion Classification Using Massive Examples Extracted from the Web

本篇論文出自於COLING'2008, 其目的在解情緒分類問題 (emotion classification problem),主要方法係將大量的網路資源視為訓練資料進行分類器製作,並將情緒分類議題分解成二階段處理: sentiment classification and emotion classification, 實驗顯示透過兩階段分類的效果比起一階段分類方法效果顯著.

第一階段處理(sentiment classification):採用SVM分類器及特徵集(n-gram and sentiment polarity words),訓練資料則是透過事先定義好的10個情緒類別字及其衍生情緒字詞當作是seed terms,並蒐集網路上相關的句子(稱為emotion provoking event)成為訓練資料集.
第二階段處裡 (emotion classification):採用KNN的方法進行分類.
原文出處: Emotion Classification Using Massive Examples Extracted from the Web
自製投影片: