2009/11/16

Conditional Random Fields : Probabilistic Models for Segmenting and Labeling Sequence Data

主要介紹CRF的概念,參考一下兩篇相關文獻 :
[1] J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields: probabilistic models for segmenting and labeling sequence data. In International Conference on Machine Learning, 2001.
[2] Hanna M. Wallach. Conditional Random Fields: An Introduction. University of Pennsylvania CIS Technical Report MS-CIS-04-21.

過去針對sequential data進行segmenting或是labeling的動作,有HMM、MEMMs等技術,以Generative和Discriminative Model區分之。CRFs則是近年來提出的新穎做法,其模型為無向圖,在給定一個觀察序列下,求算整體狀態序列的條件機率。參數的估計方式原先提出iterative scaling algorithm找出Log-likelihood objective function中的最大值,而後的相關文獻中也針對參數預估提出不同的計算方式,以增快求算的效率。

2009/11/4

Semantics In Digital Photos A Contenxtual Analysis

Interpreting the semantics of an image is a hard problem.
However, for storing and indexing large multimedia lections,it is essential to build systems that can automatically extract semantics from images. In this research we show how we can fuse content and context to extract semantics from digital photographs. Our experiments show that if we can properly model context associated with media, we can interpret semantics using only a part of high dimensional content data.

2009/10/12

Matching Task Profiles and User Needs in Personalized Web Search

本篇文章(Matching Task Profiles and User Needs in Personalized Web Search)出自於CIKM'08,
本篇研究提出一套個人化網路搜尋架構, 其主要係透過以統計為基礎的語言模型方法,用它來偵測使用者在網路搜尋時的需求與意圖.

此個人化架構基於使用者個人過往的歷史搜尋紀錄, 並藉此資訊來媒合使用者當前的搜尋需求, 其主要方法如下:
首先, 個人化搜尋架構會將使用者目前的搜尋結果和歷史搜尋記錄進行相似度計算, 計算方法採用Kullback-Leibler (KL) divergence.
接著, 系統會利用 threshold 機制來決定是否要將搜尋查詢實施 query rewritting 或將搜尋結果進行 re-ranking 的動作.有鑒於, 相似度的計算所採用的是KL divergence方法, 因此主要係比較歷史紀錄(tasks)的機率分佈以及當前搜尋結果(facets)的機率分佈.
然而過往歷史搜尋記錄(task)所涉及的行為非常的多元化 (例如: 歷史搜尋,點選的搜尋結果, 閱覽網站行為....), 本論文則是透過混合的方式(mixture)為每一個資料集產生一個語言模型; 同樣的語言模型方式亦應用於當前的搜尋結果(facet)上.

本研究在實驗方面作了一系列詳盡的比較:
1. 採用固定的query expansion 數量 vs. 個人化的query expansion.
2. 不同使用者所計算出來的KL correlation 對個人化結果的改善比較.
3. 不同是使用者所採用的參數實驗.
4. 個人化架構整體的效率分佈.
...
以下提供讀者參閱該論文, 所自行製作的投影片:

2009/10/5

Designing a Syntax-Based Retrieval System for Supporting Language Learning


這篇論文主要想處理的問題是能夠解學英文學習者在快速精確搜尋語句與文法。使用regular expression search engine 提供快速、可靠度高而且搜尋結果不錯的功能。但是,如果沒有好的index scheme 設計的話,搜尋執行的時間卻是它的嚴重致命傷。Cho and Rajagopalan (2002) 提出來的presuf index constructing algorithm 和 deciding minimum filter factor (minff) 等等,是一個不錯的方法解決搜尋時間過長的問題。他把index size 縮小,而且效能不錯。另外,本論文的作者還設計的一個user-friendly query generator ,對不暸解regular expression 的人來說是一大福音。最後,很可惜這個系統沒有辦法處理找不到index 的情況,效能和原來的沒有兩樣。目前還在持續往這方面研究。

2009/8/25

Decision Support And Profit Prediction For Online Auction