2009年10月12日

Matching Task Profiles and User Needs in Personalized Web Search

本篇文章(Matching Task Profiles and User Needs in Personalized Web Search)出自於CIKM'08,
本篇研究提出一套個人化網路搜尋架構, 其主要係透過以統計為基礎的語言模型方法,用它來偵測使用者在網路搜尋時的需求與意圖.

此個人化架構基於使用者個人過往的歷史搜尋紀錄, 並藉此資訊來媒合使用者當前的搜尋需求, 其主要方法如下:
首先, 個人化搜尋架構會將使用者目前的搜尋結果和歷史搜尋記錄進行相似度計算, 計算方法採用Kullback-Leibler (KL) divergence.
接著, 系統會利用 threshold 機制來決定是否要將搜尋查詢實施 query rewritting 或將搜尋結果進行 re-ranking 的動作.有鑒於, 相似度的計算所採用的是KL divergence方法, 因此主要係比較歷史紀錄(tasks)的機率分佈以及當前搜尋結果(facets)的機率分佈.
然而過往歷史搜尋記錄(task)所涉及的行為非常的多元化 (例如: 歷史搜尋,點選的搜尋結果, 閱覽網站行為....), 本論文則是透過混合的方式(mixture)為每一個資料集產生一個語言模型; 同樣的語言模型方式亦應用於當前的搜尋結果(facet)上.

本研究在實驗方面作了一系列詳盡的比較:
1. 採用固定的query expansion 數量 vs. 個人化的query expansion.
2. 不同使用者所計算出來的KL correlation 對個人化結果的改善比較.
3. 不同是使用者所採用的參數實驗.
4. 個人化架構整體的效率分佈.
...
以下提供讀者參閱該論文, 所自行製作的投影片:

2009年10月5日

Designing a Syntax-Based Retrieval System for Supporting Language Learning


這篇論文主要想處理的問題是能夠解學英文學習者在快速精確搜尋語句與文法。使用regular expression search engine 提供快速、可靠度高而且搜尋結果不錯的功能。但是,如果沒有好的index scheme 設計的話,搜尋執行的時間卻是它的嚴重致命傷。Cho and Rajagopalan (2002) 提出來的presuf index constructing algorithm 和 deciding minimum filter factor (minff) 等等,是一個不錯的方法解決搜尋時間過長的問題。他把index size 縮小,而且效能不錯。另外,本論文的作者還設計的一個user-friendly query generator ,對不暸解regular expression 的人來說是一大福音。最後,很可惜這個系統沒有辦法處理找不到index 的情況,效能和原來的沒有兩樣。目前還在持續往這方面研究。