Interpreting the semantics of an image is a hard problem.
However, for storing and indexing large multimedia lections,it is essential to build systems that can automatically extract semantics from images. In this research we show how we can fuse content and context to extract semantics from digital photographs. Our experiments show that if we can properly model context associated with media, we can interpret semantics using only a part of high dimensional content data.
2009/11/4
2009/10/12
Matching Task Profiles and User Needs in Personalized Web Search
本篇文章(Matching Task Profiles and User Needs in Personalized Web Search)出自於CIKM'08,
本篇研究提出一套個人化網路搜尋架構, 其主要係透過以統計為基礎的語言模型方法,用它來偵測使用者在網路搜尋時的需求與意圖.
此個人化架構基於使用者個人過往的歷史搜尋紀錄, 並藉此資訊來媒合使用者當前的搜尋需求, 其主要方法如下:
首先, 個人化搜尋架構會將使用者目前的搜尋結果和歷史搜尋記錄進行相似度計算, 計算方法採用Kullback-Leibler (KL) divergence.
接著, 系統會利用 threshold 機制來決定是否要將搜尋查詢實施 query rewritting 或將搜尋結果進行 re-ranking 的動作.有鑒於, 相似度的計算所採用的是KL divergence方法, 因此主要係比較歷史紀錄(tasks)的機率分佈以及當前搜尋結果(facets)的機率分佈.
然而過往歷史搜尋記錄(task)所涉及的行為非常的多元化 (例如: 歷史搜尋,點選的搜尋結果, 閱覽網站行為....), 本論文則是透過混合的方式(mixture)為每一個資料集產生一個語言模型; 同樣的語言模型方式亦應用於當前的搜尋結果(facet)上.
本研究在實驗方面作了一系列詳盡的比較:
1. 採用固定的query expansion 數量 vs. 個人化的query expansion.
2. 不同使用者所計算出來的KL correlation 對個人化結果的改善比較.
3. 不同是使用者所採用的參數實驗.
4. 個人化架構整體的效率分佈.
...
以下提供讀者參閱該論文, 所自行製作的投影片:
本篇研究提出一套個人化網路搜尋架構, 其主要係透過以統計為基礎的語言模型方法,用它來偵測使用者在網路搜尋時的需求與意圖.
此個人化架構基於使用者個人過往的歷史搜尋紀錄, 並藉此資訊來媒合使用者當前的搜尋需求, 其主要方法如下:
首先, 個人化搜尋架構會將使用者目前的搜尋結果和歷史搜尋記錄進行相似度計算, 計算方法採用Kullback-Leibler (KL) divergence.
接著, 系統會利用 threshold 機制來決定是否要將搜尋查詢實施 query rewritting 或將搜尋結果進行 re-ranking 的動作.有鑒於, 相似度的計算所採用的是KL divergence方法, 因此主要係比較歷史紀錄(tasks)的機率分佈以及當前搜尋結果(facets)的機率分佈.
然而過往歷史搜尋記錄(task)所涉及的行為非常的多元化 (例如: 歷史搜尋,點選的搜尋結果, 閱覽網站行為....), 本論文則是透過混合的方式(mixture)為每一個資料集產生一個語言模型; 同樣的語言模型方式亦應用於當前的搜尋結果(facet)上.
本研究在實驗方面作了一系列詳盡的比較:
1. 採用固定的query expansion 數量 vs. 個人化的query expansion.
2. 不同使用者所計算出來的KL correlation 對個人化結果的改善比較.
3. 不同是使用者所採用的參數實驗.
4. 個人化架構整體的效率分佈.
...
以下提供讀者參閱該論文, 所自行製作的投影片:
2009/10/5
Designing a Syntax-Based Retrieval System for Supporting Language Learning
Designing A Syntax Based Retrieval System03
View more presentations from guestbbe441a.
這篇論文主要想處理的問題是能夠解學英文學習者在快速精確搜尋語句與文法。使用regular expression search engine 提供快速、可靠度高而且搜尋結果不錯的功能。但是,如果沒有好的index scheme 設計的話,搜尋執行的時間卻是它的嚴重致命傷。Cho and Rajagopalan (2002) 提出來的presuf index constructing algorithm 和 deciding minimum filter factor (minff) 等等,是一個不錯的方法解決搜尋時間過長的問題。他把index size 縮小,而且效能不錯。另外,本論文的作者還設計的一個user-friendly query generator ,對不暸解regular expression 的人來說是一大福音。最後,很可惜這個系統沒有辦法處理找不到index 的情況,效能和原來的沒有兩樣。目前還在持續往這方面研究。
2009/8/25
2009/8/23
Detecting Online Commercial Intention (OCI)
本篇文章 (Detecting Online Commercial Intention (OCI)) 出自於WWW'06, 主要的作者為微軟研究團隊.
如果可以瞭解或預測使用者的網路行為, 則可以進一步給予個人化內容, 例如: 呈現使用者喜愛的產品或新聞內容給使用者. 因此對資訊服務提供者 (Information Service Provider) 而言能夠精確的預測使用者行為, 係一項很重要的任務. 本論文主要探討使用者在網路上面的行為是否具有商業意圖, 稱為 Online Commercial Intention (OCI), 作者將網路行為主要分成使用者正在瀏覽的網頁 (web) 和使用者所搜尋的查詢 (query), 因此將線上商業意圖偵測議題分成網頁商業意圖偵測 (Web Page Online Commercial Intention Detection) 及查詢商業意圖偵測 (Query Online Commercial Intention Detection).
Web Page OCI Detector: 作者透過機器學習的方式產生網頁商業意圖偵測器, 此偵測器為二元分類器, 主要任務係將一般網頁分成商業 (commercial) 或是非商業 (non-commercial), 所採用的特徵 (feature) 除了使網頁中所有的文字之外, 也使用feature selection方法挑選了額外較具有鑑別力的特徵, 關於機器學習演算法則為SVM (Support Vector Machine).
Query OCI Detector: 一般查詢均會有相對應的網頁, 例如: 搜尋引擎回傳的網頁. 因此作者將先前訓練好的Web Page OCI Detector對這些網頁進行分類, 判斷所回傳的網頁是否屬於commercial. 由於搜尋引擎所回傳的網頁具有順序性, 為了將rank因素考量在內, 作者採用第二種分類器 (Query OCI Detector), 將查詢判斷成具有商業意圖或者非商業意圖.
實驗部份, 在Web Page OCI部分, 平均F-measure可達92%, 同時也比較了不同的feature size對於結果的影響. 關於Query OCI, 平均 F-measure可達85%, 並且實驗出有趣的發現, 查詢的頻率越高越有可能具有商業意圖, 相對的頻率越短的查詢越不具有商業意圖.
本論文對於欲探討使用者行為除了做個一個基本的介紹外, 亦使用了機器學習演算法來判斷網頁及查詢的意圖, 可讓讀者了解機器學習如何實際應用到網頁領域的基本知識.
以下附上, 閱讀過後所整理的投影片.
如果可以瞭解或預測使用者的網路行為, 則可以進一步給予個人化內容, 例如: 呈現使用者喜愛的產品或新聞內容給使用者. 因此對資訊服務提供者 (Information Service Provider) 而言能夠精確的預測使用者行為, 係一項很重要的任務. 本論文主要探討使用者在網路上面的行為是否具有商業意圖, 稱為 Online Commercial Intention (OCI), 作者將網路行為主要分成使用者正在瀏覽的網頁 (web) 和使用者所搜尋的查詢 (query), 因此將線上商業意圖偵測議題分成網頁商業意圖偵測 (Web Page Online Commercial Intention Detection) 及查詢商業意圖偵測 (Query Online Commercial Intention Detection).
Web Page OCI Detector: 作者透過機器學習的方式產生網頁商業意圖偵測器, 此偵測器為二元分類器, 主要任務係將一般網頁分成商業 (commercial) 或是非商業 (non-commercial), 所採用的特徵 (feature) 除了使網頁中所有的文字之外, 也使用feature selection方法挑選了額外較具有鑑別力的特徵, 關於機器學習演算法則為SVM (Support Vector Machine).
Query OCI Detector: 一般查詢均會有相對應的網頁, 例如: 搜尋引擎回傳的網頁. 因此作者將先前訓練好的Web Page OCI Detector對這些網頁進行分類, 判斷所回傳的網頁是否屬於commercial. 由於搜尋引擎所回傳的網頁具有順序性, 為了將rank因素考量在內, 作者採用第二種分類器 (Query OCI Detector), 將查詢判斷成具有商業意圖或者非商業意圖.
實驗部份, 在Web Page OCI部分, 平均F-measure可達92%, 同時也比較了不同的feature size對於結果的影響. 關於Query OCI, 平均 F-measure可達85%, 並且實驗出有趣的發現, 查詢的頻率越高越有可能具有商業意圖, 相對的頻率越短的查詢越不具有商業意圖.
本論文對於欲探討使用者行為除了做個一個基本的介紹外, 亦使用了機器學習演算法來判斷網頁及查詢的意圖, 可讓讀者了解機器學習如何實際應用到網頁領域的基本知識.
以下附上, 閱讀過後所整理的投影片.
Detecting Online Commercial Intention (OCI)
View more presentations from ceya.
訂閱:
文章 (Atom)
