2010年9月7日

Does BT truly have the ability to help online advertising?

網路廣告最常使用之技術是Behavioral Targeting (BT),且BT在網路廣告領域扮演越來越重要的角色。但學術界尚未證明BT是否真的對網路廣告有多大幫助。本篇論文之目標是證明BT對網路廣告有多少幫助,並將此問題分成三個子問題循序論證:(1)BT是否能幫助網路廣告?(2)利用evaluation metrics,BT可幫助網路網告多少?(3)何種BT策略較佳?BT之假設為若使用者具相似搜尋或瀏覽行為,則使用者點選相同廣告之機率較高。如此一來,針對第一個問題,作者先將使用者分成within-及between- ads user similarity兩群,之後用Cosine similarity計算彼此之相似度,發現點選相同廣告使用者之相似度為點選不同廣告使用者相似度90倍,故可證明BT真的對網路廣告有幫助。藉由計算將使用者分成K群前之Click-Through Rate (CTR) 及分成K群後之CTR,可證明BT給予網路廣告有多大幫助,實驗結果表示CTR有670%改善率。最後經由實驗結果顯示Search Query行為策略較Page View行為策略佳,短期使用者行為策略較長期使用者行為策略佳。

以下提供讀者參閱該論文,所自行製作的投影片:

2010年8月17日

Survey of Schema Mapping Approach

此篇論文為綱要對映領域的Survey性質的論文,依據資料來源等特性對於現有的綱要對映做分類。
  綱要對映是許多研究資訊整合所必須面臨的重要問題,舉凡電子商務、資料倉儲、語意查詢等均需要綱要對映來合併不同來源的資料。此論文就所參考的資料來源作綱要層級和實例層級的分類,綱要層級表示所參考的資料均使用綱要所包含的資訊(綱要名稱、綱要描述、綱要限制等),並不包括實例層級的資訊;而實例層級則只考慮真實世界中的例子和其屬性來當作綱要對映的依據,通常用以修正綱要層級所無法察覺的資訊或者輔助其準確率。當然,實例層級本身也可用於綱要對映。接著再以對映的元素大小作為元素層級和架構層級的分類,元素層級表示每次對映時都以單一元素和單一元素作對映;架構層級則必須考慮相同記錄中元素間相互連結的關係,使之與另一記錄的架構作對映。細分下去就分為語意層級和限制層級,語意層級使用元素的文字內容相似度當作對映的依據,而限制層級是以元素的文字限制(如:字串、非字串、數字等資料型態或數值範圍、數值平均等數據特性)當依據。
以上是單一對映器依照其特性的分類,對於不同目的的對映使用特別的對映器,有時會把多個對映器整合起來當一個多重對映器,根據整合的方式分為混和方式及複合方式。混和方式是把不同對映器的對映準則都加入做考慮,進而形成新的對映器;複合方式則是以不同對映器分別執行後的結果來作對映,複合方式又可細分為以人工或者自動的複合法。
 下圖是對映法的總體分類架構,謹記於心有助於各位瞭解綱要對映的分類。

以下為投影片連結
http://www.slideshare.net/guanqoo/20100810-4987210

2010年8月12日

Address Standardization with Latent Semantic Association

地址的表示方式通常並不具有規則性,因為它通常是由不同人在不同時期所寫的。所以地址標準化就是具有高重要性的工作。監督方式是需要大量的已標記訓練資料,而對每個目標領域建設一個大規模標註語料庫是一個費時且費工的任務,所以為了最大限度地減少人的為的影響與標記訓練資料集的大小,本篇論文提出了一個地址標準化法與潛在語義聯想(LaSA)之模型。
LaSA模型是建構來抓取未標記語料集中潛在語義的聯想字詞。首先,目標區域中的原始字詞空間會被投影到使用LaSA模型的概念空間,然後地址標準化模型會主動地從LaSA模型特徵和豐富的訓練資料中被學習出來,而方法能有效且正確地抓取文件中的資料。針對以大型英語和漢語語料庫為對象的實驗結果顯示,此方法提高了標準化工作的性能與可以僅使用較少的訓練資料就達到較好效能之功效。

2010年7月27日

Providing location based information/advertising for existing mobile phone users

本篇論文提出根據位置提供相關訊息/廣告至行動電話之系統,只要具有藍芽功能之行動電話,且不需安裝軟體,即可收到與位置相關的訊息/廣告。此系統可應用於超市廣告/優惠卷系統(Supermarket adverts/coupons)及導遊系統(Guide system)。近年使用藍芽的人數越來越多,根據諾基亞(Nokia)調查2006年使用人數增加了65%,可見愈來愈多人可接受使用藍芽傳輸接收訊息、檔案、甚至廣告。超市廣告/優惠券系統即在超市中設置若干台藍芽發送器發送超市商品訊息、廣告或優惠券到擁有藍芽功能的裝置或PDA的使用者,而且因系統不需安裝任何軟體,所以此系統可以服務多種具有藍芽功能的裝置,不因裝置種類而受限。但有個值得注意的問題是同一位使用者可能會出現在同一台藍芽發送器的附近不只一次,要避免讓相同使用者短時間內收到同樣訊息、廣告。本篇論文使用後端訊息系統(backend information system)處理此問題。首先藍芽發送器找出涵蓋範圍內所有裝置,不同藍芽發送器有各自的裝置紀錄,然後分別儲存在後端訊息系統中。當藍芽發送器發現新裝置時,會檢查後端訊息系統中的紀錄,若之前已經發現之裝置就不會再發送訊息。如果後端訊息系統有商家更新的訊息,則下次發現裝置時,就會發送新訊息至裝置中。根據Barwise等人研究81%人會看完SMS廣告訊息(SMS m-advertising)才會將之刪除,所以商家可藉此分析發掘更多可能潛在的客戶。導遊系統則是在旅遊景點設置藍芽發送器發送相關旅遊訊息,但與之前不同之處為根據不同旅遊景點發送不同相關訊息,即每個藍芽發送器發送不同旅遊訊息。另外,此系統也有保護使用者的隱私措施,可讓使用者拒絕接收相關訊息。
以下提供讀者參閱該論文,所自行製作的投影片:

2010年7月16日

Comments oriented blog summarization by sentence extraction

這篇paper是focus在comments-oriented blog post summarization,利用comment的information去計算word representativeness score,再基於每一個word的score去select sentence。Comments oriented blog summarization by sentence extraction
View more presentations from JhihMing.

2010年6月2日

Grouping Search-Engine Returned Citations for Person-Name Queries

此篇論文提出了一個解決搜尋引擎回傳的搜尋結果中同名同姓的問題。用搜尋引擎查詢人名時,搜尋引擎回傳的搜尋結果常包含多位同名同姓的人,不僅沒有分門別類,還將同一個人的資訊分散在搜尋結果中,讓查詢者非常不方便。此篇論文提出Multi-Faceted Approach,對Attribute、Links及Page Similarity分別都作Confidence Matrix,再使用Stanford certainty theory將三個Confidence Matrix合併。之後,利用Final Confidence Matrix作Grouping,即可以得到同一個人的搜尋結果會在同一群組中,而且仍保持搜尋結果的資訊及編排的順序。實驗結果顯示效果頗佳。

Two Birds with One Stone: A Graph-based Framework for Disambiguating and Tagging People Names in Web Search

此篇問題想解決對搜尋引擎作人名搜尋所回傳搜尋結果中同名同姓的問題。作者將屬性,包含地點、電子郵件、工作單位…等等的資訊,以圖形表示,再給予圖中的點、邊不同的權重值。然後使用分群演算法將圖做分群,即可得到每一個人正確的相關資訊。因為篇幅限制,對於實驗過程有些問題尚未了解清楚。總之,這個方法不但處理同名同姓的問題(Disambiguating),也能將正確的人名與她正確的資訊配對(Tagging People Names),是一石二鳥的好方法。

2010年3月19日

Learning transportation mode from raw gps data for geographic applications on the web

本論文摘自WWW 2008, 主要貢獻在於如何從原始的GPS資料推論出當時的交通工具 (e.g., Car, Bus, Bike, Walk).

方法可分為以下三個步驟:
1. change point-based segmentation method 負責將GPS的trip分割成不同的segmentation, 這裡僅區分成Walk Segment 以及 Non Walk Segment.
2. inference model: 本論文比較四種不同的機器學習方法 (Navie Bayes, Decision Tree, SVM, CRT), 針對每個segment辨識所使用的交通工具.
3. post-processing algorithm based on conditional probability: 有鑒於機器學習推論出來的交通工具有所誤差, 因此最後在用條件機率的方法針對機率較低的預測重新計算.

實驗部份:
GPS資料主要包含45個人約半年的行動資料, 此外評估的準則採用Precision及Recall
實驗結果顯示 decision tree 演算法可產生最好的效能.

以下附上修改原作者的投影片:

2010年3月9日

Retrieving Address Based Locations From The Web

當前主要的搜尋引擎處理基於關鍵字的查詢非常有效。使用者已經在使用這些功能的空間搜尋已知地名。不過,這檢索過程往往很多空間無關的文件。一個空間網路搜尋不僅了解含有使用者查詢的地點,但更重要的是了解在網頁上的位置與使用者的查詢如何能正確地匹配。對於location-based Web search這篇論文實施了自己的地理資訊網路搜尋引擎。其中我們採用的方法所注重抓取的去檢索與位置有高度相關的網頁。為此,我們使用基於geoparser的基礎上的位置分類,以引導Clawler