2007年5月8日

實驗室簡介

Web智慧資料探勘實驗室

本實驗室為中央大學資訊工程系張嘉惠教授所領導的研究團隊。實驗室位於工五館A棟307(分機35327)及研究中心二館206(分機57868)。實驗室成員目前有博士生五位,碩士生十位,碩士專班七位。

實驗室的主要研究領域為全球資訊網及資料探勘兩大方向:
  • Web由1.0發展到2.0,一個很大的差別在於網站從單純的提供使用者資訊的下載與閱覽,轉而提供使用者更多的上傳及分享的功能。現今的Web,每個人不僅是Web上的資訊消費者,同時也有能力藉由更方便的工具去創造資訊,我們可以說當今Web所包含的資料比過往更豐富完整。不過當我們將Web視為無所不包的資料庫,資訊的整合與利用就更為重要。近年來Mashup網站紛紛成立,正說明資訊整合的重要應用。不過再多的混搭網站也難顧到每個使用者的各別需求,因此以往被視為專業性操作的資訊整合,有必要提供更為公眾化的操作。過去我們實驗室即針對Deep Web資訊來源,發展了網頁抓取(Page Fetching)、資料擷取(Data Extraction)、及資料彙整(Data Integration)等相關技術。我們以Programming by example的概念由使用者示範網頁的來源如何取得,同時結合非監督式Web資料擷取技術取得動態網頁的URL位置;最後再透過資料間的關連彙整一個資料樹。近年來也針對Surface Web資訊擷取及整合問題,利用機器學習方法發展相關解決方法,寄望提供使用者更便利的Web資訊存取工具。


  • 資料探勘(Data Mining)的目的在找出資料中未曾被發掘的知識,並利用累積的資料提供未來的決策參考。資料探勘在商業智慧(Business Intelligence)、生物資訊(Bioinformatics)、文件探勘(Text Mining)、科學計算(Scietific Computing)等等有牽涉到資料分析的應用,是相當重要的一項工具。資料探勘是結合資料庫系統(Databse system)、資料倉儲(Data warehouse)、統計(Statistics)、機器學習(Machine learning)、高效能計算(High performance computing)等多個領域的一門學科。其中資料庫系統及資料倉儲用以支援資料的淨化及快速的存取,機器學習及統計則做為資料分析預測的後盾,最後高效能的計算則保證大量資料的快速運算。常見的資料探勘技術包括有樣版探勘(Pattern Mining)、分群(Clustering)、分類(Classification)、預測(Prediction)等項目;前兩者為監督式的學習,後兩者則是非監督式的學習。本實驗室的研究包括有文件探勘、拍賣獲利預測、樣版探勘及資料視覺化等相關研究。