演講者:鄭卜壬教授
以自然語言的檢索方式查找網路資源,當query的term不是一個很單純的特定目標時,要讓檢索結果很精確不是件容易的事,query該下得長或短,該用哪幾個term組合,往往需要多次的修正。我常在想,如果在reformulate的過程中,系統能多給些有用的feedback,應該可以大幅提升檢索結果的precision ratio及recall ratio。
鄭老師提到資訊檢索的二大隔閡,一為使用者的隔閡,一為語意的隔閡。在課堂上,我常以一些較冗長的句子去測試學生,看他們面對這樣的敘述句時,會如何做概念分析,然後決定用哪幾個term作為query的keywords。測試後發現,不同學生因為個人認知與理解能力的不同,針對同一個題目,會有不同的query,當然也就產生不一樣的檢索結果,這種差異即使用者的gap。因為就使用者而言,只能看到蒐尋引擎的檢索介面,對於後端到底存在著哪些資料根本一無所知,遑論去預測網路文件使用哪些詞彙。User gap在以往電腦科學領域是較少人關注的,但在圖資領域,我們通常很著重這一方面的探討。當我們在formulate一個query時,總是希望user離data愈近愈好,即愈了解文獻的語意愈好,但有些資料卻很難讓使用者了解其語意,尤其是影像的query,當語意視覺化後,要抓到其語意就不是那麼容易,此為語意的gap。而query的reformulation,可以透過query的擴展(query expansion)和相關性的回饋(relevance feedback)來改善檢索的效能。當我們在檢索學術資料庫時,若是利用索引典檢索,我們會發現descriptor的擴展功能相當好用,但在浩瀚網路資源中,不可能有一套完整的索引典供使用者選詞,故僅能提供相關性的回饋,讓系統根據使用者選擇之文件來作為重新查詢的基礎,或是將使用者輸入之關鍵詞,以詞彙擴展的方式,提供使用者自行挑選相關詞彙後再進行檢索,因為系統可透過語言特性及統計特性(共現特徵)等方式讓一個詞彙變得更重要。自動化再建構query的目標,就是希望系統能學習測量query詞彙的有效性,了解在一個query中每個詞彙的重要性分別為何,再訓練系統自我學習,以提升檢索結果的精確性。
提升網路資源檢索效能的方式有許多種,期望這些技術未來能日趨純熟,將使用者與資料間的距離愈拉愈近,愈沒有隔閡,如此才能讓使用者以更有效率的方式遨遊於資訊大海中。
沒有留言:
張貼留言