課程討論

請各位每週發表聽講心得,並將演講名稱以及姓名加入標籤。

2010年11月3日 星期三

[轉貼]Automatic Query Reformulation

今天聽得是一場講關於資訊檢索,也就是所謂的搜尋的演講,就像老師說的,在網路上查找關鍵字的時候,一定是先打一組詞,找不到,才開始增加敘述,發現結果不如預期,再縮短幾個字,如此重複的過程。讓我感到訝異的是鄭教授竟然有辦法從這一種重複的動作當中想出搜尋關鍵字應該是一組好還是多組好,哪一些一定要有,哪一些沒有也沒差,如果用中文去找英文的資料,那專有名詞翻不翻譯,對搜尋結果有無影響。原來,在過去的時代,網路不像現在這麼流行普及,資料量少,用來搜索像是書報雜誌,之類的文章其實專有名詞不翻譯是可以的,可能那一些資料只有收藏最受歡迎或是單單只有那一類相關的文章,找出來的結果還不會太差,但是在網路上,除非有其他的組合辭彙或是相關的詞彙可以關係到專有名詞,不然專有名詞幾乎是一定要翻譯的,雖然在過去的實驗都只重視專有名詞的翻譯好壞,並且是一定要翻,沒有人有去想過,專有名詞到底應不應該翻譯。

在過去搜尋常用的兩種方法,其中一種就是所謂語意搜尋,利用同意辭彙找尋想要搜尋的物件。另外一種就是回饋的機制,找出來的東西給使用者過目審核之後由使用者教導機器辨認哪一些才是使用者想要找的,分類之後定義標籤傳回去資料裡面,方便下一次搜尋。以回饋機制為概念,延伸出類似的機制就是,不讓使用者去審核過目,由機器自己判斷,把找出來的資料分成兩大群,有關的跟無關的,在去統計這兩大群資料中,哪一群的哪一些資料被使用者接受的次數最多,一樣把那些資料存回到搜尋資料裡面,去掉使用者讓機器自己去學習得一種技術。

除此之外,鄭教授還做了很多相關的有趣實驗,像是依照資訊需求去搜尋,拿掉平常常用,不重要,重覆率高的字,用剩下的字去搜尋查看效率如何,在開始重這一些有關的辭彙當中,一組一組抽掉,下去尋找,看效率來找出最主要的關鍵字是什麼,有沒有意義相同但是名詞本身不同的重複詞語,去一直重複的抽字換字看效率。

其實最重要的就是搜尋的時候不要去想那個語意,而是統計才是關鍵,因為你不知道設計演算法或是參數的人,他是怎樣去想去設定你要搜尋的物件他是屬於那一個類別。用預設的資料下去查找,會發現,實際結果跟統計資料的結果有很大的區別。關鍵字往往不是我們直覺上,人類思考所想像的那一組,反而是資料庫裡面,統計數據最多的那一組。尤其是我們在不同的搜尋引擎所打的關鍵字應該是都相同,可是實際上每一個搜尋引擎設計都不太一樣。不能用相同的關鍵字去找尋,這往往就是搜尋效率的好壞最重要的一點,個人的思考不同,機器設定的想法不同。最後鄭教授還有提到他有一些其他的相關研究,最有趣的應該就是搜尋視覺化,這其實是最困難的,有實體東西還比較好定義,但是非實體的,抽象的,個人觀感不同,如何透過一個詞彙去找你心中所想像的那一種圖像,出來的結果好壞每個人看法也不盡相同,如果這種研究能夠成功,未來在搜尋的領域當中,應該更有趣,更快速找到自己想要找的事情吧。
轉貼自http://tw.myblog.yahoo.com/jw!70rnePuTQE.WFQKyDtvqAoOcTQ--/article?mid=5&prev=7&next=4

沒有留言:

張貼留言