摘要
萬維網(wǎng)是一個包含豐富資源的數(shù)據(jù)庫,如何有效地從其中獲取所需信息是網(wǎng)絡數(shù)據(jù)挖掘的一個關鍵問題。從1990年開始,搜索引擎逐漸發(fā)展成為人們在互聯(lián)網(wǎng)上搜索資源的主要方式。傳統(tǒng)搜索引擎的工作機制基于關鍵字匹配,它們通常利用網(wǎng)頁文本的內(nèi)容和網(wǎng)絡鏈接結(jié)構(gòu)來判斷網(wǎng)頁與搜索串的相似程度。但隨著越來越多的地方性資源和服務出現(xiàn)在因特網(wǎng)上,傳統(tǒng)搜索引擎無法合理地處理包含位置信息的搜索串和返回令人滿意的結(jié)果,其原因在于以下三點:(1)將地理位置當作普通關鍵字進行處理;(2)考慮的是網(wǎng)頁在全球范圍的受歡迎程度而不是在地方的流行度;(3)沒有考慮網(wǎng)絡資源的地理范圍。因此,建立專門處理包含地理位置信息的搜索引擎是必需的。
搜索引擎優(yōu)化(Seo)是網(wǎng)站采用對搜索引擎友好的技術手段,達到網(wǎng)站在搜索引擎中排名考前及收錄數(shù)量增加。搜索引擎優(yōu)化工作貫穿網(wǎng)站策劃、建設、維護全過程的每個細節(jié)。
優(yōu)化好的網(wǎng)站,從搜索引擎來的流量將會有很大的提高。
如今搜索引擎的技術越來越成熟,性能越來越好,可供選擇的數(shù)量也越來越大,這更加促進了元搜索引擎的發(fā)展。
關鍵字:搜索引擎,關鍵字,排序,網(wǎng)絡搜索,基于位置的搜索引擎
一、緒論
從1990年開始,搜索引擎逐漸發(fā)展成人們在互聯(lián)網(wǎng)上搜索資源的主要方式,大多數(shù)搜索引擎通過基于關鍵字(Keyword-based)的搜索方式來獲取相關網(wǎng)頁。據(jù)估計每天大約有上億條搜索串被提交給搜索引擎進行處理。以Google為例,Sullivan在2010年的調(diào)查顯示Google每天大約需要處理超過9100萬次搜索。
對用戶來說搜索引擎最大的兩個特點就是高召回率和低精確性。雖然搜索引擎能夠覆蓋相當大一部分網(wǎng)絡資源,但缺乏有效的手段來對結(jié)果進行排序并呈現(xiàn)在用戶面前。搜索串通常并不會很長,根據(jù)Spink Jansen 在2004年所做的調(diào)查平均長度只有2.4個單詞,但搜索引擎卻返回了過多的結(jié)果。工業(yè)界和學術界都提出了許多不同的索引和排序模型,試圖只找出最相關的文檔并以恰當?shù)姆绞脚判颍Y(jié)果任然不盡如人意。根據(jù)Sullivan在2000年的報告,44%的用戶覺得搜索結(jié)果并不理想。顯然我們需要改進現(xiàn)有的技術來更有效地索引和表現(xiàn)網(wǎng)絡資源。