


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
搜索引擎排序的標(biāo)準(zhǔn)是什么?
為了說(shuō)明這個(gè)問(wèn)題,我們來(lái)研究一個(gè)比搜索引擎更加古老的話題:求醫(yī)。比如,如果我牙疼,應(yīng)該去看怎樣的醫(yī)生呢?假設(shè)我只有三種選擇:A醫(yī)生,既治眼病,又治胃??;B醫(yī)生,既治牙病,又治胃病,還治眼病;C醫(yī)生,專治牙病。A醫(yī)生肯定不在考慮之列。B醫(yī)生和C醫(yī)生之間,貌視更應(yīng)該選擇C醫(yī)生,因?yàn)樗鼘W?,更適合我的病情。假如再加一個(gè)條件:B醫(yī)生經(jīng)驗(yàn)豐富,有二十年從醫(yī)經(jīng)歷,醫(yī)術(shù)高明,而C醫(yī)生只有五年從醫(yī)經(jīng)驗(yàn),這個(gè)問(wèn)題就不那么容易判斷了,是優(yōu)先選擇更加專注的C醫(yī)生,還是優(yōu)先選擇醫(yī)術(shù)更加高明的B醫(yī)生,的確成了一個(gè)需要仔細(xì)權(quán)衡的問(wèn)題。至少,我們得到了一個(gè)結(jié)論,擇醫(yī)需要考慮兩個(gè)條件:醫(yī)生的專長(zhǎng)與病情的適配程度;醫(yī)生的醫(yī)術(shù)。大家肯定覺(jué)得這個(gè)結(jié)論理所當(dāng)然,而且可以很自然地聯(lián)想到,搜索引擎排序不也是這樣嗎,既要考慮網(wǎng)頁(yè)內(nèi)容與用戶查詢的匹配程度,又要考慮網(wǎng)頁(yè)本身的質(zhì)量。但是,怎么把這兩種因素結(jié)合起來(lái),得到一個(gè),而不是兩個(gè)或多個(gè)排序標(biāo)準(zhǔn)呢?假如我們把這兩種因素表示成數(shù)值,最終的排序依據(jù)是把這兩個(gè)數(shù)值加起來(lái),還是乘起來(lái),或是按決策樹(shù)的辦法把它們組織起來(lái)?如果是加起來(lái),是簡(jiǎn)單相加,還是帶權(quán)重加呢?我們可以根據(jù)直覺(jué)和經(jīng)驗(yàn),通過(guò)試錯(cuò)的辦法,把這兩個(gè)因素結(jié)合起來(lái)。但更好的辦法是我們能找到一個(gè)明確的依據(jù),最好能跟數(shù)學(xué)這樣堅(jiān)實(shí)的學(xué)科聯(lián)系起來(lái)。說(shuō)起來(lái),依據(jù)樸素的經(jīng)驗(yàn),人類在古代就能建造出高樓;但要建造出高達(dá)數(shù)百米的摩天大廈,如果沒(méi)有建筑力學(xué)、材料力學(xué)這樣堅(jiān)實(shí)的學(xué)科作為后盾,則是非常非常困難的。同理,依據(jù)樸素的經(jīng)驗(yàn)構(gòu)建的搜索引擎算法,用來(lái)處理上萬(wàn)的網(wǎng)頁(yè)集合應(yīng)該是沒(méi)問(wèn)題的;但要檢索上億的網(wǎng)頁(yè),則需要更為牢固的理論基礎(chǔ)。求醫(yī),病人會(huì)優(yōu)先選擇診斷準(zhǔn)確、治療效果好的醫(yī)生;對(duì)于搜索引擎來(lái)說(shuō),一般按網(wǎng)頁(yè)滿足用戶需求的概率從大到小排序。如果用q表示用戶給出了一個(gè)特定的查詢,用d表示一個(gè)特定的網(wǎng)頁(yè)滿足了用戶的需求,那么排序的依據(jù)可以用一個(gè)條件概率來(lái)表示:P(dq)這個(gè)簡(jiǎn)單的條件概率,將搜索引擎排序算法與概率論這門堅(jiān)實(shí)的學(xué)科聯(lián)系了起來(lái),這就像在大海中航行的船只裝備了指南針一樣。利用貝葉斯公式,這個(gè)條件概率可以表示為:可以清楚地看到,搜索引擎的排序標(biāo)準(zhǔn),是由三個(gè)部分組成的:查詢本身的屬性P(q);網(wǎng)頁(yè)本身的屬性P(d);兩者的匹配關(guān)系P(qd)。對(duì)于同一次查詢來(lái)說(shuō),所有網(wǎng)頁(yè)對(duì)應(yīng)的P(q)都是一樣的,因此排序時(shí)可以不考慮,即公式左邊,是已知用戶的查詢,求網(wǎng)頁(yè)滿足該用戶需求的概率。搜索引擎為了提高響應(yīng)用戶查詢的性能,需要事先對(duì)所有待查詢的網(wǎng)頁(yè)做預(yù)處理。預(yù)處理時(shí),只知道網(wǎng)頁(yè),不知道用戶查詢,因此需要倒過(guò)來(lái)計(jì)算,即分析每個(gè)網(wǎng)頁(yè)能滿足哪些需求,該網(wǎng)頁(yè)分了多大比例來(lái)滿足該需求,即得到公式右邊的第一項(xiàng)P(qd),這相當(dāng)于上文介紹的醫(yī)生的專門程度。比如,一個(gè)網(wǎng)頁(yè)專門介紹牙病,另一個(gè)網(wǎng)頁(yè)既介紹牙病又介紹胃病,那么對(duì)于“牙疼”這個(gè)查詢來(lái)說(shuō),前一個(gè)網(wǎng)頁(yè)的P(qd)值就會(huì)更高一些。公式右邊的第二項(xiàng)P(d),是一個(gè)網(wǎng)頁(yè)滿足用戶需求的概率,它反映了網(wǎng)頁(yè)本身的好壞,與查詢無(wú)關(guān)。假如要向一個(gè)陌生人推薦網(wǎng)頁(yè)(我們并不知道他需要什么),那么P(d)就相當(dāng)于某個(gè)特定的網(wǎng)頁(yè)被推薦的概率。在傳統(tǒng)的信息檢索模型中,這一個(gè)量不太被重視,如傳統(tǒng)的向量空間模型、BM25模型,都試圖只根據(jù)查詢與文檔的匹配關(guān)系來(lái)得到排序的權(quán)重。而實(shí)際上,這個(gè)與查詢無(wú)關(guān)的量是非常重要的。假如我們用網(wǎng)頁(yè)被訪問(wèn)的頻次來(lái)估計(jì)它滿足用戶需求的概率,可以看出對(duì)于兩個(gè)不同的網(wǎng)頁(yè),這個(gè)量有著極其巨大的差異:有的網(wǎng)頁(yè)每天只被訪問(wèn)一兩次,而有的網(wǎng)頁(yè)每天被訪問(wèn)成千上萬(wàn)次。能夠提供如此巨大差異的量,竟長(zhǎng)期被傳統(tǒng)的搜索引擎忽略,直到Google發(fā)明了pagerank并讓它參與到排序中。Pagerank是對(duì)P(d)值的一個(gè)不錯(cuò)的估計(jì),這個(gè)因素的加入使搜索引擎的效果立即上升到了一個(gè)新的臺(tái)階。這個(gè)公式同樣回答了上文提出的問(wèn)題,網(wǎng)頁(yè)與查詢的匹配程度,和網(wǎng)頁(yè)本身的好壞,這兩個(gè)因素應(yīng)該怎樣結(jié)合起來(lái)參與排序。這個(gè)公式以不可辯駁的理由告訴我們,如果網(wǎng)頁(yè)與查詢的匹配程度用P(qd)來(lái)表示,網(wǎng)頁(yè)本身的好壞用P(d
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 運(yùn)動(dòng)場(chǎng)草坪管理師崗前安全意識(shí)考核試卷含答案
- 聯(lián)堿結(jié)晶工安全教育評(píng)優(yōu)考核試卷含答案
- 工程船舶水手安全生產(chǎn)基礎(chǔ)知識(shí)評(píng)優(yōu)考核試卷含答案
- 超精細(xì)格柵過(guò)濾對(duì)南方城市污水的碳截留特性及工藝優(yōu)化
- 積木游戲提升大班幼兒學(xué)習(xí)品質(zhì)的行動(dòng)研究
- 保險(xiǎn)公司健康管理服務(wù)模式創(chuàng)新研究-以平安健康A(chǔ)PP為例
- 基于物聯(lián)網(wǎng)與區(qū)塊鏈技術(shù)的葡萄酒溯源系統(tǒng)研究
- 2025低壓電工資格考試必考題庫(kù)含答案
- 工業(yè)廢水處理工操作規(guī)程能力考核試卷含答案
- 河南高二月考試試卷及答案
- 無(wú)機(jī)及分析化學(xué) 化學(xué)反應(yīng)速率和化學(xué)平衡
- 銀川市靈活就業(yè)人員城鎮(zhèn)職工醫(yī)療保險(xiǎn)退費(fèi)申請(qǐng)表
- 2023年大學(xué)生《思想道德與法治》考試題庫(kù)附答案(712題)
- TY/T 3001-2006中國(guó)青少年兒童 手腕骨成熟度及評(píng)價(jià)方法
- GB/T 7631.5-1989潤(rùn)滑劑和有關(guān)產(chǎn)品(L類)的分類第5部分:M組(金屬加工)
- 大劇院聲場(chǎng)模擬分析
- 急性心力衰竭治療的最新指南
- 小學(xué)生法制教育課件講義
- 分鏡頭腳本范文(推薦八篇)
- 五子棋入門教程ppt
- 醫(yī)學(xué)裝備科醫(yī)院設(shè)備績(jī)效管理修訂方案
評(píng)論
0/150
提交評(píng)論