2023-02-25 分類: 網(wǎng)站建設(shè)
SEO個(gè)性化網(wǎng)頁權(quán)重研究
個(gè)性化網(wǎng)頁權(quán)重的常見形式就是個(gè)性化PageRank。現(xiàn)代搜索引擎對自然搜索引擎排名的排序依據(jù)除了使用傳統(tǒng)的文本匹配技術(shù)以外,也廣泛地使用網(wǎng)頁權(quán)重值來進(jìn)行。最為有名的例子就是Google的PageRank技術(shù)。利用web結(jié)構(gòu)的鏈接關(guān)系,PageRank可以計(jì)算每個(gè)網(wǎng)頁的權(quán)重值,并據(jù)此對結(jié)果網(wǎng)頁進(jìn)行排序。因此,如果利用用戶的偏好信息來修改PageRank權(quán)重值的計(jì)算,據(jù)此就產(chǎn)生表達(dá)特定用戶個(gè)性化信息需求的搜索引擎排序結(jié)果。從效果上看,這種方法較PageRank更為實(shí)用,因?yàn)楫吘褂脩羰遣豢赡苋勘闅v獲取的查詢網(wǎng)頁結(jié)果集合,所以把和用戶需求聯(lián)系最為密切的網(wǎng)頁放于搜索結(jié)果前面,必然更易于用戶訪問。其實(shí),Page等早已提出個(gè)性化PageRank的設(shè)想,只是他們并沒有在此項(xiàng)研究上深人地開展下去基于個(gè)性化網(wǎng)頁權(quán)重的個(gè)性化搜索引擎模型。
現(xiàn)在,人們提出的個(gè)性化PageRank方法有很多,主要分為兩大類:一類是直接修改基于超鏈關(guān)系得到的網(wǎng)頁權(quán)重值;另一類是在傳統(tǒng)PageRank公式上添加修正參數(shù)來反映用戶的個(gè)性化要求。
在原先的PageRank計(jì)算公式中,模型對每個(gè)網(wǎng)頁的鏈接分配了相同的概率值,所以這種方法給不同鏈接和網(wǎng)頁分配的權(quán)重是一樣的,當(dāng)前網(wǎng)頁的權(quán)重值也會平均地影響鏈出網(wǎng)頁,同時(shí)它還假設(shè)用戶隨機(jī)跳轉(zhuǎn)到其他任何網(wǎng)頁的概率都是一樣的。所以,這種計(jì)算方法主要是依賴于網(wǎng)頁結(jié)構(gòu)圖中的鏈接來進(jìn)行分析。但是,這些鏈接卻是由網(wǎng)站的網(wǎng)頁設(shè)計(jì)者生成的,因此它只能反映設(shè)計(jì)者對Web中其他網(wǎng)頁的理解。另外,這種方法忽略了另外一個(gè)重要方面,那就是Web用戶對Web網(wǎng)頁的理解。也就是說,單純使用網(wǎng)頁之間的超鏈結(jié)構(gòu)來表達(dá)網(wǎng)頁權(quán)重值是不充分的。比較簡單易行的修改網(wǎng)頁權(quán)重做法就是利用Web日志挖掘信息來獲取用戶對Web網(wǎng)頁的理解程度,以完善傳統(tǒng)的PageRank計(jì)算方式。事實(shí)上,憑直覺可以判斷出來,那些訪問頻率較高的超鏈應(yīng)該比那些訪問頻率較低的超鏈更為重要,然而大部分的傳統(tǒng)超鏈分析技術(shù)對這兩者并不加以區(qū)分。
對于結(jié)合使用信息的超鏈分析技術(shù)最初是由Zhu等提出的,他們把相關(guān)公式稱為PageRate,雖然他們也宣稱自己的算法是PageRank的擴(kuò)展,但是其實(shí)這種算法不具有任何PageRank的性質(zhì)。這種算法對所有的鏈入不加區(qū)分,并不考慮高頻訪問和低頻訪問的區(qū)別。同時(shí),他們也沒有給出實(shí)驗(yàn)結(jié)論,對可能存在的問題也沒有探討,設(shè)計(jì)的公式還存在問題。
有些其他方面的研究也涉及使用信息分析。例如,使用一種增強(qiáng)學(xué)習(xí)方法來對搜索結(jié)果進(jìn)行重排序和過濾,對于每個(gè)查詢結(jié)果中的URL,系統(tǒng)都會記錄不同用戶的點(diǎn)擊情況。在隨后的查詢中,上述信息就可以有效地提升高頻訪問的URL權(quán)值,而降低低頻訪問的URL權(quán)值這樣的類似方法還應(yīng)用于一些商業(yè)搜索引擎中,如有的學(xué)者就在多元搜索引擎中利用上述方法實(shí)現(xiàn)一種隱式的相關(guān)度反饋機(jī)制,它將用戶點(diǎn)擊產(chǎn)生的使用情況主要用于結(jié)果網(wǎng)頁合并和網(wǎng)頁重排序等操作中舊。用戶使用信息還應(yīng)用于基于模式的應(yīng)用程序中,主要功能是及時(shí)學(xué)習(xí)用戶的興趣,并對搜索結(jié)果重排序以反映這種用戶興趣,如按照用戶模式的特征改變不同主題詞的相對重要程度。
比較好的方法是利用挖掘Web日志中的信息結(jié)合傳統(tǒng)PageRank公式得出一種新的網(wǎng)頁權(quán)重計(jì)算公式,即結(jié)合使用挖掘的PageRank,如特征敏感的PageRank(usage aware PageRank,UPR)。它結(jié)合了靜態(tài)鏈接結(jié)構(gòu)分析和用戶使用分析兩項(xiàng)技術(shù):一方面仍然強(qiáng)調(diào)傳統(tǒng)網(wǎng)頁間的超鏈關(guān)系;另一方面,它通過分析日志,判斷這些實(shí)際存在的網(wǎng)頁超鏈中究竟哪些是經(jīng)常被用戶訪問的,哪些不是經(jīng)常被用戶訪問的,并以此來改進(jìn)傳統(tǒng)方法中由超鏈關(guān)系產(chǎn)生的網(wǎng)頁權(quán)重值。在UPR方法中,甚至還可以通過調(diào)整參數(shù)設(shè)置來控制靜態(tài)鏈接結(jié)構(gòu)分析技術(shù)和Web使用挖掘技術(shù)的作用力度,如果參數(shù)設(shè)置為O,公式就等價(jià)于傳統(tǒng)的PageRank公式,如果參數(shù)設(shè)置為1,則重點(diǎn)就轉(zhuǎn)移到使用挖掘分析算法上,介于兩者之間則會兼顧,因此這種方式較傳統(tǒng)方式更為概括。從效率上看,這種算法也有優(yōu)勢,只需通過一次額外的預(yù)處理步驟,其他的迭代處理和傳統(tǒng)方式?jīng)]有區(qū)別。
然而這種新的方法也存在不足之處。即使網(wǎng)站管理員可以得到自己站點(diǎn)用戶的訪問信息,并將其應(yīng)用于UPR分析,但是這些信息顯然沒有包含全部的必要信息,如管理員不可能獲得不屬于自己站點(diǎn)訪問內(nèi)的鏈出網(wǎng)頁使用情況。雖然可以通過爬蟲程序遍歷那些網(wǎng)頁的超鏈結(jié)構(gòu),但是除了可以獲得用戶通過哪些網(wǎng)頁的鏈出網(wǎng)頁訪問本地網(wǎng)頁的使用信息,并不可能獲得其他更為重要的使用信息。也就是說,從站點(diǎn)層次上看,全部的結(jié)構(gòu)信息和使用信息是可以全部獲取的,然而從整個(gè)Web網(wǎng)絡(luò)層次上看,卻是不完整的。同時(shí),對單一的應(yīng)用技術(shù)而言,整個(gè)Web網(wǎng)絡(luò)上的用戶使用信息也是無法完整獲取的。諸如Google搜索工具欄等客戶端應(yīng)用程序,雖然它們可以收集用戶的使用信息,而且這些信息也確實(shí)是基于整個(gè)web范圍而言的,然而這里所涉及的用戶范圍是相當(dāng)小的,他們首先必須安裝客戶端應(yīng)用程序,而且必須進(jìn)行相關(guān)設(shè)置以同意公開這些屬于個(gè)人隱私的Web訪問信息。需要說明的是,諸如Google搜索工具欄之類的軟件在默認(rèn)情況下是尊重用戶的個(gè)人隱私權(quán)的,除非用戶自己允許,它并不主動收集任何用戶訪問的信息,當(dāng)然也有其他一些客戶端應(yīng)用程序似乎并不遵守上述原則。
因此,這種結(jié)合使用挖掘的PageRank最適用于網(wǎng)站內(nèi)部的網(wǎng)頁搜索,搜索引擎工作的原理先獲取該網(wǎng)站的結(jié)構(gòu)信息,結(jié)合用戶使用信息,可以得到傳統(tǒng)PageRank方法的擴(kuò)展模型。實(shí)驗(yàn)結(jié)果也能證明這種算法更能有效地提升高訪問頻率的網(wǎng)頁權(quán)重值,相應(yīng)地降低那些低訪問頻率的網(wǎng)頁權(quán)重值。轉(zhuǎn)
隨著搜索引擎技術(shù)慢慢走向成熟,越來越多的搜索引擎優(yōu)化工作者<以及很難從搜索引擎的表象去研究SEO。近一年時(shí)間以來,Google、百度等搜索引擎不斷調(diào)整鏈接分析技術(shù),加深SEO門檻。SEOER也必須隨著搜索引擎的發(fā)展而發(fā)展。
文章名稱:SEO個(gè)性化網(wǎng)頁權(quán)重研究
網(wǎng)站路徑:http://m.rwnh.cn/news48/239548.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作、網(wǎng)站維護(hù)、響應(yīng)式網(wǎng)站、電子商務(wù)、虛擬主機(jī)、網(wǎng)站營銷
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容