當網(wǎng)站內(nèi)容被搜索引擎蜘蛛爬行和抓取之后,就會對網(wǎng)站抓取的內(nèi)容進行特殊的篩選處理,被稱為索引,其中主要的處理方法有提取文字、中文分詞、去停止詞、去重、正向索引、倒排索引、鏈接關(guān)系計算等。
一、搜索引擎建立索引庫的原理
一般在搜索引擎抓取的原始頁面不是直接參與排名和處理的,因為在搜索引擎的數(shù)據(jù)庫中有成千上萬的內(nèi)容,我們用戶在輸入一個關(guān)鍵詞之后,需要搜索引擎按照排名順序?qū)ο嚓P(guān)聯(lián)的頁面進行逐個分析,不可能在幾秒之內(nèi)給予回復,所以搜索引擎一般都會將抓取的頁面進行排查處理,建立相應的索引庫,為用戶查詢結(jié)果時做好前期的預備工作。
二、采用提取文字的方法,逐個排查文字內(nèi)容
目前,搜索引擎主要是以文字內(nèi)容為基礎(chǔ),在蜘蛛抓取網(wǎng)站頁面中的html代碼時,用戶除了可以在瀏覽器上看到文字之外,還包含了大量的html標簽、java程序等沒有辦法參與排名的相關(guān)內(nèi)容,因此,搜索引擎需要預處理從html文件中去除標簽和程序,提煉出可以參與網(wǎng)頁排名的文字內(nèi)容。
三、運用中文分詞法,處理文章段落問題
在我們的中文搜索引擎中特殊的處理步驟就是中文分詞,因為中文的詞與詞之間沒有分隔符,每個句子中所有的字都是連接在一起的,我們的搜索引擎需要先識別出那幾個字是組成一個詞語,還有那些詞本身就是一個詞語或者句子的。其中,中文分詞法有兩種方法,一個是詞典匹配法,一個是統(tǒng)計法。
詞典匹配法是指將等待分析的一段文字與一段事先詞典庫中現(xiàn)成的詞條進行匹配,然后在等待分析的漢字中需要掃描到詞典中的詞條匹配成功。
相比較而言統(tǒng)計法的優(yōu)勢則是對新詞處理反應比較歐快,方便消除每個詞之間產(chǎn)生歧義。其實搜索引擎分詞的方式主要取決于詞庫的規(guī)模,不管分詞算法的好與壞。作為seo從業(yè)人員能做的就是在頁面上用特殊的方式提醒搜索引擎做某個指令而已,例如,某個字是否與某個詞關(guān)聯(lián)或者產(chǎn)生企業(yè)的時候,我們都可以人工提示搜索引擎。
三、去除停止詞,減少無關(guān)詞的計算量
在網(wǎng)站頁面中,總會有一些詞對于內(nèi)容無關(guān)緊要,而出現(xiàn)的頻率卻很高。譬如:啊、的、哈、之類的感嘆詞以及卻、而之類的副詞,還有英文中常見的a、to等,這些詞實際上對于頁面沒有任何影響,屬于可有可無類型,搜索引擎在建立索引庫時候需要先去掉這些停止詞,突出索引數(shù)據(jù)內(nèi)容的主旨,減少無關(guān)詞的排查。
四、消除噪聲,凈化頁面主題
所謂網(wǎng)頁噪聲不是我們常見的嘈雜的聲音,而是頁面上對網(wǎng)站沒有使用價值的內(nèi)容。如,版權(quán)升溫、導航條、廣告等,有了這些內(nèi)容不僅會對主題起到分離的作用,還會影響網(wǎng)站的主旨。因此搜索引擎需要有意識排除不適合的噪音內(nèi)容,確保內(nèi)容的整潔度。
五、利用正向索引,編排網(wǎng)站權(quán)重信息
通過文字的提取、中文分詞、去噪音等,這時候搜索一起你已經(jīng)是一個特里的個體,可以準確的反應頁面的主題,按照劃分好的分詞,將頁面轉(zhuǎn)換為一個完整的關(guān)鍵詞組合,記錄每一個關(guān)鍵詞在整個頁面上面出現(xiàn)的頻率,然后將這些重要標識信息記錄下來。
六、用倒排索引,對網(wǎng)站進行排名
只有正向索引是不能用于網(wǎng)站排名,實際上搜索引擎是將正向索引數(shù)據(jù)庫重置構(gòu)造成倒排索引,這時整個索引庫才算建立完成。
簡單的來說,搜索引擎是一個需要內(nèi)容處理與建立索引庫的過程,只有多了解搜索引擎的爬行與抓取規(guī)則,多做對用戶做有參考價值的內(nèi)容,才能將網(wǎng)站的優(yōu)化做好。