關(guān)鍵詞是的核心概念之一,在網(wǎng)站優(yōu)化實踐中,很多工作都圍繞著關(guān)鍵詞展開。本文嘗試從搜索技術(shù)原理與網(wǎng)站優(yōu)化實踐相結(jié)合的角度,總結(jié)SEO內(nèi)容頁面關(guān)鍵詞布局的具體登陸方法。
網(wǎng)站優(yōu)化內(nèi)容頁面的關(guān)鍵詞該怎么布局?
1.介紹搜索引擎的技術(shù)原理
搜索引擎的核心底層技術(shù)是將用戶的查詢詞用自然語言切割成有意義的短語,然后從索引數(shù)據(jù)庫中查找包含全部或部分短語的內(nèi)容并返回結(jié)果。
正常的搜索思維是取關(guān)鍵詞,查找內(nèi)容中是否包含關(guān)鍵詞。假設(shè)您想從10個序列號為1-10的頁面中搜索包含“關(guān)鍵字布局”的頁面。搜索10頁全文搜索單詞“關(guān)鍵字布局”,并返回包含該單詞的頁面序列號。但如果你必須搜索數(shù)以百萬計的頁面,它會非常慢,所以我們發(fā)明了倒排索引的想法。(下圖數(shù)據(jù)并非實際數(shù)據(jù),僅作說明)
僅憑這一點還不足以對搜索結(jié)果進(jìn)行排序。在不_的情況下,一個關(guān)鍵詞出現(xiàn)在網(wǎng)頁上的次數(shù)越多,就越能代表該網(wǎng)頁的特點。前提是過濾掉停止詞(停止詞幾乎是每個網(wǎng)頁上的詞,但不能表達(dá)任何具體的意思,如“DE”、“yes”、“Le”等)。如果我們可以將網(wǎng)頁中出現(xiàn)的關(guān)鍵詞的頻率信息添加到倒排索引表中(縮寫:wordfrequencyTF),就可以對網(wǎng)頁進(jìn)行排序。如下圖所示:當(dāng)我們的查詢詞被劃分為“關(guān)鍵字1”和“關(guān)鍵字2”時,相關(guān)頁面可以按照(3,5,1,2)進(jìn)行排序。
假設(shè)我有兩頁1和2。倒排指標(biāo)的信息如下:
我們搜索“如何布局關(guān)鍵詞”,搜索的關(guān)鍵詞是“關(guān)鍵詞”、“如何”和“布局”。其中“keywords”、“how”、“l(fā)ayout”出現(xiàn)了兩次,在頁分別出現(xiàn)了兩次、兩次,共出現(xiàn)了6次;在第二頁,“how”、“l(fā)ayout”出現(xiàn)了7次。根據(jù)上述邏輯,終的搜索結(jié)果排名為(2,1),這顯然不是一個理想的排名結(jié)果。第2頁的主題顯然是關(guān)于“如何布局走”。此時,有必要引入逆文檔頻率索引(IDF)來解決這個問題。
關(guān)鍵字位置信息也是一個關(guān)鍵點。一般認(rèn)為,標(biāo)題中的關(guān)鍵詞比正文中的相同關(guān)鍵詞更能體現(xiàn)網(wǎng)頁的主題特征。這就是H標(biāo)簽如此重要的原因。搜索引擎還可以根據(jù)代碼布局和噪聲比(比如停止字的頻率)來確定導(dǎo)航、文本、側(cè)邊欄等的位置。位置信息將被標(biāo)記在倒排索引列表中,以參與排序決策。
此外,還有一些其他常用的技術(shù)方法,如:兩個單詞索引/短語指數(shù),“如何布局關(guān)鍵詞”不需要分為三個短詞,也可以分為“關(guān)鍵詞布局”,“如何”,“如何布局”等等;組合找到相關(guān)詞匯,“關(guān)鍵字”的“關(guān)鍵字”和“如何”“如何”等。
當(dāng)然,在實踐中,大型現(xiàn)代搜索引擎的倒索引模型要復(fù)雜得多,而且許多其他因素(其中一個關(guān)鍵因素是超鏈接分析)都涉及到排序算法,這些算法在空間和作者層面都受到限制,因此它們無法伸縮。
2.如何擺放關(guān)鍵詞
標(biāo)題中必須有關(guān)鍵詞,但不能有完整的問題
由于搜索引擎會將查詢詞分成超過N個單詞、雙單詞和短語,并添加相關(guān)單詞將查詢合并到查詢中,所以標(biāo)題中的關(guān)鍵詞不一定是一個完整的問題,通常是“哪家公司做XXX更好”。標(biāo)題不一定需要完整的單詞。即使標(biāo)題包含完整的句子,它也不匹配任何其他完整的句子。一個高質(zhì)量的網(wǎng)頁通常可以匹配數(shù)百個長尾關(guān)鍵詞。顯然,一個標(biāo)題不可能包含所有這些內(nèi)容。標(biāo)題的另一個重要作用是吸引點擊率,點擊率也是排名的一個因素。但核心詞匯“XXX”、“好”和“公司”必須出現(xiàn)。