根據文章對tag標簽的不同匹配程度,分成(cheng)了下圖中四個(ge)階梯,排(pai)序(xu)的優(you)先順序(xu)從上到下,具(ju)體排(pai)序(xu)規(gui)則下面(mian)說詳(xiang)細說明。
第(di)一(yi)階梯的文章屬(shu)于tag詞高度精準匹配的文章,最優(you)先排(pai)列(lie)。比如(ru)tag詞是(shi)“SEO算(suan)(suan)法(fa)”,文章標題如(ru)果完(wan)整(zheng)(zheng)出現“農村土(tu)地流轉”這個詞才算(suan)(suan)完(wan)整(zheng)(zheng)包(bao)含,下列(lie)文章標題屬(shu)于這種(zhong)情(qing)況:
多個(ge)文(wen)章標題都能(neng)完整(zheng)包含tag標簽詞則按照文(wen)章發布時間(jian)的(de)先后順序排列,先排列最(zui)新(xin)發布的(de)。第一(yi)階梯的(de)文(wen)章調用不限制(zhi)數量,符合條件(jian)的(de)全部(bu)展現(xian)出(chu)來。
第二階(jie)梯的文(wen)(wen)(wen)章屬于tag詞(ci)精準匹配的文(wen)(wen)(wen)章,僅排(pai)列在第一階(jie)梯后面。比(bi)如tag詞(ci)是“SEO算(suan)法”,分詞(ci)后得到“SEO”“算(suan)法”;兩(liang)個詞(ci),文(wen)(wen)(wen)章標題如果這(zhe)兩(liang)個詞(ci)都有出(chu)現才算(suan)分詞(ci)后能全包含,下列文(wen)(wen)(wen)章屬于這(zhe)類情況(kuang):
多個文(wen)(wen)章(zhang)(zhang)標題(ti)都能tag標簽分詞后(hou)完(wan)整(zheng)包含則按照文(wen)(wen)章(zhang)(zhang)發布(bu)時間(jian)的(de)先后(hou)順序排(pai)列,先排(pai)列最(zui)新發布(bu)的(de)。第(di)二階(jie)梯的(de)文(wen)(wen)章(zhang)(zhang)調用不(bu)限制數(shu)量(liang),符(fu)合條件的(de)全部展現出來(lai)。
第三(san)階(jie)梯文章屬(shu)于廣泛匹配(pei)的文章,排列比(bi)較靠后。比(bi)如tag詞(ci)(ci)是(shi)“農村土地(di)流(liu)轉(zhuan)”,分詞(ci)(ci)后得(de)到“農村”“土地(di)”“流(liu)轉(zhuan)”三(san)個(ge)(ge)詞(ci)(ci),文章標題中只出現(xian)這(zhe)三(san)個(ge)(ge)詞(ci)(ci)中的兩個(ge)(ge)或者一個(ge)(ge)的情況(kuang)。下列文章屬(shu)于這(zhe)類情況(kuang):
如果(guo)存(cun)在多個文(wen)章屬于第三階梯(ti)這(zhe)類情況,則(ze)采(cai)用TF-IDF算法,根據每個文(wen)章標(biao)題對應的(de)TF-IDF值排(pai)序,從大到小(xiao)排(pai)列。這(zhe)樣更把更相關的(de)文(wen)章排(pai)列在前(qian)面。
TF-IDF算法(fa)公式:把tag詞分詞后在標(biao)題中出現的每個(ge)詞TF*IDF值(zhi)求和(he)。
TF=該詞在目前文章標(biao)(biao)題(ti)中出現的次(ci)數/標(biao)(biao)題(ti)總詞數
IDF=log(土流網文(wen)章總數/標(biao)題中包含這個詞的文(wen)章數)
例(li)子(zi):對于“農村(cun)土(tu)地流轉”這(zhe)個(ge)(ge)tag詞(ci),“2019年湖南農村(cun)土(tu)地現狀分(fen)析”和“全國各地土(tu)地流轉形(xing)勢簡(jian)介”兩個(ge)(ge)文(wen)(wen)章的TF*IDF值分(fen)別是多少?哪個(ge)(ge)文(wen)(wen)章排前面(mian)?
對(dui)于2017年湖南農(nong)村土地現狀分(fen)析這(zhe)個文章:
“農村”這(zhe)個詞,TF*IDF=1/7 * log(50000/9760)=0.143*1.63=0.233
“農村”這個詞在上述標題中只出(chu)現(xian)1次,標題分詞后一(yi)共7個詞語,假設網站一(yi)共50000個文章,標題出(chu)現(xian)了“農村”的文章有9760篇。
“土(tu)地”這個(ge)詞,TF*IDF=1/7 * log(50000/19180)=0.143*0.955=0.137
2017年湖南農村(cun)土地現狀分析(xi)TF*IDF值為(wei):0.233+0.137=0.37
對于全國各地(di)土(tu)地(di)流轉(zhuan)形勢簡介這個文章:
“土地”這個詞,TF*IDF=1/6 * log(50000/19180)=0.143*0.955=0.159
“流轉(zhuan)”這個詞,TF*IDF=1/6 * log(50000/7100)=0.143*1.952=0.279
全國各(ge)地(di)土(tu)地(di)流(liu)轉形(xing)勢(shi)簡介TF*IDF值(zhi)為:0.159+0.279=0.438
顯然這個文(wen)(wen)章的TF-IDF值大于上(shang)面(mian)那個文(wen)(wen)章,這個文(wen)(wen)章排前(qian)面(mian)。
程序在計算第(di)三階梯文章的TF-IDF
Tf-idf相關(guan)介紹:baike.baidu.com/link?url=9jWqcxIe110pMpJN0LW0r2T1YgSSWCxOQFMOWGzi_u4SUl5ChaTAs3Tbk0OPi_4va-fizgtNCx3A-KMb31ihRa
第四(si)階梯文(wen)章屬于最廣泛匹配的文(wen)章,排(pai)列在最后(hou)面(mian)。這(zhe)類(lei)文(wen)章基本是主題和tag詞不相關(guan),但是正(zheng)文(wen)中有部分相關(guan)內(nei)容。
存在多個文(wen)章屬于這類情況,則(ze)按照tag詞完整(zheng)出現的(de)次(ci)(ci)(ci)數排序,出現次(ci)(ci)(ci)數最多的(de)排列在前面,次(ci)(ci)(ci)數相同則(ze)按照發(fa)布時(shi)間的(de)先后順序排列,最新(xin)發(fa)布的(de)排前面。第四階梯的(de)文(wen)章調用不限制數量,符合條件的(de)全部展現出來。
5、注意事項
考慮到程序計算速度的(de)問題,所有標(biao)簽詳情頁可(ke)以緩存一天(tian),可(ke)以考慮夜間計算每個標(biao)簽的(de)調(diao)用結果進行緩存。
標(biao)簽調(diao)用文章總(zong)數最多(duo)不超過(guo)400篇(pian),每頁展現(xian)20條,也就是最多(duo)20頁。
以(yi)上就是在考(kao)慮做TAG聚合(he)頁(ye)面的(de)(de)時候,所要考(kao)慮的(de)(de)頁(ye)面調用規(gui)則(ze),合(he)理的(de)(de)規(gui)則(ze)可以(yi)大大提(ti)(ti)高(gao)文章相關性(xing)和(he)關鍵(jian)詞密度(du),以(yi)達到網站權(quan)重的(de)(de)提(ti)(ti)升,獲得頁(ye)面排(pai)名。