午夜91福利视频,午夜成人在线观看,午夜在线视频免费观看,午夜福利短视频,精品午夜成人免费视频APP

幫助

運營過程中常見的推薦算法你了解多少呢?

2020-04-13 10:03 運營文檔

0. 從余弦公式講起

先思考一個問題,我們(men)怎么量化兩個事(shi)物(wu)的(de)相似度呢?當然,這也(ye)是推薦系(xi)統(tong)需要多次面(mian)臨的(de)問題。

我們知(zhi)道向量(liang)的概念,可以形象化(hua)地表(biao)示(shi)(shi)為帶箭(jian)頭的線段。二維空間向量(liang)表(biao)示(shi)(shi)方法為,多維空間向量(liang)表(biao)示(shi)(shi)為,向量(liang)是描述(shu)事物一種很好模型。

比(bi)如(ru),假設用(yong)戶有5個維(wei)度:

  1. 對服裝的喜歡程度(1~5分)
  2. 對家居的喜歡程度(1~5分)
  3. 對3C的喜歡程度(1~5分)
  4. 對圖書的喜歡程度(1~5分)
  5. 對化妝品的喜歡程度(1~5分)
  • 一個用戶A:對服裝的喜歡程度3,對家居的喜歡程度1,對3C的喜歡程度4,對圖書的喜歡程度5,對化妝品的喜歡程度0,用戶A可以用向量表示為
  • 一(yi)個用(yong)戶B:對服裝的喜歡程度3,對家居的喜歡程度4,對3C的喜歡程度5,對圖書的喜歡程度0,對化妝品的喜歡程度2,用戶B可以用向量表示為

這(zhe)兩個用(yong)戶的(de)(de)相似(si)程度是多大(da)呢?既然(ran)我們(men)把這(zhe)兩個用(yong)戶表示(shi)為向量(liang)(liang),那(nei)么我們(men)可以考慮向量(liang)(liang)怎(zen)么判斷相似(si)性。沒錯,看(kan)這(zhe)兩個向量(liang)(liang)的(de)(de)夾(jia)角(jiao)。夾(jia)角(jiao)約小(xiao),則相似(si)度越大(da)。

 對于(yu)向量和而言,他(ta)們的在(zai)多(duo)維空間的夾角可以用向量余弦公式計(ji)算:

余弦相(xiang)似(si)(si)度的(de)值本身是一(yi)個0~1的(de)值,0代表完全(quan)(quan)正交(jiao),1代表完全(quan)(quan)一(yi)致。就剛才用戶A和用戶B的(de)例(li)子而(er)言,我(wo)們可以(yi)知道他們的(de)相(xiang)似(si)(si)度為:

余(yu)(yu)弦(xian)公(gong)式本(ben)身應用(yong)范圍很廣,量化相(xiang)似度(du)在搜索推薦(jian),商業策略中(zhong)都是常見問題,余(yu)(yu)弦(xian)公(gong)式是很好(hao)的(de)(de)(de)解(jie)決方案。就(jiu)推薦(jian)本(ben)身而言,計算(suan)內容的(de)(de)(de)相(xiang)似度(du),計算(suan)用(yong)戶(hu)的(de)(de)(de)相(xiang)似度(du),計算(suan)用(yong)戶(hu)類(lei)型的(de)(de)(de)相(xiang)似度(du),計算(suan)內容類(lei)型的(de)(de)(de)相(xiang)似度(du),這些都是可以應用(yong)的(de)(de)(de)場景。

1. 推薦的本質是什么

推薦(jian)和搜(sou)索本(ben)質(zhi)有相似的(de)(de)地方。搜(sou)索滿足用(yong)(yong)戶(hu)從海(hai)量數據中迅速找到(dao)自(zi)己感興趣(qu)內容(rong)的(de)(de)需求(qiu),屬于用(yong)(yong)戶(hu)主(zhu)動獲取(qu)。推薦(jian)則是系統從海(hai)量數據中根據獲取(qu)到(dao)的(de)(de)用(yong)(yong)戶(hu)數據,猜(cai)測用(yong)(yong)戶(hu)感興趣(qu)的(de)(de)內容(rong)并推薦(jian)給(gei)(gei)用(yong)(yong)戶(hu),屬于系統推薦(jian)給(gei)(gei)用(yong)(yong)戶(hu)。本(ben)質(zhi)上都(dou)是為了在這個信(xin)息過載的(de)(de)時代,幫助用(yong)(yong)戶(hu)找到(dao)自(zi)己感興趣(qu)的(de)(de)東西。

推(tui)薦(jian)系(xi)統有(you)很多種形式。運營或者編輯篩(shai)選出(chu)自己(ji)認(ren)為(wei)最好的內容放在首頁,廣義上講這也(ye)是一種推(tui)薦(jian)。不過這個不在我們本(ben)(ben)期文章的討(tao)論范圍,本(ben)(ben)期主要是討(tao)論系(xi)統級別(bie)的推(tui)薦(jian)。這里主要介(jie)紹四類常見的推(tui)薦(jian)方(fang)法:

  • 基于內容的推薦
  • 基于內容的協同過濾
  • 基于用戶的協同過濾
  • 基于標簽的推薦

2. 基于內容的推薦

基于內(nei)(nei)容的(de)(de)推薦是(shi)基礎的(de)(de)推薦策(ce)略(lve)。如果(guo)你(ni)瀏覽或購買過某種(zhong)類型的(de)(de)內(nei)(nei)容,則給你(ni)推薦這種(zhong)類型下的(de)(de)其他內(nei)(nei)容。

以(yi)電影(ying)推薦(jian)為(wei)例(li)。比(bi)(bi)如(ru)你之(zhi)前(qian)看過《盜(dao)夢空(kong)間》,則系統(tong)會關聯數(shu)據庫中盜(dao)夢空(kong)間的(de)(de)信息。系統(tong)會推薦(jian)克里斯托(tuo)弗(fu)·諾蘭導演的(de)(de)其他作品(pin),比(bi)(bi)如(ru)《致命魔術》;系統(tong)會推薦(jian)主演里昂納(na)多(duo)的(de)(de)其他作品(pin),比(bi)(bi)如(ru)《第十一(yi)小時》。

如果這個電影系統的數據被(bei)很好地分類,那么推薦系統也會給(gei)用戶推薦這個分類下的其(qi)他作品。盜夢空間如果被(bei)歸(gui)為科(ke)幻(huan)(huan)作品,那么可能(neng)會推薦其(qi)他科(ke)幻(huan)(huan)作品,比(bi)如《星際迷航》。

基于(yu)內(nei)容的(de)推(tui)(tui)薦好處在于(yu)易于(yu)理解,但是壞處是推(tui)(tui)薦方式(shi)(shi)比較(jiao)(jiao)依賴于(yu)完整(zheng)的(de)內(nei)容知識庫的(de)建立。如果內(nei)容格式(shi)(shi)化(hua)比較(jiao)(jiao)差,那么(me)基于(yu)內(nei)容的(de)推(tui)(tui)薦就無法(fa)實(shi)行(xing)。同時如果用戶留下的(de)數據比較(jiao)(jiao)少(shao),則推(tui)(tui)薦效果很(hen)差,因為無法(fa)擴(kuo)展。

3. 基于內容的協同過濾

協(xie)同(tong)過濾(lv)(Collaborative Filtering)與傳(chuan)統(tong)的(de)基于(yu)內(nei)容過濾(lv)直接(jie)分析(xi)(xi)內(nei)容進行推薦不同(tong),協(xie)同(tong)過濾(lv)會分析(xi)(xi)系統(tong)已(yi)有數據,并結(jie)合用戶(hu)表現的(de)數據,對該(gai)指定用戶(hu)對此信息的(de)喜好程度(du)預測。

基于(yu)內(nei)容(rong)的(de)協同(tong)(tong)過(guo)濾(item-based CF),通(tong)過(guo)用戶(hu)對不同(tong)(tong)內(nei)容(rong)的(de)評(ping)分來評(ping)測(ce)內(nei)容(rong)之(zhi)間的(de)相(xiang)似性,基于(yu)內(nei)容(rong)之(zhi)間的(de)相(xiang)似性做出推(tui)薦;最典型的(de)例子(zi)是(shi)著名的(de)“啤(pi)酒(jiu)加尿(niao)布(bu)”,就是(shi)通(tong)過(guo)分析知(zhi)道啤(pi)酒(jiu)和尿(niao)布(bu)經常被美國爸爸們一起購買,于(yu)是(shi)在尿(niao)布(bu)邊上推(tui)薦啤(pi)酒(jiu),增加了啤(pi)酒(jiu)銷量。

需要計算用戶u對物品j的興趣,公式如下:

這(zhe)里N(u)表(biao)示(shi)用(yong)戶(hu)有關聯的商品的集合,wji表(biao)示(shi)物品j和(he)i的相似度,rui表(biao)示(shi)用(yong)戶(hu)u對物品i的打分,示(shi)例如下:

這(zhe)里(li)還(huan)有(you)兩個(ge)問(wen)題沒有(you)仔細描述,如(ru)何(he)打(da)分,如(ru)何(he)計算相似度。

打分(fen)的話需要根(gen)據業(ye)務計算,如果有打分(fen)系(xi)(xi)統最好(hao),沒有打分(fen)系(xi)(xi)統,則需要根(gen)據用(yong)戶(hu)對這(zhe)個(ge)物品的行為得到一個(ge)分(fen)數。

計算相似度除了之前我們提(ti)到的余弦公式,還可以根據其他的業(ye)務數據。比如對于網易云音(yin)樂(le)而言,兩(liang)(liang)首(shou)歌越(yue)(yue)多的被加入兩(liang)(liang)個歌單,可以認(ren)為兩(liang)(liang)首(shou)歌越(yue)(yue)相似。對于亞馬遜而言,兩(liang)(liang)個商(shang)品越(yue)(yue)多的被同時購買,則認(ren)為兩(liang)(liang)個商(shang)品相似。這里(li)其實是(shi)需要根據產品的具體情況進行調整(zheng)。

4. 基于用戶的協同過濾

基(ji)于(yu)用(yong)戶(hu)的(de)(de)(de)協同(tong)過濾(user-based CF),通過用(yong)戶(hu)對(dui)不同(tong)內容(rong)的(de)(de)(de)行為,來評測用(yong)戶(hu)之(zhi)間(jian)的(de)(de)(de)相(xiang)似(si)(si)性(xing),基(ji)于(yu)用(yong)戶(hu)之(zhi)間(jian)的(de)(de)(de)相(xiang)似(si)(si)性(xing)做出推薦(jian)。這部分(fen)推薦(jian)本(ben)質上是給相(xiang)似(si)(si)的(de)(de)(de)用(yong)戶(hu)推薦(jian)其他用(yong)戶(hu)喜(xi)歡的(de)(de)(de)內容(rong),一句話概(gai)括(kuo)就是:和你類似(si)(si)的(de)(de)(de)人(ren)還喜(xi)歡下列內容(rong)。

需要(yao)計算用戶(hu)u對物品(pin)i的興(xing)趣,公式如下(可以和基于(yu)物品(pin)的協同過濾仔細對比):

這里N(i)表示對物品i有過(guo)行為的用(yong)(yong)(yong)戶(hu)集合,wuv使用(yong)(yong)(yong)用(yong)(yong)(yong)戶(hu)u和(he)用(yong)(yong)(yong)戶(hu)v的相似度,rvi表示用(yong)(yong)(yong)戶(hu)v對物品i的打(da)分,示例如下:

同樣的,這(zhe)里計算相似度(du)如(ru)果用到余(yu)弦公式,其(qi)實最主(zhu)要的是(shi)(shi)選好維度(du)。對于音(yin)樂而言,可能是(shi)(shi)每首歌都作(zuo)(zuo)為一個(ge)維度(du),對于電商(shang)而言,也(ye)可以(yi)是(shi)(shi)每個(ge)商(shang)品都是(shi)(shi)一個(ge)維度(du)。當(dang)然,用一些可理(li)解的用戶標(biao)簽作(zuo)(zuo)為維度(du)也(ye)是(shi)(shi)可以(yi)的。

5. 基于標簽的推薦

標(biao)簽(qian)系(xi)統相對于之前的(de)用戶維度和(he)產品維度的(de)推薦,從結(jie)(jie)構(gou)上(shang)講,其實更易(yi)于理解一(yi)(yi)些(xie),也更容(rong)易(yi)直接干預(yu)結(jie)(jie)果一(yi)(yi)些(xie)。關于tag和(he)分類,基本上(shang)是(shi)互(hu)聯(lian)網有(you)(you)信息架構(gou)以來就有(you)(you)的(de)經典設計結(jie)(jie)構(gou)。內容(rong)有(you)(you)標(biao)簽(qian),用戶也會因為用戶行為被(bei)打上(shang)標(biao)簽(qian)。通過(guo)標(biao)簽(qian)去關聯(lian)內容(rong)。

需要計算(suan)用戶u對物品(pin)i的興(xing)趣,公式如下(可以(yi)和基于物品(pin)的協同過濾仔細對比):

這(zhe)里(li)N(u.,i)表示用(yong)戶u和(he)物品i共有(you)的標(biao)簽(qian),wuk使用(yong)用(yong)戶u和(he)標(biao)簽(qian)k的關聯度,rki表示標(biao)簽(qian)k和(he)物品i的關聯性分(fen)數,示例如下:

標(biao)簽查找的(de)(de)方法這里有(you)很大可以發(fa)揮(hui)的(de)(de)空間,比(bi)如,通(tong)過知識庫進(jin)行(xing)(xing)處理,或者(zhe)語義分析處理。而(er)(er)對于一些(xie)設計之初就有(you)標(biao)簽概念的(de)(de)網站, 就比(bi)較容(rong)易,比(bi)如豆瓣(ban)和知乎。對于知乎而(er)(er)言(yan),公共編輯的(de)(de)標(biao)簽是天然的(de)(de)標(biao)簽內容(rong),對于知乎的(de)(de)用戶而(er)(er)言(yan),瀏覽回答關注等行(xing)(xing)為(wei)則(ze)是天然的(de)(de)用戶標(biao)簽素材。

6. 總結

 對于(yu)(yu)(yu)(yu)推(tui)薦而言(yan),這幾種基本的(de)方(fang)法彼此(ci)之前都(dou)有(you)些(xie)應用(yong)場景(jing)的(de)差(cha)別:比(bi)如基于(yu)(yu)(yu)(yu)知識的(de)推(tui)薦,這是(shi)(shi)比(bi)較老舊的(de)推(tui)薦方(fang)法,但是(shi)(shi)對于(yu)(yu)(yu)(yu)系統和結構比(bi)較好的(de)內容,則(ze)低成(cheng)本且高效。比(bi)如基于(yu)(yu)(yu)(yu)內容的(de)協(xie)同過(guo)濾,就適用(yong)于(yu)(yu)(yu)(yu)內容比(bi)較有(you)限,但是(shi)(shi)用(yong)戶數特別多的(de)情(qing)況,比(bi)如電(dian)商公司。比(bi)如基于(yu)(yu)(yu)(yu)用(yong)戶的(de)協(xie)同過(guo)濾,則(ze)比(bi)較容易根(gen)據(ju)用(yong)戶的(de)興(xing)趣點,發覺熱點內容,比(bi)如新聞(wen)門戶。對于(yu)(yu)(yu)(yu)基于(yu)(yu)(yu)(yu)標簽的(de)推(tui)薦,有(you)標簽系統的(de)很占(zhan)便(bian)宜,它(ta)在靈活性和可控制性上都(dou)好一些(xie),但是(shi)(shi)做好很難。

本(ben)期(qi)主要(yao)是介紹了常(chang)見推(tui)薦(jian)(jian)(jian)算法的基本(ben)原理,那么在推(tui)薦(jian)(jian)(jian)系統策略設計(ji)的時候,有(you)哪(na)些需要(yao)特別注意的地(di)方呢?我們怎么衡量一個推(tui)薦(jian)(jian)(jian)系統的優劣呢?推(tui)薦(jian)(jian)(jian)系統有(you)哪(na)些典(dian)型的應(ying)用場景呢?歡迎關注專欄,繼(ji)續閱讀下(xia)期(qi)。

#專欄作(zuo)家(jia)#

潘一鳴,人人都是產品經理專欄作家,THU/PM,知乎專欄:產品邏輯之美
原創文章,作者:愛運(yun)營,如若轉載,請注(zhu)明(ming)出處(chu)://www.iyunying.org/yunying/cpyy/106987.html


相關推薦

工作日 8:30-12:00 14:30-18:00
周(zhou)六及部分節(jie)假(jia)日提供值班(ban)服務

易(yi)小優
轉(zhuan)人(ren)工 ×