濮阳杆衣贸易有限公司

主頁 > 快速排名 > 常見問題 > 從算法原理,看保舉策略

從算法原理,看保舉策略

POST TIME:2018-12-03 21:32

 

在信息量爆炸的今天,由于范式的轉(zhuǎn)移,傳統(tǒng)的內(nèi)容和渠道已經(jīng)不再是稀缺資源;在今天,將信息和內(nèi)容更好更精準(zhǔn)得呈現(xiàn)在用戶面前,才是全方面提高效率的方式,真正的稀缺資源釀成了「推」和「拉」。而在這一切的背后,保舉算法的作用都功不成沒。

保舉算法簡(jiǎn)介

目前的保舉算法一般分為四大類:

協(xié)同過濾保舉算法基于內(nèi)容的保舉算法混合保舉算法流行度保舉算法協(xié)同過濾的保舉算法

協(xié)同過濾保舉算法應(yīng)該算是一種用的最多的保舉算法,它是通過用戶的歷史數(shù)據(jù)來構(gòu)建“用戶相似矩陣”和“產(chǎn)品相似矩陣”來對(duì)用戶進(jìn)行相關(guān)item的保舉,以達(dá)到精準(zhǔn)滿足用戶愛好的目的。好比亞馬遜等電商網(wǎng)站上的“買過XXX的人也買了XXX”就是一種協(xié)同過濾算法的應(yīng)用。

基于內(nèi)容的保舉算法

基于內(nèi)容的保舉算法,是將item的名稱、簡(jiǎn)介等進(jìn)行分詞處理后,提取出TF-IDF值較大的詞作為特征詞,在此基礎(chǔ)上構(gòu)建item相關(guān)的特征向量,再按照余弦相似度來計(jì)算相關(guān)性,構(gòu)建相似度矩陣。

混合保舉算法

混合保舉算法很好理解,就是將其他算法保舉的結(jié)果賦予差別的權(quán)重,然后將最后的綜合結(jié)果進(jìn)行保舉的方法。

舉例來說,好比上述已經(jīng)提到了三種方式,協(xié)同過濾算法中的基于用戶和基于item的協(xié)同過濾保舉,和基于內(nèi)容的保舉算法;而混合保舉算法中是將這三種保舉結(jié)果賦予差別的權(quán)重,如:基于用戶的協(xié)同過濾的權(quán)重為40%,基于item的協(xié)同過濾的權(quán)重為30%,基于內(nèi)容的過濾技術(shù)的權(quán)重為30%,然后綜合計(jì)算得到最終的保舉結(jié)果。

流行度保舉算法

這個(gè)很基礎(chǔ),看名字就知道了。這種方法是對(duì)item使用某種形式的流行度度量,例如最多的下載次數(shù)或購(gòu)買量,然后向新用戶保舉這些受歡迎的item。就和我們平時(shí)經(jīng)常看到的熱門商品、熱門保舉類似。

淺析保舉算法在實(shí)際中的應(yīng)用

了解了大概原理后,就可以來看看在實(shí)際場(chǎng)景中,保舉算法都是怎么使用的吧。(事先聲明,這只是我看了相關(guān)東西再結(jié)合本身理解進(jìn)去推測(cè)的,如果有說錯(cuò)的地方請(qǐng)各位千萬放下手中的刀……)

好,下面開始,先說說協(xié)同過濾算法在實(shí)際中的應(yīng)用。

協(xié)同過濾算法

協(xié)同過濾算法一般是怎么做的呢?我們先來看看在圖書保舉中的做法:

協(xié)同過濾(CF)大致可分為兩類:一類是基于鄰域的保舉、一類是基于模型的保舉;鄰域方法是使用用戶對(duì)已有item的喜愛程度來推測(cè)用戶對(duì)新item的喜愛程度。與之相反,基于模型的方法是使用歷史行為數(shù)據(jù),基于學(xué)習(xí)出的預(yù)測(cè)模型,預(yù)測(cè)對(duì)新項(xiàng)的喜愛程度。通常的方式是使用機(jī)器學(xué)習(xí)算法,找出用戶與項(xiàng)的彼此作用模型,從而找出數(shù)據(jù)中的特定模式。(由于基于模型的方法我也不太理解,暫時(shí)不展開說明,感興趣的可以查閱相關(guān)資料)

【基于鄰域的保舉】–便是構(gòu)建用戶相似矩陣和產(chǎn)品相似矩陣

假設(shè)用戶表示出了對(duì)一些圖片的喜歡情況并進(jìn)行了相應(yīng)的評(píng)分,情況如下:

差別圖書代表差別維度,評(píng)分則代表了特征向量在該維度上的投影長(zhǎng)度,按照用戶對(duì)差別圖書的喜愛程度建立用戶的特征向量,,然后按照余弦相似度可以判斷用戶之間的相似性。按照相似性可以建立用戶相似矩陣:

很顯然,通過按照用戶對(duì)歷史圖書的評(píng)分情況,可以得到用戶對(duì)其的喜戀愛況,在此基礎(chǔ)上構(gòu)建出用戶特征向量,可以必然程度上判斷兩個(gè)用戶在圖書品味上的相似程度,進(jìn)而我們可以認(rèn)為,若A和B比較相似,可以認(rèn)為A喜歡的書B也喜歡。

在給A用戶進(jìn)行圖書保舉時(shí),找到與其相似度較高的其他用戶,然后除去A用戶已看過的圖書,結(jié)合相似用戶對(duì)某本圖書的喜愛程度與該用戶與A用戶的相似度進(jìn)行加權(quán),得到的保舉指數(shù)越高的圖書優(yōu)先進(jìn)行保舉。

這應(yīng)該也是豆瓣等圖書社區(qū)上使用的保舉算法之一,利用用戶之間的相似度來進(jìn)行保舉。當(dāng)然,電影保舉也同理。

同理,反過來我們可以根據(jù)相似的方位,以用戶為維度來構(gòu)建item的特征向量。?當(dāng)我們需要判斷兩本書是否相似時(shí),就去看對(duì)這兩本書進(jìn)行過評(píng)價(jià)的用戶構(gòu)成是否相似,便是使用評(píng)價(jià)過一本書的用戶向量(或數(shù)組)體現(xiàn)這本圖書;也就是說,如果有兩本書的評(píng)價(jià)中,用戶重合度較高,即可認(rèn)為該兩本書相似度較高。其實(shí)借用的還是用戶相似的基礎(chǔ)。(《口語大數(shù)據(jù)與機(jī)器學(xué)習(xí)》中也提到過相似的保舉算法,感興趣的同學(xué)可以找來看一下)。

在音樂的保舉中同樣用到了協(xié)同過濾算法,我們眾所周知的使用個(gè)性化保舉的音樂app應(yīng)該屬「網(wǎng)易云音樂」比較典型了。

標(biāo)簽:東營(yíng) 鹽城 林芝 九江 烏魯木齊



收縮
  • 微信客服
  • 微信二維碼
  • 電話咨詢

  • 400-1100-266
湖北省| 辽阳市| 新干县| 惠来县| 钦州市| 南投县| 信丰县| 都安| 富蕴县| 万州区| 抚远县| 兰考县| 喀喇| 新民市| 庐江县| 綦江县| 沽源县| 建宁县| 宁阳县| 武宁县| 梁山县| 临湘市| 陇南市| 肇州县| 绥德县| 盐池县| 永平县| 清镇市| 上饶县| 灌云县| 镇远县| 逊克县| 台南县| 肥东县| 黑水县| 英德市| 临高县| 洛南县| 丽江市| 武威市| 阿拉善左旗|