POST TIME:2018-12-03 21:15
Netflix在互聯(lián)網(wǎng)時代的成功,是一件非常值得回味的事。
作為一家以租賃起家,以流媒體平臺這種不算很新銳的企業(yè)特征,獲得了世界科技領(lǐng)域的遍及認(rèn)同,甚至能夠與巨頭一較高下。Netflix顯然不止是在內(nèi)容和品牌宣傳上作對了一些事情。
好比說,有長期使用Netflix經(jīng)驗(yàn)的伴侶(雖然目前在國內(nèi)有點(diǎn)難),必定會對Netflix的個性保舉系統(tǒng)留有深刻印象。事實(shí)上,Netflix在內(nèi)容保舉上的技術(shù)實(shí)力與效率一直廣泛受到業(yè)界認(rèn)同
按照Netflix提供的官方數(shù)據(jù),使用個性保舉系統(tǒng)之后,其平臺用戶的不雅觀看率提升了 3 到 4 倍,而基于個性保舉系統(tǒng)打開的視頻數(shù)量,是從最受歡迎列表打開數(shù)量的 4 倍。
在國內(nèi),“千人千面”“內(nèi)容找人”近兩年也是很熱門的話題。但很少有人分析內(nèi)容保舉系統(tǒng)的內(nèi)部邏輯,以及更好的內(nèi)容保舉系統(tǒng)需要哪些因素。
比來廣受期待的漫威劇《捍衛(wèi)者聯(lián)盟》在Netflix放出之后,Netflix官方展示了他們基于這部劇做的內(nèi)容保舉嘗試與數(shù)據(jù)實(shí)驗(yàn)。以此為契機(jī),我們或許可以一窺“別人家的保舉引擎”。
懂算法的同時要懂內(nèi)容《捍衛(wèi)者聯(lián)盟》之所以特別,原因在于它就像《復(fù)仇者聯(lián)盟》一樣(好多聯(lián)盟啊),是幾個各自有獨(dú)立劇集的超級英雄組合到一起的“混合劇”。
對于Netflix來說,這部劇的價值在于這四位英雄有各自的受眾群體(鐵拳應(yīng)該沒有中國受眾吧),而組合起來的人設(shè)與故事是否能覆蓋各自人群之和,還是應(yīng)該推向新的人群呢?
(四個獨(dú)立英雄受眾有差別的不雅觀影愛好和關(guān)鍵詞標(biāo)記 )
針對這個問題,Netflix將《捍衛(wèi)者聯(lián)盟》當(dāng)做了一塊試驗(yàn)田,他們將密切關(guān)注這部劇的數(shù)據(jù)走向,而且對差別身份標(biāo)識的用戶實(shí)行差別的保舉策略。測試結(jié)果將形成新的機(jī)制,用來確定如何向差別的興趣組提供“混搭劇”保舉,同時也可以按照反饋來確定以后是否要制作更多差別劇集人物的組合劇。
比擬于國內(nèi)的主流內(nèi)容保舉引擎(無論是信息、短視頻還是視頻)通常采取以用戶為中心,按照用戶瀏覽、保藏、付費(fèi)等行為來建構(gòu)個性化保舉體系,Netflix讓我們看到了另一種可能:以內(nèi)容特征為中心,去分析差別內(nèi)容可以保舉給誰,如何保舉,甚至是否要調(diào)整內(nèi)容?!案畠?nèi)容的個性保舉”不但建立在對內(nèi)容文本特征的駕馭上,更重要的是技術(shù)能力足夠支撐這種創(chuàng)造力。
不然從用戶、內(nèi)容雙向互動來匹配保舉機(jī)制,將是一個工作量巨大且錯誤率高企的任務(wù)。那么問題來了,站在Netflix保舉系統(tǒng)背后的,究竟是一個什么樣的技術(shù)體系呢?
好戲的基礎(chǔ),,是一個足夠大的舞臺簡單來描繪的話,Netflix個性內(nèi)容保舉機(jī)制的特色,就是要在保證用戶使用流暢的前提下,盡心盡力的裝備更多、更復(fù)雜的算法組合。
具體的算法我們一會再聊。首先要弄清楚的問題是Netflix內(nèi)容保舉系統(tǒng)的底層基礎(chǔ)是什么。
假設(shè)我們認(rèn)為,更多的算法和技術(shù),可以帶來更巧妙的運(yùn)算和結(jié)果,而且彼此制約出趨向合理的結(jié)論。那么平臺的第一要務(wù)就是要保證運(yùn)算能力可以負(fù)擔(dān)復(fù)雜的算法與數(shù)據(jù)挖掘技術(shù)運(yùn)行,而且保證平臺可以敏捷輕松的加入后續(xù)越來越多的算法。
那么第一個問題就是運(yùn)算能力的保證。我們知道,人工智能的多元算法要求的運(yùn)算力特別高,傳統(tǒng)的CPU+辦事器模式在成本上很難滿足復(fù)雜的AI系統(tǒng)運(yùn)行。
而Netflix是最先嘗試在AWS上使用GPU實(shí)現(xiàn)分布式神經(jīng)網(wǎng)絡(luò)的企業(yè)之一。雖然今天這種組合正在逐漸成為標(biāo)配,但在幾年前使用GPU代替大型集群的CPU作為平臺支撐是一個創(chuàng)舉。
這樣不但保證了計(jì)算力的不變,還為更多的人工智能投入平臺運(yùn)用提供了契機(jī)。別的Netflix還率先把大量運(yùn)算任務(wù)交給了云端,在AWS上進(jìn)行分配式計(jì)算,確保了運(yùn)算的高效率。
別的,我們可以注意到,Netflix在進(jìn)行內(nèi)容保舉運(yùn)算的時候使用的是三種計(jì)算方式相結(jié)合:在線計(jì)算、離線計(jì)算和接近在線計(jì)算。
之所以要進(jìn)行分工,是要保證運(yùn)算復(fù)雜度和運(yùn)算效率不變統(tǒng)一。其中在線計(jì)算用來響應(yīng)必需即刻完成的交互行為,確保用戶指令得到實(shí)時響應(yīng)。而離線計(jì)算因?yàn)闆]有時間限制,可以在運(yùn)算平臺上完成更復(fù)雜的算法運(yùn)行和更大的數(shù)據(jù)量處理。這種運(yùn)算的工作模式是系統(tǒng)從用戶處收集數(shù)據(jù),然后回到后端進(jìn)行運(yùn)算分析,再通過后期的交互表示在內(nèi)容保舉上。