姚鍵是優(yōu)酷土豆集團CTO,據他介紹,優(yōu)酷新上線的首頁頁面上,光是導航欄上的視頻分類就有21個,21個不同類型的內容,這意味著會有各種不同的用戶來優(yōu)酷看視頻,要想給不同的用戶推薦他們喜歡的視頻,這靠的是一個叫做“協(xié)同過濾推薦”的技術。
百度百科上這樣介紹協(xié)同過濾推薦(Collaborative Filtering recommendation):“是在信息過濾和信息系統(tǒng)中正迅速成為一項很受歡迎的技術。與傳統(tǒng)的基于內容過濾直接分析內容進行推薦不同,協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程度預測。”
這是亞馬遜、谷歌等互聯網巨頭都在使用的技術。亞馬遜會告訴你“買了A商品的顧客也同時購買了B商品”,Youtube上,一個視頻播放結束,馬上就會出現相關推薦視頻。
看上去簡單的相關推薦,其實在優(yōu)酷的視頻推薦中涉及上百個參數,每次要調整參數,都要手動調整十幾甚至幾十個參數,每天推薦視頻的數據模型中要涉及的數據高達幾十億。
一次小小的參數調整,帶來的后果,可能是當天視頻觀看帶來幾百萬的增長,也可能是在算法穩(wěn)定后的未來幾周,甚至幾個月帶來視頻觀看量的曲線變化。
當然,數字證實,通過這種協(xié)同過濾推薦給用戶的視頻是靠譜的,因為在海量的視頻中尋找自己喜歡的視頻成本是很高的,推薦視頻的打開率也令人滿意。
優(yōu)酷土豆心中的“大數據”
數據的挖掘、分析,用在推薦視頻上,還只是個小意思。優(yōu)酷在2010年推出的“優(yōu)酷指數”把大數據精神進一步強化,把視頻播放周期、用戶核心特征、用戶播放行為、視頻熱度排行等數據進行展示。
姚鍵這樣介紹優(yōu)酷指數誕生的背景:“2010年的時候,優(yōu)酷在PC互聯網時代已經成為最有影響力的視頻網站,優(yōu)酷希望能夠在行業(yè)內樹立一個標桿,在強化優(yōu)酷品牌的同時,也打造優(yōu)酷指數這樣一個概念。”
今年,優(yōu)酷指數進而演變成“中國網絡視頻指數”,加入了土豆網以及移動客戶端的視頻數據,對數字感興趣的用戶,可以從這個指數里讀出很多內容。
作為一款平臺化的產品,“中國網絡視頻指數”在優(yōu)酷土豆集團中的參考價值無處不在,從廣告售賣,到版權購買,再到播放器產品的優(yōu)化,等等,處處都能夠作為指導依據。
據姚鍵透露,優(yōu)酷土豆集團推出的數據報告給節(jié)目制作方、影視劇公司、第三方分析機構等了解視頻節(jié)目的播放信息,以及觀眾人群的分析提供了依據;在廣告銷售方面,能夠為廣告主呈現出用戶行為特征,提供廣告投放價值的分析;在進行版權購買的時候,可以根據指數的走向來幫助決策;公司內部,哪怕是播放器產品的用戶體驗優(yōu)化,都可以查看數據分析結果,查看按鈕的擺放和使用頻率等。
這些價值都是顯而易見的,還有我們在表面看不到的,通過數據分析的結果來指導優(yōu)酷土豆集團的自制內容。
“比如說優(yōu)酷有很多自制的內容,有很多的微電影、綜藝節(jié)目等等,這些播放數據可以顯示出哪些題材是用戶喜歡的,用戶看到哪里就看不下去了,在哪里是拖放觀看的,一系列的用戶行為可以清晰地告訴內容制作人員,應該怎么去剪輯視頻,怎么去選擇內容題材。”姚鍵說。
其實這個過程也是對視頻質量進行分析的過程,在優(yōu)酷土豆的搜索、推薦中按照視頻質量進行排序,反過來也提高了推薦成功率。
然而,大數據讀出的數據,其指導意義還遠不止此。
每部電影、電視劇在播出后都會有對應的數據,哪些演員受歡迎,哪些題材受追捧,通過分析數據就可以慢慢發(fā)現背后的原因,把這個受歡迎的故事講出來,這就是可見的未來。
敢為人先 優(yōu)酷土豆用Spark完善大數據分析
大數據,一個似乎已經被媒體傳播的過于泛濫的詞匯,的的確確又在逐漸影響和改變著我們的生活。也許有人認為大數據在中國仍然只是噱頭,但在當前中國互聯網領域,大數據以及大數據所催生出來的生產力正在潛移默化地推動業(yè)務發(fā)展,并為廣大中國網民提供更加優(yōu)秀的服務。優(yōu)酷土豆作為國內最大的視頻網站,和國內其他互聯網巨頭一樣,率先看到大數據對公司業(yè)務的價值,早在2009年就開始使用Hadoop集群,隨著這些年業(yè)務迅猛發(fā)展,優(yōu)酷土豆又率先嘗試了仍處于大數據前沿領域的Spark/Shark 內存計算框架,很好地解決了機器學習和圖計算多次迭代的瓶頸問題,使得公司大數據分析更加完善。
MapReduce之痛
提到大數據,自然不能不提Hadoop。HDFS已然成為大數據公認的存儲,而MapReduce作為其搭配的數據處理框架在大數據發(fā)展的早期表現出了重大的價值??捎捎谄湓O計上的約束MapReduce只適合處理離線計算,其在實時性上仍有較大的不足,隨著業(yè)務的發(fā)展,業(yè)界對實時性和準確性有更多的需求,很明顯單純依靠MapReduce框架已經不能滿足業(yè)務的需求了。
優(yōu)酷土豆集團大數據團隊技術總監(jiān)盧學裕就表示:“現在我們使用Hadoop處理一些問題諸如迭代式計算,每次對磁盤和網絡的開銷相當大。尤其每一次迭代計算都將結果要寫到磁盤再讀回來,另外計算的中間結果還需要三個備份,這其實是浪費。”
據悉,優(yōu)酷土豆的Hadoop大數據平臺是從2009年開始采用,最初只有10多個節(jié)點,2012年集群節(jié)點達到150個,2013年更是達到300個,每天處理數據量達到200TB。優(yōu)酷土豆鑒于Hadoop集群已經逐漸勝任不了一些應用,于是決定引入Spark/Shark內存計算框架,以此來滿足圖計算迭代等的需求。
Spark是一個通用的并行計算框架,由伯克利大學的AMP實驗室開發(fā),Spark已經成為繼Hadoop之后又一大熱門開源項目,目前已經有英特爾等企業(yè)加入到該開源項目。
“我們大數據平臺對快速需求的響應延時,尤其是在商業(yè)智能BI以及產品研究分析等需要多次對大數據做Drill Down與Drill Up時,等待成了效率殺手。” 優(yōu)酷土豆集團大數據團隊技術總監(jiān)盧學裕表示。
用Spark/Shark完善大數據分析
目前大數據在互聯網公司主要應用在廣告、報表、推薦系統(tǒng)等業(yè)務上。在廣告業(yè)務方面需要大數據做應用分析、效果分析、定向優(yōu)化等,在推薦系統(tǒng)方面則需要大數據優(yōu)化相關排名、個性化推薦以及熱點點擊分析等。優(yōu)酷土豆屬于典型的互聯網公司,目前運用大數據分析平臺的主要工作是運營分析、機器學習、廣告定向優(yōu)化、搜索優(yōu)化等方面。
優(yōu)酷土豆集團大數據團隊技術總監(jiān)盧學裕表示:“優(yōu)酷土豆的大數據平臺已經用了很多年,突出問題主要包括:第一是商業(yè)智能BI方面,公司的分析師提交任務之后需要等待很久才得到結果;第二就是大數據量計算,比如進行一些模擬廣告投放之時,計算量非常大的同時對效率要求也比較高,用Hadoop消耗資源非常大而且響應比較慢;最后就是機器學習和圖計算的迭代運算也是需要耗費大量資源且速度很慢。”
因此,面對復雜任務、交互式查詢以及流在線處理時,Hadoop與MapReduce并不適用。Spark/Shark這種內存型計算框架則比較適合各種迭代算法和交互式數據分析,可每次將彈性分布式數據集(RDD)操作之后的結果存入內存中,下次操作可直接從內存中讀取,省去了大量的磁盤IO,效率也隨之大幅提升。優(yōu)酷土豆集團大數據團隊大數據平臺架構師傅杰表示:“一些應用場景并不適合在MapReduce里面去處理。通過對比,我們發(fā)現Spark性能比MapReduce提升很多。”
“比如在圖計算方面,視頻與視頻之間存在的相似關系,這就構成了一個圖譜,通過圖譜來做聚類,再給用戶做視頻推薦。” 優(yōu)酷土豆集團大數據團隊技術總監(jiān)盧學裕表示。
優(yōu)酷土豆集團大數據團隊技術總監(jiān)盧學裕表示:“我們進行過圖計算方面的測試,在4臺節(jié)點的Spark集群上用時只有5.6分鐘,而同規(guī)模的數據量,單機實現需要80多分鐘,并且內存吃滿,單機無法實現Scale-Out,不能計算更大規(guī)模數據。”
“在今天,數據處理要求非???。比如優(yōu)酷土豆的一些客戶、廣告商往往臨時就需要看一下投放效果。所以在前端應用不變的情況下,如果能更快的響應市場的需要就變得很有競爭力。市場是瞬息萬變的,有一些分析結果也需要快速響應成一個產品,Spark集成到數據平臺正能發(fā)揮這樣的效果。” 優(yōu)酷土豆集團大數據團隊大數據平臺架構師傅杰補充道。
據了解,優(yōu)酷土豆采用Spark/Shark大數據計算框架得到了英特爾公司的幫助,起初優(yōu)酷土豆并不熟悉Spark以及Scala語言,英特爾幫助優(yōu)酷土豆設計出具體符合業(yè)務需求的解決方案,并協(xié)助優(yōu)酷土豆實現了該方案。此外,英特爾還給優(yōu)酷土豆的大數據團隊進行了Scala語言、Spark的培訓等。
“優(yōu)酷土豆作為國內視頻行業(yè)第一家商用部署Spark/Shark方案的公司,從視頻行業(yè)的多樣化分析角度來看是個非常好的方案。未來,英特爾將會繼續(xù)與優(yōu)酷土豆在Spark/Shark進行合作,包括硬件配置的優(yōu)化以及整體方案的優(yōu)化等”英特爾(中國)有限公司銷售市場部互聯網及媒體行業(yè)企業(yè)客戶經理李志輝介紹道。
未來:將Spark/Shark融入到Hadoop 2.0
對于大數據而言,Hadoop已經構建完成了較為完善的生態(tài)系統(tǒng),特別是Hadoop 2.0版本在推出之后,改善了諸多缺點。而Spark/Shark計算框架其實與Hadoop并不沖突,Spark現在已經可以直接運行在Yarn的框架之上,成為Hadoop生態(tài)系統(tǒng)之中不可或缺的成員。
優(yōu)酷土豆集團大數據團隊大數據平臺架構師傅杰表示:“目前Hadoop 2.0已經發(fā)布了release版本,我們已經啟動了對Hadoop 2.0的升級預演。這中間還涉及到我們在1.0版本上修改的一些特性需要遷移和驗證,我們希望做到在不影響業(yè)務的情況下實現平滑升級,預計在明年Q1完成升級。Hadoop 2.0將會是非常強大的,不再僅僅是MapReduce,還能融入Spark,能夠讓用戶可以根據數據處理應用需求的不同來選擇合適的計算框架。”