濮阳杆衣贸易有限公司

主頁 > 知識庫 > Ruby中的類Google Map/Reduce框架Skynet介紹

Ruby中的類Google Map/Reduce框架Skynet介紹

熱門標簽:中牟外呼系統(tǒng)違法嗎 AI電銷機器人 線路 柯城手機地圖如何做地圖標注 征服者企業(yè)地圖標注 淮安自動外呼系統(tǒng)供應(yīng)商 天津外呼系統(tǒng)怎么收費 外呼線路從哪里出來的 漯河電銷 巫師3地圖標注魔力之所

Skynet是一個很響亮的名字,因為它是阿諾施瓦辛格主演的經(jīng)典系列電影《終結(jié)者》里面的統(tǒng)治人類的超級計算機網(wǎng)絡(luò)。不過本文的Skynet沒這么恐怖,它是一個ruby版本的Google Map/Reduce框架的名字而已。

Google的Map/Reduce框架實在太有名氣了,他可以把一個任務(wù)切分為很多份,交給n臺計算機并行執(zhí)行,返回的結(jié)果再并行的歸并,最后得到運算的結(jié)果。據(jù)說Google一個搜索結(jié)果會Map到7000臺服務(wù)器并行執(zhí)行,這么多么可怕的分布式運算能力阿!有了Map/Reduce,程序員就可以在無需關(guān)注分布式框架的情況下,用簡單的代碼寫出來健壯、并行的分布式應(yīng)用程序,并且可以充分發(fā)揮計算機群集運算的能力。

如今能夠?qū)崿F(xiàn)Map/Reduce算法的框架已經(jīng)有好幾個了,其中最有名氣的可能就是Yahoo發(fā)起的開源項目Hadoop,不過Hadoop并不是用ruby編寫的,但在ruby的世界,Adam Pisoni已經(jīng)開發(fā)出來了ruby版本的Map/Reduce框架,這就是Skynet。

Adam Pisoni開發(fā)Skynet的初衷是因為Adam Pisoni的公司Geni.com是一家定位于家族SNS的互聯(lián)網(wǎng)網(wǎng)站。網(wǎng)站提供的新聞推送功能要求能夠從大量的用戶產(chǎn)生的信息當(dāng)中提取特定用戶感興趣的內(nèi)容,推送給用戶。這實際上是一個分布式運算模型,要能夠把任務(wù)分布到多臺服務(wù)器上面執(zhí)行,最后把任務(wù)歸并回來。Adam Pisoni沒有找到合適的框架,最終自己開發(fā)了Skynet,運用Map/Reduce算法來提供這個分布式運算平臺。

用Skynet開發(fā)Map/Reduce的分布式應(yīng)用程序非常簡單,讓我們舉一個簡單的例子看看吧:假設(shè)有一個1GB的文本文件,我們的任務(wù)是要統(tǒng)計該文件當(dāng)中每個單詞出現(xiàn)的次數(shù)統(tǒng)計。傳統(tǒng)的做法當(dāng)然很簡單,順序讀入文件內(nèi)容,進行單詞統(tǒng)計就行了,但是毫無疑問,執(zhí)行速度會很慢。如果我們有一個1000臺服務(wù)器的運算群集,我們可以如何利用Skeynet來并發(fā)執(zhí)行這個程序,從而縮短統(tǒng)計時間呢?

Map/Reduce算法的過程是:

1、Partition(劃分數(shù)據(jù))
把數(shù)據(jù)劃分為1000份,這個過程由Skynet自動完成

2、Map
除了劃分數(shù)據(jù),還需要把運算該數(shù)據(jù)的代碼也Map到每個運算節(jié)點上面去并發(fā)執(zhí)行。這1000個節(jié)點各自執(zhí)行自己的任務(wù),執(zhí)行完畢以后把執(zhí)行結(jié)果返回

3、Partition
這1000分執(zhí)行結(jié)果需要歸并,于是我們再次劃分數(shù)據(jù),比方說劃分為10份,這個過程也是Skynet自動完成的

4、Reduce
把Reduce代碼和Reduce數(shù)據(jù)分發(fā)到10個節(jié)點執(zhí)行,每個節(jié)點執(zhí)行完畢返回數(shù)據(jù)。如果需要再次Reduce可以再次執(zhí)行。最終Reduce為一個總共的結(jié)果。

其實Map/Reduce算法的原理是很簡單的,好了,看看Skynet下面,我們怎么實現(xiàn)呢?其實我們需要編寫的代碼只有兩個方法:一個map方法,告訴skynet如何執(zhí)行每份數(shù)據(jù),一個reduce方法,告訴skynet如何歸并每份數(shù)據(jù),所以這個并行算法最終用Skynet來寫的話,也非常簡單:

復(fù)制代碼 代碼如下:

  class MapreduceTest
    include SkynetDebugger
           
    def self.map(datas)
      results = {}
      datas.each do |data|
        results[data] ||= 0
        results[data] += 1
      end                
      [results]     
    end
   
    def self.reduce(datas)
      results = {}
      datas.each do |hashes|
        hashes.each do |key,value|
          results[key] ||= 0
          results[key] += value
        end
      end
      results
    end
  end

這個就是一個最簡單、但是完整ruby版本的Map/Reduce代碼了。我們需要編寫一個map方法,告訴skynet去統(tǒng)計每個單詞的出現(xiàn)次數(shù),我們還需要編寫一個reduce方法告訴skynet去歸并每個map的統(tǒng)計結(jié)果。好了,剩下所有的工作都歸Skeynet接管了,是不是很簡單!

當(dāng)然要讓這個Map/Reduce跑起來我們還需要做一些工作,比方說安裝skynet,配置skynet的并行節(jié)點等等,這些瑣碎的工作可以看看skynet自己的文檔:http://skynet.rubyforge.org/doc/index.html,就不詳述了。

值得一提的是Skynet可以和Rails框架良好的整合起來工作,你可以把Rails當(dāng)中一些非常耗時、可以Map/Reduce的工作丟給Skynet去異步后臺執(zhí)行,比方說:

復(fù)制代碼 代碼如下:

MyModel.distributed_find(:all, :conditions => “created_on '#{3.days.ago}'”).each(:some_method)

把最近3天以來所有的model查詢處理以后要執(zhí)行的耗時操作some_method交給Skynet,讓Skynet動用他強大的運算網(wǎng)絡(luò)去執(zhí)行。

還可以異步執(zhí)行:

復(fù)制代碼 代碼如下:

model_object.send_later(:method, options, :save) 

把耗時的任務(wù)交給Skynet去異步執(zhí)行。

對于擁有強大運算網(wǎng)絡(luò)、并且需要進行大量耗時運算的web2.0網(wǎng)站來說,Skynet真是一個很棒的工具,他可以讓程序員很簡單的編寫處理健壯而高效的分布式應(yīng)用程序!

標簽:棗莊 內(nèi)江 甘孜 南昌 克拉瑪依 西雙版納 河池 大慶

巨人網(wǎng)絡(luò)通訊聲明:本文標題《Ruby中的類Google Map/Reduce框架Skynet介紹》,本文關(guān)鍵詞  Ruby,中的,類,Google,Map,Reduce,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Ruby中的類Google Map/Reduce框架Skynet介紹》相關(guān)的同類信息!
  • 本頁收集關(guān)于Ruby中的類Google Map/Reduce框架Skynet介紹的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    自贡市| 保靖县| 德清县| 新丰县| 康定县| 蕉岭县| 扎兰屯市| 鱼台县| 巩留县| 祁连县| 高唐县| 墨江| 唐河县| 清水河县| 天等县| 西丰县| 潜山县| 新密市| 子长县| 富锦市| 栾川县| 韶山市| 汨罗市| 什邡市| 揭东县| 淅川县| 嵊泗县| 桐庐县| 侯马市| 开原市| 新竹县| 蕲春县| 柳河县| 平陆县| 比如县| 湖南省| 花莲县| 徐汇区| 广河县| 阜康市| 兰坪|