一、twitter的核心業(yè)務(wù)
twitter的核心業(yè)務(wù),在于following和be followed
(1)following-關(guān)注進(jìn)入個(gè)人主頁(yè),會(huì)看到你follow的人發(fā)表的留言(不超過(guò)140個(gè)字),這是following的過(guò)程;
(2)followed-被關(guān)注你發(fā)布一條留言,follow你的人將看到這條信息,這是be followed的過(guò)程;
二、twitter的業(yè)務(wù)邏輯
twitter的業(yè)務(wù)邏輯也不復(fù)雜。
following業(yè)務(wù),查follow了哪些人,以及這些人發(fā)表的留言;
followed業(yè)務(wù),前端js輪詢后端,看follow了的人有沒有新留言,有則更新(更新及時(shí)性取決于輪詢時(shí)間);
三、三層架構(gòu)(three-tier architecture)
網(wǎng)站的架構(gòu)設(shè)計(jì),傳統(tǒng)的做法是三層架構(gòu),所謂“傳統(tǒng)”不意味著“過(guò)時(shí)”,新潮的技術(shù)不成熟,傳統(tǒng)的路子更穩(wěn)健。
(1)表示層(presentation tier):apache web server,主要任務(wù)是解析http協(xié)議,將請(qǐng)求分發(fā)給邏輯層;
(2)邏輯層(logic tier):mongrel rails server,利用rails現(xiàn)成的模塊,降低工作量;
(3)數(shù)據(jù)層(data tier):mysql;
表示層:表示層的主要職能有2個(gè):(1)http協(xié)議處理(http processor);(2)分發(fā)器(dispatcher);當(dāng)然,訪問(wèn)twitter的不僅僅是瀏覽器,可能還有手機(jī),由于可能存在其他協(xié)議,故可能存在其他processor。
邏輯層:當(dāng)用戶發(fā)布消息時(shí),依次執(zhí)行:(1)存消息至msg表;(2)查用戶relation表,找出其followed_ids;(3)獲取followed_ids中用戶的狀態(tài);(4)在線的ids,將消息push進(jìn)一個(gè)隊(duì)列queue;(5)queue中的msg,更新ids的主頁(yè);這里面要用到隊(duì)列,其實(shí)現(xiàn)方式有很多種,例如apache mina,twitter團(tuán)隊(duì)自己實(shí)現(xiàn)了一個(gè)kestrel。
數(shù)據(jù)層:twitter的核心是用戶;消息;用戶關(guān)系。圍繞這幾個(gè)核心,其核心數(shù)據(jù)的schema設(shè)計(jì):(1)用戶表userid, name, pass, status, …(2)消息表msgid, author_id, msg, time, …(3)用戶關(guān)系表relationid, following_ids, followed_ids。
無(wú)論如何,架構(gòu)框架清晰如下:
![](/d/20211019/2b2210fdf5e72c4c43e73927fe48a165.gif)
四、cache=cash即緩存等于收入
cache的使用對(duì)大型網(wǎng)站架構(gòu)至關(guān)重要,網(wǎng)站響應(yīng)速度是影響用戶體驗(yàn)最明顯的因素,而影響響應(yīng)速度最大的敵人又是磁盤I/O。twitter工程師認(rèn)為,良好體驗(yàn)的網(wǎng)站平均響應(yīng)時(shí)間應(yīng)該在500ms左右,理想的時(shí)間是200-300ms。關(guān)于cache的使用,是twitter架構(gòu)的一大看點(diǎn),帶cache的架構(gòu)清晰如下:
![](/d/20211019/0a438a2fa73553e98d11adbc9888fa8e.gif)
哪里需要cache?IO越頻繁的地方,越需要cache。數(shù)據(jù)庫(kù)是IO訪問(wèn)最頻繁處,三大核心表是否有必要放入內(nèi)存中?twitter的做法是,將表拆分,將其中訪問(wèn)最頻繁的字段裝入cache。
(1)vector cache and row cache即數(shù)組cache與行cache
數(shù)組緩存:新發(fā)表消息的msgids,相關(guān)作者的ids,這些id的訪問(wèn)頻率很高,存放它們的cache稱為vector cache;
行緩存:消息正文的行cache;內(nèi)存有限的情況下,優(yōu)先vector cache,實(shí)際結(jié)果vector cache的命中率是99%,row cache為95%;
(2)fragment cache and page cache
訪問(wèn)twitter的用戶除了網(wǎng)頁(yè)(web通道),還有手機(jī)(API通道),而后者的比例占總流量的80%-90%。mysql cache之外,cache的重心會(huì)在API通道上。手機(jī)屏幕的主體,是一屏一屏的消息,不妨把整個(gè)頁(yè)面分割成若干局部,每個(gè)局部對(duì)應(yīng)一些/一條消息,這些就是fragment。人氣高的作者,緩存其頁(yè)面的fragment,可以提高讀取其發(fā)布消息效率,這就是fragment cache的使命。人氣旺的作者,人們也會(huì)訪問(wèn)其主頁(yè),這就是page cache的使命。實(shí)際結(jié)果,fragment cache的命中率為95%,page cache為40%。雖然page cache的命中率低,但由于是訪問(wèn)主頁(yè),其占用的空間是很大的,為了防止兩種cache相互影響,這兩種cache需要部署在不同的物理機(jī)器上。twitter的fragment cache和page cache都是使用的memcached。
(3)http accelerator加速器
web通道的緩存問(wèn)題也需要解決,分析之后,web通道的壓力主要來(lái)自搜索。面臨突發(fā)事件時(shí),讀者們會(huì)搜索相關(guān)信息,而不會(huì)理會(huì)這些信息的作者是不是自己follow的那些人。為了降低搜索壓力,可以將搜索關(guān)鍵詞與搜索內(nèi)容cache起來(lái)。這里,twitter的工程師使用了varnish。有趣的是,varnish通常部署在web server外層,先訪問(wèn)varnish,其中沒有相關(guān)的內(nèi)容,才訪問(wèn)web server;twitter的工程師卻將varnish放在apache web server的內(nèi)層,原因是他們認(rèn)為varnish操作復(fù)雜,擔(dān)心varnish崩潰造成系統(tǒng)的癱瘓,故采用了這種保守型部署方式。twitter沒有公開varnish的命中率,他們聲稱,使用了varnish之后,整站的負(fù)載下降了50%。
五、抗洪需要隔離
twitter架構(gòu)的另一大看點(diǎn)是其消息隊(duì)列:隔離用戶的操作,將流量高峰攤平。
餐廳客滿時(shí),對(duì)于新來(lái)的顧客,雖然不能服務(wù),但不是拒之門外,而是讓他們現(xiàn)在休息廳等待。
用戶訪問(wèn)twitter時(shí),接待他的是apache web server,而apache不能接待無(wú)限多的用戶。2009年1月20日,奧巴馬發(fā)表就職演說(shuō),twitter流量猛增,此時(shí)如何是好。
面對(duì)洪峰,如何保證網(wǎng)站不奔潰?迅速接納,但推遲服務(wù)。
apache收到請(qǐng)求,轉(zhuǎn)發(fā)給Mongrel,由Mongrel負(fù)責(zé)實(shí)際處理,apache則騰出手來(lái),迎接下一位用戶。但apache能夠接待的用戶數(shù)總是有限的,它的并發(fā)數(shù)受apache能夠容納的工作進(jìn)程數(shù)量,這里不細(xì)究apache內(nèi)部原理,圖如下:
![](/d/20211019/8a509855485d635082559c48df0b149b.gif)
六、數(shù)據(jù)流與控制流
快速接納,推遲服務(wù),只是緩兵之計(jì),目的是讓用戶不至于收到503(service unavailable)。
真正的抗洪能力,體現(xiàn)在蓄洪與泄洪兩個(gè)方面:
(1)twitter有龐大的memcached集群,能大容量蓄洪;
(2)twitter自己的kestrel消息隊(duì)列,作為引流泄洪手段,傳遞控制指令(引流和渠道);洪峰到達(dá)時(shí),twitter控制數(shù)據(jù)流,將數(shù)據(jù)及時(shí)疏散到多個(gè)機(jī)器,避免壓力集中,造成系統(tǒng)癱瘓。
下面舉例說(shuō)明twitter內(nèi)部流程,假設(shè)有兩個(gè)作者,通過(guò)瀏覽器發(fā)消息,一個(gè)讀者也通過(guò)瀏覽器閱讀他們的消息。
![](/d/20211019/9edc5517e32e28b35dbb45477b02f153.gif)
(1)登陸apache web server,apache分配一個(gè)工作進(jìn)程為其服務(wù),登陸,查id,寫cookie等;
(2)上傳新寫的消息,把作者id,消息等轉(zhuǎn)發(fā)給Mongrel,apache等待Mongrel回復(fù),以便更新作者主頁(yè),將新寫的消息更新上去;
(3)Mongrel收到消息后,分配一個(gè)msgid,將msgid與作者id等緩存到vector memcached上去;同時(shí),Mongrel讓vector memcached查找作者被哪些人follow,緩存如果沒有命中會(huì)去后端mysql查找,并入cache;讀者ids會(huì)返回給Mongrel,Mongrel把msgid與短信正文緩存至row memcached;
(4)Mongrel通知kestrel消息隊(duì)列服務(wù)器,每個(gè)作者及讀者都有一個(gè)隊(duì)列(沒有則創(chuàng)建);Mongrel將msgid放入讀者的隊(duì)列,以及作者本人的隊(duì)列;
(5)某一臺(tái)Mongrel,它可能正在處理某一個(gè)id的隊(duì)列,就會(huì)往返回該id用戶的主頁(yè)上添加上此條信息;(6)Mongrel將更新后作者的主頁(yè)給前端等待著的apache,apache則返回瀏覽器。
七、洪峰與云計(jì)算
不細(xì)說(shuō)了,洪峰扛不住時(shí),只能加機(jī)器。機(jī)器哪里來(lái)?租云計(jì)算平臺(tái)公司的設(shè)備。當(dāng)然,設(shè)備只需要在洪峰時(shí)租用,省錢呀。
八、push與pull的折衷
可以看到,Mongrel的工作流程:
(1)將相關(guān)ids放入vector memcached和row memecached就算消息發(fā)布成功,而不負(fù)責(zé)mysql數(shù)據(jù)庫(kù)的存入;
(2)將相關(guān)msgid放入kestrel消息隊(duì)列就算消息推送成功;Mongrel沒有使用任何方式去通知作者、讀者,讓他們重新拉取消息。
上述工作方式,反映了twitter架構(gòu)設(shè)計(jì)分拆的理念:
(1)將一個(gè)完整的流程分拆成獨(dú)立工作的子流程,一個(gè)工作可以由各個(gè)服務(wù)負(fù)責(zé)(三層架構(gòu)本身是一種分拆);
(2)多機(jī)器之間協(xié)作,細(xì)化數(shù)據(jù)流與控制流,并強(qiáng)調(diào)其分離;
twitter業(yè)務(wù)流程的分隔,是一種事件驅(qū)動(dòng)式的設(shè)計(jì),主要體現(xiàn)在兩個(gè)方面:
(1)Mongrel與mysql的分離,前者不直接插手mysql的操作,而委托memcached全權(quán)負(fù)責(zé);
(2)上傳、下載邏輯分離:只通過(guò)kestrel隊(duì)列來(lái)傳遞指令;
每時(shí)每刻都有用戶在Twitter上發(fā)表內(nèi)容,Twitter工作是規(guī)劃如何組織內(nèi)容并把它發(fā)送用戶的粉絲。
實(shí)時(shí)是真正的挑戰(zhàn),5秒內(nèi)將消息呈現(xiàn)給粉絲是現(xiàn)階段的目標(biāo)。
投遞意味著內(nèi)容、投入互聯(lián)網(wǎng),然后盡可能快的發(fā)送接收。
投遞將歷時(shí)數(shù)據(jù)放入存儲(chǔ)棧,推送通知,觸發(fā)電子郵件,iOS、黑莓及Android手機(jī)都能被通知到,還有短信。
Twitter是世界上活躍中最大的信息發(fā)送機(jī)。
推薦是內(nèi)容產(chǎn)生并快速傳播的巨大動(dòng)力。
兩種主要的時(shí)間軸:用戶的及主頁(yè)的。
用戶的時(shí)間軸特定用戶發(fā)送的內(nèi)容。
主頁(yè)時(shí)間表是一段時(shí)間內(nèi)所有你關(guān)注用戶發(fā)布的內(nèi)容。
線上規(guī)則是這樣的:@別人是若被@的人你未關(guān)注的話將被隔離出來(lái),回復(fù)一個(gè)轉(zhuǎn)發(fā)可以被過(guò)濾掉。
這樣在Twitter對(duì)系統(tǒng)是個(gè)挑戰(zhàn)。
1.Pull模式
有針對(duì)性的時(shí)間軸。像twitter.com主頁(yè)和home_timeline的API。你請(qǐng)求它才會(huì)得到數(shù)據(jù)。拉請(qǐng)求的不少:通過(guò)REST API請(qǐng)求從Twitter獲取數(shù)據(jù)。
查詢時(shí)間軸,搜索的API。查詢并盡可能快的返回所有匹配的推特。
2.Push模式
Twitter運(yùn)行著一個(gè)最大的實(shí)時(shí)事件系統(tǒng),出口帶寬22MB/秒。
和Twitter建立一個(gè)連接,它將把150毫秒內(nèi)的所有消息推送給你。
幾乎任何時(shí)候,Push服務(wù)簇上大約有一百萬(wàn)個(gè)連接。
像搜索一樣往出口發(fā)送,所有公共消息都通過(guò)這種方式發(fā)送。
不,你搞不定。(實(shí)際上處理不了那么多)
用戶流連接。 TweetDeck 和Twitter的Mac版都經(jīng)過(guò)這里。登錄的時(shí),Twitter會(huì)查看你的社交圖,只會(huì)推送那些你關(guān)注的人的消息,重建主頁(yè)時(shí)間軸,而不是在持久的連接過(guò)程中使用同一個(gè)時(shí)間軸 。
查詢API,Twitter收到持續(xù)查詢時(shí),如果有新的推特發(fā)布并且符合查詢條件,系統(tǒng)才會(huì)將這條推特發(fā)給相應(yīng)的連接。
3.高觀點(diǎn)下的基于Pull(拉取方式)的時(shí)間軸:
短消息(Tweet)通過(guò)一個(gè)寫API傳遞進(jìn)來(lái)。通過(guò)負(fù)載平衡以及一個(gè)TFE(短消息前段),以及一些其它的沒有被提到的設(shè)施。
這是一條非常直接的路徑。完全預(yù)先計(jì)算主頁(yè)的時(shí)間軸。所有的業(yè)務(wù)邏輯在短消息進(jìn)入的時(shí)候就已經(jīng)被執(zhí)行了。
緊接著扇出(向外發(fā)送短消息)過(guò)程開始處理。進(jìn)來(lái)的短消息被放置到大量的Redis集群上面。每個(gè)短息下在三個(gè)不同的機(jī)器上被復(fù)制3份。在Twitter 每天有大量的機(jī)器故障發(fā)生。
扇出查詢基于Flock的社交圖服務(wù)。Flock 維護(hù)著關(guān)注和被關(guān)注列表。
Flock 返回一個(gè)社交圖給接受者,接著開始遍歷所有存儲(chǔ)在Redis 集群中的時(shí)間軸。
Redis 集群擁有若干T的內(nèi)存。
同時(shí)連接4K的目的地。
在Redis 中使用原生的鏈表結(jié)構(gòu)。
假設(shè)你發(fā)出一條短消息,并且你有20K個(gè)粉絲。扇出后臺(tái)進(jìn)程要做的就是在Redis 集群中找出這20K用戶的位置。接著它開始將短消息的ID 注入到所有這些列表中。因此對(duì)于每次寫一個(gè)短消息,都有跨整個(gè)Redis集群的20K次的寫入操作。
存儲(chǔ)的是短消息的ID, 最初短消息的用戶ID, 以及4個(gè)字節(jié),標(biāo)識(shí)這條短消息是重發(fā)還是回復(fù)還是其它什么東東。
你的主頁(yè)的時(shí)間軸駐扎在Redis集群中,有800條記錄長(zhǎng)。如果你向后翻很多頁(yè),你將會(huì)達(dá)到上限。內(nèi)存是限制資源決定你當(dāng)前的短消息集合可以多長(zhǎng)。
每個(gè)活躍用戶都存儲(chǔ)在內(nèi)存中,用于降低延遲。
活躍用戶是在最近30天內(nèi)登陸的twitter用戶,這個(gè)標(biāo)準(zhǔn)會(huì)根據(jù)twitter的緩存的使用情況而改變。
只有你主頁(yè)的時(shí)間軸會(huì)存儲(chǔ)到磁盤上。
如果你在Redis 集群上失敗了,你將會(huì)進(jìn)入一個(gè)叫做重新構(gòu)建的流程。
查新社交圖服務(wù)。找出你關(guān)注的人。對(duì)每一個(gè)人查詢磁盤,將它們放入Redis中。
MySQL通過(guò)Gizzard 處理磁盤存儲(chǔ),Gizzard 將SQL事務(wù)抽象出來(lái),提供了全局復(fù)制。
通過(guò)復(fù)制3次,當(dāng)一臺(tái)機(jī)器遇到問(wèn)題,不需要在每個(gè)數(shù)據(jù)中心重新構(gòu)建那臺(tái)機(jī)器上的時(shí)間軸。
如果一條短消息是另外一條的轉(zhuǎn)發(fā),那么一個(gè)指向原始短消息的指針將會(huì)存儲(chǔ)下來(lái)。
當(dāng)你查詢你主頁(yè)的時(shí)間軸時(shí)候,時(shí)間軸服務(wù)將會(huì)被查詢。時(shí)間軸服務(wù)只會(huì)找到一臺(tái)你的時(shí)間軸所在的機(jī)器。
高效的運(yùn)行3個(gè)不同的哈希環(huán),因?yàn)槟愕臅r(shí)間軸存儲(chǔ)在3個(gè)地方。
它們找到最快的第一個(gè),并且以最快速度返回。
需要做的妥協(xié)就是,扇出將會(huì)花費(fèi)更多的時(shí)間,但是讀取流程很快。大概從冷緩存到瀏覽器有2秒種時(shí)間。對(duì)于一個(gè)API調(diào)用,大概400ms。
因?yàn)闀r(shí)間軸只包含短消息ID, 它們必須”合成”這些短消息,找到這些短消息的文本。因?yàn)橐唤MID可以做一個(gè)多重獲取,可以并行地從T-bird 中獲取短消息。
Gizmoduck 是用戶服務(wù),Tweetypie 是短消息對(duì)象服務(wù)。每個(gè)服務(wù)都有自己的緩存。用戶緩存是一個(gè)memcache集群 擁有所有用戶的基礎(chǔ)信息。Tweetypie將大概最近一個(gè)半月的短消息存儲(chǔ)在memcache集群中。這些暴露給內(nèi)部的用戶。
在邊界將會(huì)有一些讀時(shí)過(guò)濾。例如,在法國(guó)過(guò)濾掉納粹內(nèi)容,因此在發(fā)送之前,有讀時(shí)內(nèi)容剝離工作。