濮阳杆衣贸易有限公司

主頁(yè) > 知識(shí)庫(kù) > Google 處理采集數(shù)據(jù)的一些分析

Google 處理采集數(shù)據(jù)的一些分析

熱門標(biāo)簽:齊齊哈爾地圖標(biāo)注公司地址 momenta 地圖標(biāo)注 怎么給地圖標(biāo)注位置 電銷外呼系統(tǒng)哪里靠譜 杭州外呼系統(tǒng)出售 欽州銷售外呼系統(tǒng)代理商 揚(yáng)州企業(yè)外呼系統(tǒng)代理品牌 電子地圖標(biāo)注紅旗 外呼系統(tǒng)動(dòng)畫

點(diǎn)擊跟蹤

Google logs 把全部用戶在其服務(wù)產(chǎn)品上的引導(dǎo)點(diǎn)擊(廣告,行動(dòng),功能點(diǎn)擊等等)都記錄起來。

形式 -隨著用戶輸入數(shù)據(jù)的形式直接進(jìn)入(用戶名,密碼等),Google 記錄了時(shí)間和日期以及提交的位置。

注冊(cè) Google 帳號(hào)時(shí)的表單

輸入類型是隱藏的,使用戶不會(huì)看到或進(jìn)入特定領(lǐng)域的數(shù)據(jù)

向用戶發(fā)送后提交 (隱藏) 的位置

輸入類型是隱藏的,所以用戶不會(huì)看到或進(jìn)入到特定數(shù)據(jù)里頭。

用戶使用引用數(shù)據(jù),并通過表格獲得怎樣才把”注冊(cè)”放在什么位置用戶會(huì)點(diǎn)擊

Cookies

Google 把它所有網(wǎng)站屬性的 Cookie 都用上了,此外,他還留下了廣告 Cookie 來跟蹤用戶在網(wǎng)站上的行為。通過這種方法,Google 就可以在有 doubleclick 和AdSense 廣告的網(wǎng)站下跟蹤該網(wǎng)站上任何一個(gè)用戶的網(wǎng)站行為。

存儲(chǔ)的cookies列表

存儲(chǔ)在日志文件的服務(wù)器請(qǐng)求

每一個(gè)向 Google 服務(wù)器發(fā)出的請(qǐng)求都存儲(chǔ)在日志文件里頭,而存儲(chǔ)的內(nèi)容取決于發(fā)出請(qǐng)求的類型。

日志文件

URL - http://www.google.com/search?hl=enq=seomozie=UTF-8

從用戶付出的請(qǐng)求而獲得的 IP 地址,可以根據(jù)這個(gè)IP 地址定位該用戶的具體地理位置。

日期,時(shí)間和時(shí)區(qū)偏移的用戶

用戶的語(yǔ)言

用戶的操作系統(tǒng)

用戶的瀏覽器

其他信息就沒有那么重要但是必須具體的描述向服務(wù)器發(fā)出的請(qǐng)求,服務(wù)器的響應(yīng)和轉(zhuǎn)譯引擎。

Javascript

Google 有小部分的 JavaScript 已經(jīng)嵌入到互聯(lián)網(wǎng)上眾多的網(wǎng)站上面。當(dāng)用戶的瀏覽器執(zhí)行背景中的腳本時(shí)候,Google 就能夠知道很多關(guān)于這個(gè)用戶瀏覽習(xí)慣等重要信息(地理位置,操作系統(tǒng),瀏覽器類型和版本等)

網(wǎng)站信標(biāo)

Google 向很多結(jié)算屏幕嵌入小尺寸的透明 gif 圖片,就好像 JavaScript 一樣,一個(gè)用戶下載隱形的圖片并且向 Google 發(fā)送他們的電腦信息。

網(wǎng)站信標(biāo)樣例(什么?你看不到?這才是重點(diǎn))

了解一下 Google 是怎樣處理這些數(shù)據(jù)

存儲(chǔ)

Google 使用一個(gè)內(nèi)部數(shù)據(jù)庫(kù)叫 BigTable 擴(kuò)展到近乎 100W 個(gè)服務(wù)器

Google Data In 2006

 

Data

Size (TB)

Crawl Index

800

Google Analytics

200

Google Base

2

Google Earth

70

Orkut

9

Personalized Search

4

這壓縮的數(shù)據(jù)的大小接近 TB(1024GB)。而 Google 透露的數(shù)據(jù)大小超過 1PB(1048576GB)。這甚至不需要考慮 AdSense,Gmail,Google Map,街景,Google圖片,或者其他私有數(shù)據(jù)庫(kù)。并且這些數(shù)據(jù)都是超過2年前的。

大量的數(shù)據(jù)分析

這就有點(diǎn)像 Charlie and the Chocolate Factory (電影《查理與巧克力工廠》)。我們都知道有很多數(shù)據(jù)都進(jìn)入到 Google 那里,我們也知道有大量處理好的數(shù)據(jù)會(huì)導(dǎo)出來。我們就只是不知道兩者之間是發(fā)生了什么,是怎么轉(zhuǎn)換的。

我們也知道 Google 本身有很多運(yùn)算法則組織他的數(shù)據(jù),Page Rank 就是最出名的了。據(jù)說,Google 也有很多復(fù)雜的 spam 的過濾系統(tǒng),內(nèi)容復(fù)制過濾系統(tǒng),類型偵查運(yùn)算法則,自然語(yǔ)言解析程序,圖像識(shí)別軟件,和其他大量的復(fù)雜的軟件。

永久備份

Google 上的數(shù)據(jù)最終的棲息地可能會(huì)在永久存儲(chǔ)。Google 的隱私政策提示某些用戶數(shù)據(jù)永遠(yuǎn)都不會(huì)完全被刪除,因?yàn)橐呀?jīng)被永久的備份。

理解Google收集特定用戶的數(shù)據(jù)情況

以下都是一些當(dāng)用戶與很多網(wǎng)站交互的時(shí)候 Google 收集到的用戶的資料的清單列表。這意味著其實(shí)有更多的數(shù)據(jù)被 Google 收集而卻又沒有公開的。不過其實(shí)無(wú)知就是幸福,當(dāng)你看完之后,你或許會(huì)感覺很不爽:

Google用戶數(shù)據(jù)收集情況匯總:Google用戶數(shù)據(jù)收集情況匯總

你能相信 Google 會(huì)幫你保密一切信息么? 你敢相信 Google 會(huì)遵守所有保密要求么?

原文地址:http://semwatch.org/2009/11/evil-of-google-data

標(biāo)簽:陜西 嘉峪關(guān) 崇左 陽(yáng)江 烏魯木齊 南京 百色 中衛(wèi)

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Google 處理采集數(shù)據(jù)的一些分析》,本文關(guān)鍵詞  Google,處理,采集,數(shù)據(jù),的,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Google 處理采集數(shù)據(jù)的一些分析》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于Google 處理采集數(shù)據(jù)的一些分析的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    永济市| 聂拉木县| 曲水县| 灯塔市| 进贤县| 永济市| 道真| 托克逊县| 青州市| 微博| 从化市| 肥东县| 榕江县| 漳州市| 曲水县| 麻阳| 海门市| 安龙县| 时尚| 上栗县| 攀枝花市| 左权县| 博野县| 新昌县| 建昌县| 韶关市| 随州市| 崇阳县| 溧水县| 庐江县| 曲沃县| 三江| 海丰县| 栾川县| 海门市| 澄城县| 旺苍县| 厦门市| 信宜市| 拜城县| 潞城市|