濮阳杆衣贸易有限公司

主頁 > 知識庫 > Python爬蟲數據的分類及json數據使用小結

Python爬蟲數據的分類及json數據使用小結

熱門標簽:原裝電話機器人 工廠智能電話機器人 在哪里辦理400電話號碼 西藏智能外呼系統(tǒng)五星服務 千陽自動外呼系統(tǒng) 江蘇客服外呼系統(tǒng)廠家 清遠360地圖標注方法 平頂山外呼系統(tǒng)免費 400電話申請服務商選什么

數據的結構化分類

       一般來講對我們而言,需要抓取的是某個網站或者某個應用的內容,提取有用的價值。內容一般分為三部分,結構化的數據、半結構化的數據和非機構化數據。
1.結構化數據:
       可以用統(tǒng)一的結構加以表示的數據??梢允褂藐P系型數據庫表示和存儲,表現(xiàn)為二維形式的數據,一般特點是:數據以行為單位,一行數據表示一個實體的信息,每一行的數據的屬性是相同的。
2.半結構化數據:
       結構化數據的一種形式,并不符合關系型數據庫或其他數據表的形式關聯(lián)起來的數據模型結構,但包含相關標記,用來分隔語義元素以及對記錄和字段進行分層。因此他也被成為自描述的結構。常見的半結構數據有:html,xml和json等、實際上是以樹或者圖的結構來存儲的。
       對于半結構化數據,節(jié)點中屬性的順序是不重要的,不同的半結構化數據的屬性的個數是不一樣的。這樣的數據格式,可以自由的表達很多有用的信息,包含自描述信息。所以半結構化數據的擴展性很好,特別適合于在互聯(lián)網中大規(guī)模傳播。
3.非結構化數據
       就是沒有固定的結構。各種文檔,圖片,視頻或者音頻都屬于非結構化數據。對于這類數據,我們一般直接整體進行存儲,而且一般存儲為二進制形式。

json數據

       json(JavaScript Object Notation,JS對象標記)是一種輕量級的數據交換格式。他基于ECMAScript(w3c制定的JS規(guī)范)的一個子集,采用完全獨立于編程語言的文本格式來存儲和表示數據。簡介和清晰的層次結構使得JSON成為理想的數據交換語言。
       特點:易于閱讀、易于機器生成、有效提升網絡速度。
       JSON語法規(guī)則:在JS語言中,一切都是對象。因此,任何支持的類型都可以通過json來表示。例如字符串、數字,對象,數組。
Js中對象和數組是比較特殊并且常用的兩種類型:
       1.對象表示為鍵值對{name:'zhangsan',age:'7'}
       2.數據有逗號分隔[1,2,3,4,5]
       3.花括號保存對象
       4.方括號保存數組。
js的對象就相當于python中的字典
js的數組就相當于Python中的列表
       因為json用來存儲js的對象或者數組,所以在Python中我們可以將json轉化為list或者dict。

解析json的包json:

       json.dumps(python的list或者dict)---->(返回值)---->json字符串。
       json.loads(json字符串)------>(返回值)----->python的list或者dict.

       json.dump(list/dict,fp)—>list,或者字典保存到json文件中。
       json.load(fp)—>list/dict:從json文件中讀出json數據。

       json鍵值對是用來保存js對象的一種方式,和js對象的寫法頁大同小異,比如:
{“firstName”:“Json”,“Class”:“aid1111”}等價于下面這條js語句:{firstName:“Json”,Class:“aid1111”}。
       很多人搞不清楚json和js對象的關系,甚至誰是誰都不清楚。其實可以這么理解:【JSON是JS對象的字符串表達式,他使用文本形式表示一個JS對象的信息,本質是一個字符串?!?br />        如var obj = {a:“hello”,b:“World”}這是一個js對象。注意,鍵名也是可以用引號包裹的var json = ' {“a”:“hello”,“b”:“World”}'這是一個json字符串,本質上是一個字符串。
       JSON作為數據包格式傳輸的時候具有更高的效率,這是因為JSON不想xml那樣具有嚴格的閉合標簽,這就讓有效數據量與總數據包比大大提升,從而減少同等數據流量的情況下,網絡的傳輸的壓力大大減低。

以上就是Python爬蟲數據的分類及json數據使用小結的詳細內容,更多關于Python爬蟲數據的分類及json數據使用的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • python 類相關概念理解
  • python可變對象,不可變對象詳解
  • Python3中函數參數傳遞方式實例詳解
  • 一篇文章教你掌握python數據類型的底層實現(xiàn)
  • Python 類,對象,數據分類,函數參數傳遞詳解

標簽:安慶 錦州 日照 西安 股票 隨州 天水 白城

巨人網絡通訊聲明:本文標題《Python爬蟲數據的分類及json數據使用小結》,本文關鍵詞  Python,爬蟲,數據,的,分類,;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python爬蟲數據的分類及json數據使用小結》相關的同類信息!
  • 本頁收集關于Python爬蟲數據的分類及json數據使用小結的相關信息資訊供網民參考!
  • 推薦文章
    庄河市| 江油市| 湘阴县| 汽车| 万州区| 宝丰县| 余姚市| 油尖旺区| 手机| 眉山市| 隆回县| 南皮县| 北碚区| 水城县| 吉木萨尔县| 延长县| 南郑县| 临海市| 卫辉市| 田林县| 凯里市| 门源| 巴林左旗| 金乡县| 临高县| 峨眉山市| 广州市| 汝阳县| 偃师市| 平邑县| 城口县| 新巴尔虎左旗| 南昌县| 榆中县| 亚东县| 静海县| 耒阳市| 南陵县| 金沙县| 阳泉市| 高密市|