欢乐颂小说在线阅读,小说阅读网免费小说

主頁 > 知識庫 > Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案

Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案

看代碼吧~

import gc
for x in list(locals().keys())[:]:
    del locals()[x]
# del all_s_x, AE, AE_split, x_ticks, split
gc.collect()

補(bǔ)充：Python讀取大文件的"坑“與內(nèi)存占用檢測

python讀寫文件的api都很簡單，一不留神就容易踩”坑“。筆者記錄一次踩坑歷程，并且給了一些總結(jié)，希望到大家在使用python的過程之中，能夠避免一些可能產(chǎn)生隱患的代碼。

1.read()與readlines()：

隨手搜索python讀寫文件的教程，很經(jīng)常看到read()與readlines()這對函數(shù)。所以我們會常常看到如下代碼：

with open(file_path, 'rb') as f:
    sha1Obj.update(f.read())

with open(file_path, 'rb') as f:
    for line in f.readlines():
        print(line)

這對方法在讀取小文件時確實(shí)不會產(chǎn)生什么異常，但是一旦讀取大文件，很容易會產(chǎn)生MemoryError，也就是內(nèi)存溢出的問題。

Why Memory Error？

我們首先來看看這兩個方法：

當(dāng)默認(rèn)參數(shù)size=-1時，read方法會讀取直到EOF，當(dāng)文件大小大于可用內(nèi)存時，自然會發(fā)生內(nèi)存溢出的錯誤。

同樣的，readlines會構(gòu)造一個list。list而不是iter，所以所有的內(nèi)容都會保存在內(nèi)存之上，同樣也會發(fā)生內(nèi)存溢出的錯誤。

2.正確的用法：

在實(shí)際運(yùn)行的系統(tǒng)之中如果寫出上述代碼是十分危險(xiǎn)的，這種”坑“十分隱蔽。所以接下來我們來了解一下正確用，正確的用法也很簡單，依照API之中對函數(shù)的描述來進(jìn)行對應(yīng)的編碼就OK了：

如果是二進(jìn)制文件推薦用如下這種寫法，可以自己指定緩沖區(qū)有多少byte。顯然緩沖區(qū)越大，讀取速度越快。

with open(file_path, 'rb') as f:
    while True:
        buf = f.read(1024)
        if buf:    
            sha1Obj.update(buf)
        else:
            break

而如果是文本文件，則可以用readline方法或直接迭代文件（python這里封裝了一個語法糖，二者的內(nèi)生邏輯一致，不過顯然迭代文件的寫法更pythonic ）每次讀取一行，效率是比較低的。筆者簡單測試了一下，在3G文件之下，大概性能和前者差了20%.

with open(file_path, 'rb') as f:
    while True:
        line = f.readline()
        if buf:    
            print(line)
        else:
            break
with open(file_path, 'rb') as f:
    for line in f:
        print(line)

3.內(nèi)存檢測工具的介紹：

對于python代碼的內(nèi)存占用問題，對于代碼進(jìn)行內(nèi)存監(jiān)控十分必要。這里筆者這里推薦兩個小工具來檢測python代碼的內(nèi)存占用。

memory_profiler

首先先用pip安裝memory_profiler

pip install memory_profiler

memory_profiler是利用python的裝飾器工作的，所以我們需要在進(jìn)行測試的函數(shù)上添加裝飾器。

from hashlib import sha1
import sys
@profile
def my_func():
    sha1Obj = sha1()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                sha1Obj.update(buf)
            else:
                break
    print(sha1Obj.hexdigest())
if __name__ == '__main__':
    my_func()

之后在運(yùn)行代碼時加上** -m memory_profiler**

就可以了解函數(shù)每一步代碼的內(nèi)存占用了

guppy

依樣畫葫蘆，仍然是通過pip先安裝guppy

pip install guppy

之后可以在代碼之中利用guppy直接打印出對應(yīng)各種python類型（list、tuple、dict等）分別創(chuàng)建了多少對象，占用了多少內(nèi)存。

from guppy import hpy
import sys
def my_func():
    mem = hpy()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                print(mem.heap())
            else:
                break

如下圖所示，可以看到打印出對應(yīng)的內(nèi)存占用數(shù)據(jù)：

通過上述兩種工具guppy與memory_profiler可以很好地來監(jiān)控python代碼運(yùn)行時的內(nèi)存占用問題。

4.小結(jié)：

python是一門崇尚簡潔的語言，但是正是因?yàn)樗暮啙嵎炊嗔嗽S多需要仔細(xì)推敲和思考的細(xì)節(jié)。希望大家在日常工作與學(xué)習(xí)之中也能多對一些細(xì)節(jié)進(jìn)行總結(jié)，少踩一些不必要的“坑”。

以上為個人經(jīng)驗(yàn)，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

python入門for循環(huán)嵌套理解學(xué)習(xí)
python入門while循環(huán)語句理解學(xué)習(xí)
Python for 循環(huán)語句的使用
Python基礎(chǔ)之循環(huán)語句相關(guān)知識總結(jié)
python for循環(huán)賦值問題
Python循環(huán)結(jié)構(gòu)詳解
Python基礎(chǔ)教程之循環(huán)語句（for、while和嵌套循環(huán)）
python 實(shí)現(xiàn)循環(huán)定義、賦值多個變量的操作
10張動圖學(xué)會python循環(huán)與遞歸問題
Python 循環(huán)函數(shù)詳細(xì)介紹

標(biāo)簽：六盤水山東常州宿遷蘭州江蘇駐馬店成都

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案》，本文關(guān)鍵詞 Python,循環(huán),讀取,數(shù)據(jù),內(nèi)存,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。