濮阳杆衣贸易有限公司

主頁(yè) > 知識(shí)庫(kù) > pandas提升計(jì)算效率的一些方法匯總

pandas提升計(jì)算效率的一些方法匯總

熱門標(biāo)簽:所得系統(tǒng)電梯怎樣主板設(shè)置外呼 地圖標(biāo)注面積 朝陽(yáng)手機(jī)外呼系統(tǒng) 佛山400電話辦理 市場(chǎng)上的電銷機(jī)器人 北瀚ai電銷機(jī)器人官網(wǎng)手機(jī)版 儋州電話機(jī)器人 小蘇云呼電話機(jī)器人 北京電銷外呼系統(tǒng)加盟

前言

Pandas是為一次性處理整個(gè)行或列的矢量化操作而設(shè)計(jì)的,循環(huán)遍歷每個(gè)單元格、行或列并不是它的設(shè)計(jì)用途。所以,在使用Pandas時(shí),你應(yīng)該考慮高度可并行化的矩陣運(yùn)算。

一、避免使用for循環(huán)

盡量使用列號(hào)或者行號(hào)進(jìn)行矩陣檢索,避免使用for循環(huán)。

1.1使用for循環(huán)

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'
def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()
a = read_csv(path)
for i in range(10000):
    b = a.iloc[i]
end_time = datetime.datetime.now()

print(end_time-start_time)

耗時(shí):0:00:02.455211

1.2使用行號(hào)檢索

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

b = a.iloc[10000]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時(shí):0:00:00.464756

二、使用for循環(huán)的條件下提高效率

2.0 如果必須使用for循環(huán)如何提高效率

我們可以做的最簡(jiǎn)單但非常有價(jià)值的加速是使用Pandas的內(nèi)置 .iterrows() 函數(shù)。

在上一節(jié)中編寫for循環(huán)時(shí),我們使用了 range() 函數(shù)。然而,當(dāng)我們?cè)赑ython中對(duì)大范圍的值進(jìn)行循環(huán)時(shí),生成器往往要快得多。

Pandas的 .iterrows() 函數(shù)在內(nèi)部實(shí)現(xiàn)了一個(gè)生成器函數(shù),該函數(shù)將在每次迭代中生成一行Dataframe。更準(zhǔn)確地說,.iterrows() 為DataFrame中的每一行生成(index, Series)的對(duì)(元組)。這實(shí)際上與在原始Python中使用 enumerate() 之類的東西是一樣的,但運(yùn)行速度要快得多!

生成器(Generators)
生成器函數(shù)允許你聲明一個(gè)行為類似迭代器的函數(shù),也就是說,它可以在for循環(huán)中使用。這大大簡(jiǎn)化了代碼,并且比簡(jiǎn)單的for循環(huán)更節(jié)省內(nèi)存。

當(dāng)你想要處理一個(gè)龐大的列表時(shí),比如10億個(gè)浮點(diǎn)數(shù),問題就出現(xiàn)了。使用for循環(huán),在內(nèi)存中創(chuàng)建了大量的內(nèi)存huge列表,并不是每個(gè)人都有無限的RAM來存儲(chǔ)這樣的東西!

生成器將創(chuàng)建元素時(shí),僅在需要時(shí)將它們存儲(chǔ)在內(nèi)存中。一次一個(gè)。這意味著,如果必須創(chuàng)建10億個(gè)浮點(diǎn)數(shù),那么只能一次將它們存儲(chǔ)在內(nèi)存中。Python中的range()函數(shù)使用生成器來構(gòu)建列表。

也就是說,如果你想多次迭代列表并且它足夠小以適應(yīng)內(nèi)存,那么使用for循環(huán)和range函數(shù)會(huì)更好。這是因?yàn)槊看卧L問list值時(shí),生成器和range都會(huì)重新生成它們,而range是一個(gè)靜態(tài)列表,并且內(nèi)存中已存在整數(shù)以便快速訪問。

2.1使用range

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for data_row in range(a.shape[0]):
    b = a.iloc[data_row]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時(shí):0:00:07.642816

2.2使用 .iterrows() 代替 range

import os
import pandas as pd
import datetime
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for index,data_row in a.iterrows():
    b = data_row

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時(shí):0:00:03.513161

三、使用.apply

iterrows()函數(shù)極大地提高了速度,但我們還遠(yuǎn)遠(yuǎn)沒有完成。請(qǐng)始終記住,當(dāng)使用為向量操作設(shè)計(jì)的庫(kù)時(shí),可能有一種方法可以在完全沒有for循環(huán)的情況下最高效地完成任務(wù)。

為我們提供此功能的Pandas功能是 .apply() 函數(shù)。apply()函數(shù)接受另一個(gè)函數(shù)作為輸入,并沿著DataFrame的軸(行、列等)應(yīng)用它。在傳遞函數(shù)的這種情況下,lambda通??梢苑奖愕貙⑺袃?nèi)容打包在一起。

參考鏈接

四、其他方式

博客鏈接

總結(jié)

到此這篇關(guān)于pandas提升計(jì)算效率的文章就介紹到這了,更多相關(guān)pandas計(jì)算效率內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Pandas數(shù)據(jù)分析的一些常用小技巧
  • python之pandas用法大全
  • Python pandas用法最全整理
  • Python Pandas常用函數(shù)方法總結(jié)
  • Python遍歷pandas數(shù)據(jù)方法總結(jié)
  • Python pandas常用函數(shù)詳解
  • Python使用Pandas庫(kù)常見操作詳解
  • 11個(gè)Python Pandas小技巧讓你的工作更高效(附代碼實(shí)例)
  • 詳解pandas獲取Dataframe元素值的幾種方法
  • python數(shù)據(jù)分析必會(huì)的Pandas技巧匯總

標(biāo)簽:商丘 龍巖 江蘇 寧夏 金融催收 酒泉 云南 定西

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《pandas提升計(jì)算效率的一些方法匯總》,本文關(guān)鍵詞  pandas,提升,計(jì)算,效率,的,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《pandas提升計(jì)算效率的一些方法匯總》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于pandas提升計(jì)算效率的一些方法匯總的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    通化县| 定州市| 静海县| 尖扎县| 洛南县| 嵩明县| 分宜县| 庆阳市| 常熟市| 镇远县| 稻城县| 杭锦旗| 清水县| 钟山县| 祁阳县| 沭阳县| 平塘县| 故城县| 贵德县| 雅江县| 西盟| 桂平市| 太原市| 长宁区| 河西区| 酒泉市| 新巴尔虎左旗| 东丰县| 合肥市| 朔州市| 余姚市| 长顺县| 天峻县| 滨海县| 唐河县| 普兰县| 灯塔市| 黔东| 常山县| 团风县| 鲁山县|