遮天辰东小说,小说阅读网免费小说,欢乐颂小说txt

主頁 > 知識(shí)庫 > Pandas加速代碼之避免使用for循環(huán)

Pandas加速代碼之避免使用for循環(huán)

前言

使用Pandas dataframe執(zhí)行數(shù)千甚至數(shù)百萬次計(jì)算仍然是一項(xiàng)挑戰(zhàn)。你不能簡(jiǎn)單的將數(shù)據(jù)丟進(jìn)去，編寫Python for循環(huán)，然后希望在合理的時(shí)間內(nèi)處理數(shù)據(jù)。

Pandas是為一次性處理整個(gè)行或列的矢量化操作而設(shè)計(jì)的，循環(huán)遍歷每個(gè)單元格、行或列并不是它的設(shè)計(jì)用途。所以，在使用Pandas時(shí)，你應(yīng)該考慮高度可并行化的矩陣運(yùn)算。

本文將教你如何使用Pandas設(shè)計(jì)使用的方式，并根據(jù)矩陣運(yùn)算進(jìn)行思考。在此過程中，我們將向你展示一些實(shí)用的節(jié)省時(shí)間的技巧和竅門，這些技巧和技巧將使你的Pandas代碼比那些可怕的Python for循環(huán)更快地運(yùn)行！

數(shù)據(jù)準(zhǔn)備

在本文中，我們將使用經(jīng)典的鳶尾花數(shù)據(jù)集。

現(xiàn)在讓我們建立一個(gè)標(biāo)準(zhǔn)線，用Python for循環(huán)來測(cè)量我們的速度。我們將通過循環(huán)遍歷每一行來設(shè)置要在數(shù)據(jù)集上執(zhí)行的計(jì)算，然后測(cè)量整個(gè)操作的速度。這將為我們提供一個(gè)基準(zhǔn)，以了解我們的新優(yōu)化對(duì)我們有多大幫助。

在上面的代碼中，我們創(chuàng)建了一個(gè)基本函數(shù)，它使用If-Else語句根據(jù)花瓣的長度選擇花的類。我們編寫了一個(gè)for循環(huán)，通過循環(huán)dataframe對(duì)每一行應(yīng)用函數(shù)，然后測(cè)量循環(huán)的總時(shí)間。

在i7-8700k計(jì)算機(jī)上，循環(huán)運(yùn)行5次平均需要0.01345秒。

使用.iterrows()

我們可以做的最簡(jiǎn)單但非常有價(jià)值的加速是使用Pandas的內(nèi)置 .iterrows() 函數(shù)。

在上一節(jié)中編寫for循環(huán)時(shí)，我們使用了 range() 函數(shù)。然而，當(dāng)我們?cè)赑ython中對(duì)大范圍的值進(jìn)行循環(huán)時(shí)，生成器往往要快得多。

Pandas的 .iterrows() 函數(shù)在內(nèi)部實(shí)現(xiàn)了一個(gè)生成器函數(shù)，該函數(shù)將在每次迭代中生成一行Dataframe。更準(zhǔn)確地說，.iterrows() 為DataFrame中的每一行生成(index, Series)的對(duì)（元組）。這實(shí)際上與在原始Python中使用 enumerate() 之類的東西是一樣的，但運(yùn)行速度要快得多！

生成器（Generators）

生成器函數(shù)允許你聲明一個(gè)行為類似迭代器的函數(shù)，也就是說，它可以在for循環(huán)中使用。這大大簡(jiǎn)化了代碼，并且比簡(jiǎn)單的for循環(huán)更節(jié)省內(nèi)存。

考慮這樣一個(gè)例子，我們想把1到1000之間的所有數(shù)字加起來。下面代碼的第一部分說明了如何使用for循環(huán)來實(shí)現(xiàn)這一點(diǎn)。

如果列表很小，比如長度為1000，那就很好了。當(dāng)你想要處理一個(gè)龐大的列表時(shí)，比如10億個(gè)浮點(diǎn)數(shù)，問題就出現(xiàn)了。使用for循環(huán)，在內(nèi)存中創(chuàng)建了大量的內(nèi)存huge列表，并不是每個(gè)人都有無限的RAM來存儲(chǔ)這樣的東西！Python中的range()函數(shù)也做同樣的事情，它在內(nèi)存中構(gòu)建列表

代碼的第(2)節(jié)演示了使用Python生成器對(duì)數(shù)字列表求和。生成器將創(chuàng)建元素并僅在需要時(shí)將它們存儲(chǔ)在內(nèi)存中。一次一個(gè)。這意味著，如果必須創(chuàng)建10億個(gè)浮點(diǎn)數(shù)，那么只能一次將它們存儲(chǔ)在內(nèi)存中。Python中的xrange()函數(shù)使用生成器來構(gòu)建列表。

也就是說，如果你想多次迭代列表并且它足夠小以適應(yīng)內(nèi)存，那么使用for循環(huán)和range函數(shù)會(huì)更好。這是因?yàn)槊看卧L問list值時(shí)，生成器和xrange都會(huì)重新生成它們，而range是一個(gè)靜態(tài)列表，并且內(nèi)存中已存在整數(shù)以便快速訪問。

下面我們修改了代碼，使用.iterrows()代替常規(guī)的for循環(huán)。在我上一節(jié)測(cè)試所用的同一臺(tái)機(jī)器上，平均運(yùn)行時(shí)間為0.005892秒，速度提高了2.28倍！

使用.apply()

iterrows()函數(shù)極大地提高了速度，但我們還遠(yuǎn)遠(yuǎn)沒有完成。請(qǐng)始終記住，當(dāng)使用為向量操作設(shè)計(jì)的庫時(shí)，可能有一種方法可以在完全沒有for循環(huán)的情況下最高效地完成任務(wù)。

為我們提供此功能的Pandas功能是 .apply() 函數(shù)。apply()函數(shù)接受另一個(gè)函數(shù)作為輸入，并沿著DataFrame的軸（行、列等）應(yīng)用它。在傳遞函數(shù)的這種情況下，lambda通?？梢苑奖愕貙⑺袃?nèi)容打包在一起。

在下面的代碼中，我們已經(jīng)完全用.apply()和lambda函數(shù)替換了for循環(huán)，打包所需的計(jì)算。這段代碼的平均運(yùn)行時(shí)間是0.0020897秒，比原來的for循環(huán)快6.44倍。

apply()之所以快得多，是因?yàn)樗趦?nèi)部嘗試遍歷Cython迭代器。如果你的函數(shù)針對(duì)Cython進(jìn)行了優(yōu)化，.apply()將使你的速度更快。額外的好處是，使用內(nèi)置函數(shù)可以生成更干凈、更可讀的代碼！

最后

前面我們提到過，如果你正在使用一個(gè)為向量化操作設(shè)計(jì)的庫，你應(yīng)該總是在沒有for循環(huán)的情況下尋找一種方法來進(jìn)行任何計(jì)算。

類似地，以這種方式設(shè)計(jì)的許多庫，包括Pandas，都將具有方便的內(nèi)置函數(shù)，可以執(zhí)行你正在尋找的精確計(jì)算，但速度更快。

Pandas的 .cut() 函數(shù)將一組bin定義為輸入，這些bin定義了If-Else的每個(gè)范圍和一組標(biāo)簽。這與我們用 compute_class() 函數(shù)手動(dòng)編寫有完全相同的操作。

看下面的代碼，看看.cut()是如何工作的。我們又一次得到了更干凈、更可讀的代碼。最后，.cut()函數(shù)平均運(yùn)行0.001423秒，比原來的for循環(huán)快了9.39倍!

好了，到此這篇關(guān)于Pandas加速代碼之避免使用for循環(huán)的文章就介紹到這了,更多相關(guān)Pandas for循環(huán)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

pandas中apply和transform方法的性能比較及區(qū)別介紹
Pandas對(duì)DataFrame單列/多列進(jìn)行運(yùn)算(map, apply, transform, agg)

標(biāo)簽：金融催收龍巖江蘇云南定西酒泉商丘寧夏

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《Pandas加速代碼之避免使用for循環(huán)》，本文關(guān)鍵詞 Pandas,加速,代碼,之,避免,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。