在運行任何代碼之前,Lua都會把源代碼翻譯(預編譯)成一種內(nèi)部的格式。這種格式是一個虛擬機指令序列,與真實的CPU所執(zhí)行的機器碼類似。之后,這個內(nèi)部格式將會被由一個包含巨大的switch結構的while循環(huán)組成的C代碼解釋執(zhí)行,switch中的每個case對應一條指令。
可能你已經(jīng)在別處了解到,從5.0版開始,Lua使用一種基于寄存器的虛擬機。這里所說的虛擬機“寄存器”與真正的CPU寄存器并不相同,因為后者難于移植,而且數(shù)量非常有限。Lua使用一個棧(通過一個數(shù)組和若干索引來實現(xiàn))來提供寄存器。每個活動的函數(shù)都有一個激活記錄,也就是棧上的一個可供該函數(shù)存儲寄存器的片段。因此,每個函數(shù)都有自己的寄存器[1]。一個函數(shù)可以使用最多250個寄存器,因為每個指令只有8位用于引用一個寄存器。
由于寄存器數(shù)目眾多,因此Lua預編譯器可以把所有的局部變量都保存在寄存器里。這樣帶來的好處是,訪問局部變量會非???。例如,如果a和b是局部變量,語句
復制代碼 代碼如下:
a = a + b
將只會生成一個指令:
復制代碼 代碼如下:
ADD 0 0 1
(假設a和b在寄存器里分別對應0和1)。作為對比,如果a和b都是全局變量,那么這段代碼將會變成:
復制代碼 代碼如下:
GETGLOBAL 0 0 ; a
GETGLOBAL 1 1 ; b
ADD 0 0 1
SETGLOBAL 0 0 ; a
因此,可以很簡單地得出在Lua編程時最重要的性能優(yōu)化方式:使用局部變量!
如果你想壓榨程序的性能,有很多地方都可以使用這個方法。例如,如果你要在一個很長的循環(huán)里調(diào)用一個函數(shù),可以預先將這個函數(shù)賦值給一個局部變量。比如說如下代碼:
復制代碼 代碼如下:
for i = 1, 1000000 do
local x = math.sin(i)
end
比下面這段要慢30%:
復制代碼 代碼如下:
local sin = math.sin
for i = 1, 1000000 do
local x = sin(i)
end
訪問外部局部變量(或者說,函數(shù)的上值)沒有直接訪問局部變量那么快,但依然比訪問全局變量要快一些。例如下面的代碼片段:
復制代碼 代碼如下:
function foo (x)
for i = 1, 1000000 do
x = x + math.sin(i)
end
return x
end
print(foo(10))
可以優(yōu)化為在foo外聲明一次sin:
復制代碼 代碼如下:
local sin = math.sin
function foo (x)
for i = 1, 1000000 do
x = x + sin(i)
end
return x
end
print(foo(10))
第二段代碼比前者要快30%。
盡管比起其他語言的編譯器來說,Lua的編譯器非常高效,但是編譯依然是重體力活。因此,應該盡可能避免運行時的編譯(例如使用loadstring函數(shù)),除非你真的需要有如此動態(tài)要求的代碼,例如由用戶輸入的代碼。只有很少的情況下才需要動態(tài)編譯代碼。
例如,下面的代碼創(chuàng)建一個包含返回常數(shù)值1到100000的若干個函數(shù)的表:
復制代碼 代碼如下:
local lim = 10000
local a = {}
for i = 1, lim do
a[i] = loadstring(string.format("return %d", i))
end
print(a[10]()) --> 10
執(zhí)行這段代碼需要1.4秒。
通過使用閉包,我們可以避免使用動態(tài)編譯。下面的代碼只需要十分之一的時間完成相同的工作:
復制代碼 代碼如下:
function fk (k)
return function () return k end
end
local lim = 100000
local a = {}
for i = 1, lim do a[i] = fk(i) end
print(a[10]()) --> 10
您可能感興趣的文章:- Lua性能優(yōu)化技巧(一):前言
- Lua性能優(yōu)化技巧(三):關于表
- Lua性能優(yōu)化技巧(四):關于字符串
- Lua性能優(yōu)化技巧(五):削減、重用和回收
- Lua性能優(yōu)化技巧(六):最后的提示