機(jī)器學(xué)習(xí)中,當(dāng)我們?cè)谶M(jìn)行數(shù)據(jù)預(yù)處理的時(shí)候,對(duì)于標(biāo)簽列非字符的數(shù)據(jù),我們往往需要將其轉(zhuǎn)換成字符,因?yàn)橛械乃惴赡懿恢С址菙?shù)字類型來(lái)做特征。
那么怎么快捷地來(lái)著這個(gè)轉(zhuǎn)換呢,請(qǐng)看我的示例:
1.構(gòu)建測(cè)試數(shù)據(jù)
import pandas as pd
array = ['good','bad','well','bad','good','good','well','good']
2.數(shù)據(jù)轉(zhuǎn)換下,并獲取標(biāo)簽列的字典
df = pd.DataFrame(array,columns=['status'])
status_dict = df['status'].unique().tolist()
3.使用函數(shù)進(jìn)行轉(zhuǎn)換
df['transfromed']=df['status'].apply(lambda x : status_dict.index(x))
這樣,就將標(biāo)簽列處理好了哈
等用完之后,再轉(zhuǎn)回來(lái)
df['transfromed1']= df['transfromed'].apply(lambda x : status_dict[x])
補(bǔ)充:pandas factorize將字符串特征轉(zhuǎn)化為數(shù)字特征
將原始數(shù)據(jù)中的字符串特征轉(zhuǎn)化為模型可以識(shí)別的數(shù)字特征可是使用pandas自帶的factorzie方法。
原始數(shù)據(jù)的job特征值如下
都是字符串特征,無(wú)法用于訓(xùn)練,當(dāng)然可以單獨(dú)建立map硬編碼處理,但是pandas已經(jīng)封裝好了相應(yīng)的方法。
data = pd.read_csv("data/test_set.csv")
data["job"] = pd.factorize(data["job"])[0].astype(np.uint16)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
您可能感興趣的文章:- pandas 對(duì)每一列數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的方法
- pandas數(shù)據(jù)處理進(jìn)階詳解
- Pandas 數(shù)據(jù)處理,數(shù)據(jù)清洗詳解
- 使用pandas模塊實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化操作