濮阳杆衣贸易有限公司

主頁 > 知識庫 > Python3 常用數(shù)據(jù)標(biāo)準(zhǔn)化方法詳解

Python3 常用數(shù)據(jù)標(biāo)準(zhǔn)化方法詳解

熱門標(biāo)簽:千陽自動外呼系統(tǒng) 原裝電話機器人 清遠360地圖標(biāo)注方法 在哪里辦理400電話號碼 平頂山外呼系統(tǒng)免費 400電話申請服務(wù)商選什么 西藏智能外呼系統(tǒng)五星服務(wù) 江蘇客服外呼系統(tǒng)廠家 工廠智能電話機器人

數(shù)據(jù)標(biāo)準(zhǔn)化是機器學(xué)習(xí)、數(shù)據(jù)挖掘中常用的一種方法。包括我自己在做深度學(xué)習(xí)方面的研究時,數(shù)據(jù)標(biāo)準(zhǔn)化是最基本的一個步驟。

數(shù)據(jù)標(biāo)準(zhǔn)化主要是應(yīng)對特征向量中數(shù)據(jù)很分散的情況,防止小數(shù)據(jù)被大數(shù)據(jù)(絕對值)吞并的情況。

另外,數(shù)據(jù)標(biāo)準(zhǔn)化也有加速訓(xùn)練,防止梯度爆炸的作用。

下面是從李宏毅教授視頻中截下來的兩張圖。

左圖表示未經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理的loss更新函數(shù),右圖表示經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化后的loss更新圖??梢娊?jīng)過標(biāo)準(zhǔn)化后的數(shù)據(jù)更容易迭代到最優(yōu)點,而且收斂更快。

一、[0, 1] 標(biāo)準(zhǔn)化

[0, 1] 標(biāo)準(zhǔn)化是最基本的一種數(shù)據(jù)標(biāo)準(zhǔn)化方法,指的是將數(shù)據(jù)壓縮到0~1之間。

標(biāo)準(zhǔn)化公式如下

代碼實現(xiàn)

def MaxMinNormalization(x, min, max):
  """[0,1] normaliaztion"""
  x = (x - min) / (max - min)
  return x

或者

def MaxMinNormalization(x):
  """[0,1] normaliaztion"""
  x = (x - np.min(x)) / (np.max(x) - np.min(x))
  return x

二、Z-score標(biāo)準(zhǔn)化

Z-score標(biāo)準(zhǔn)化是基于數(shù)據(jù)均值和方差的標(biāo)準(zhǔn)化化方法。標(biāo)準(zhǔn)化后的數(shù)據(jù)是均值為0,方差為1的正態(tài)分布。這種方法要求原始數(shù)據(jù)的分布可以近似為高斯分布,否則效果會很差。

標(biāo)準(zhǔn)化公式如下

下面,我們看看為什么經(jīng)過這種標(biāo)準(zhǔn)化方法處理后的數(shù)據(jù)為是均值為0,方差為1

代碼實現(xiàn)

def ZscoreNormalization(x, mean_, std_):
  """Z-score normaliaztion"""
  x = (x - mean_) / std_
  return x

或者

def ZscoreNormalization(x):
  """Z-score normaliaztion"""
  x = (x - np.mean(x)) / np.std(x)
  return x

補充:Python數(shù)據(jù)預(yù)處理:徹底理解標(biāo)準(zhǔn)化和歸一化

數(shù)據(jù)預(yù)處理

數(shù)據(jù)中不同特征的量綱可能不一致,數(shù)值間的差別可能很大,不進行處理可能會影響到數(shù)據(jù)分析的結(jié)果,因此,需要對數(shù)據(jù)按照一定比例進行縮放,使之落在一個特定的區(qū)域,便于進行綜合分析。

常用的方法有兩種:

最大 - 最小規(guī)范化:對原始數(shù)據(jù)進行線性變換,將數(shù)據(jù)映射到[0,1]區(qū)間

Z-Score標(biāo)準(zhǔn)化:將原始數(shù)據(jù)映射到均值為0、標(biāo)準(zhǔn)差為1的分布上

為什么要標(biāo)準(zhǔn)化/歸一化?

提升模型精度:標(biāo)準(zhǔn)化/歸一化后,不同維度之間的特征在數(shù)值上有一定比較性,可以大大提高分類器的準(zhǔn)確性。

加速模型收斂:標(biāo)準(zhǔn)化/歸一化后,最優(yōu)解的尋優(yōu)過程明顯會變得平緩,更容易正確的收斂到最優(yōu)解。

如下圖所示:

哪些機器學(xué)習(xí)算法需要標(biāo)準(zhǔn)化和歸一化

1)需要使用梯度下降和計算距離的模型要做歸一化,因為不做歸一化會使收斂的路徑程z字型下降,導(dǎo)致收斂路徑太慢,而且不容易找到最優(yōu)解,歸一化之后加快了梯度下降求最優(yōu)解的速度,并有可能提高精度。比如說線性回歸、邏輯回歸、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要計算距離的模型需要做歸一化,比如說KNN、KMeans等。

2)概率模型、樹形結(jié)構(gòu)模型不需要歸一化,因為它們不關(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率,如決策樹、隨機森林。

徹底理解標(biāo)準(zhǔn)化和歸一化

示例數(shù)據(jù)集包含一個自變量(已購買)和三個因變量(國家,年齡和薪水),可以看出用薪水范圍比年齡寬的多,如果直接將數(shù)據(jù)用于機器學(xué)習(xí)模型(比如KNN、KMeans),模型將完全有薪水主導(dǎo)。

#導(dǎo)入數(shù)據(jù)
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
df = pd.read_csv('Data.csv')

缺失值均值填充,處理字符型變量

df['Salary'].fillna((df['Salary'].mean()), inplace= True)
df['Age'].fillna((df['Age'].mean()), inplace= True)
df['Purchased'] = df['Purchased'].apply(lambda x: 0 if x=='No' else 1)
df=pd.get_dummies(data=df, columns=['Country'])

最大 - 最小規(guī)范化

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(df)
scaled_features = scaler.transform(df)
df_MinMax = pd.DataFrame(data=scaled_features, columns=["Age", "Salary","Purchased","Country_France","Country_Germany", "Country_spain"])

Z-Score標(biāo)準(zhǔn)化

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
sc_X = sc_X.fit_transform(df)
sc_X = pd.DataFrame(data=sc_X, columns=["Age", "Salary","Purchased","Country_France","Country_Germany", "Country_spain"])

import seaborn as sns
import matplotlib.pyplot as plt
import statistics
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
fig,axes=plt.subplots(2,3,figsize=(18,12)) 
sns.distplot(df['Age'], ax=axes[0, 0])
sns.distplot(df_MinMax['Age'], ax=axes[0, 1])
axes[0, 1].set_title('歸一化方差:% s '% (statistics.stdev(df_MinMax['Age'])))
sns.distplot(sc_X['Age'], ax=axes[0, 2])
axes[0, 2].set_title('標(biāo)準(zhǔn)化方差:% s '% (statistics.stdev(sc_X['Age'])))
sns.distplot(df['Salary'], ax=axes[1, 0])
sns.distplot(df_MinMax['Salary'], ax=axes[1, 1])
axes[1, 1].set_title('MinMax:Salary')
axes[1, 1].set_title('歸一化方差:% s '% (statistics.stdev(df_MinMax['Salary'])))
sns.distplot(sc_X['Salary'], ax=axes[1, 2])
axes[1, 2].set_title('StandardScaler:Salary')
axes[1, 2].set_title('標(biāo)準(zhǔn)化方差:% s '% (statistics.stdev(sc_X['Salary'])))

可以看出歸一化比標(biāo)準(zhǔn)化方法產(chǎn)生的標(biāo)準(zhǔn)差小,使用歸一化來縮放數(shù)據(jù),則數(shù)據(jù)將更集中在均值附近。這是由于歸一化的縮放是“拍扁”統(tǒng)一到區(qū)間(僅由極值決定),而標(biāo)準(zhǔn)化的縮放是更加“彈性”和“動態(tài)”的,和整體樣本的分布有很大的關(guān)系。

所以歸一化不能很好地處理離群值,而標(biāo)準(zhǔn)化對異常值的魯棒性強,在許多情況下,它優(yōu)于歸一化。

以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。

您可能感興趣的文章:
  • 詳解python實現(xiàn)數(shù)據(jù)歸一化處理的方式:(0,1)標(biāo)準(zhǔn)化
  • python數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)標(biāo)準(zhǔn)化的幾種處理方式
  • python數(shù)據(jù)分析數(shù)據(jù)標(biāo)準(zhǔn)化及離散化詳解

標(biāo)簽:天水 錦州 隨州 股票 西安 白城 安慶 日照

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python3 常用數(shù)據(jù)標(biāo)準(zhǔn)化方法詳解》,本文關(guān)鍵詞  Python3,常用,數(shù)據(jù),標(biāo)準(zhǔn)化,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python3 常用數(shù)據(jù)標(biāo)準(zhǔn)化方法詳解》相關(guān)的同類信息!
  • 本頁收集關(guān)于Python3 常用數(shù)據(jù)標(biāo)準(zhǔn)化方法詳解的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    遂川县| 泗水县| 桦川县| 沅陵县| 海门市| 蒲江县| 漳州市| 东台市| 大厂| 江永县| 通辽市| 彰化市| 峡江县| 涟水县| 凌云县| 长汀县| 潮州市| 伽师县| 忻州市| 象州县| 洛南县| 班玛县| 明光市| 西畴县| 阜阳市| 邳州市| 日喀则市| 靖西县| 泰安市| 涪陵区| 夏津县| 白沙| 青岛市| 互助| 新余市| 江川县| 张家口市| 汾阳市| 新建县| 佳木斯市| 会昌县|