目錄
- 過擬合
- Regulation
- 動量
- 學(xué)習(xí)率遞減
- Early Stopping
- Dropout
過擬合
當(dāng)訓(xùn)練集的的準(zhǔn)確率很高, 但是測試集的準(zhǔn)確率很差的時候就, 我們就遇到了過擬合 (Overfitting) 的問題. 如圖:
![](/d/20211017/57ee46d635fe51e6b76618be722b3fdf.gif)
過擬合產(chǎn)生的一大原因是因?yàn)槟P瓦^于復(fù)雜. 下面我們將通過講述 5 種不同的方法來解決過擬合的問題, 從而提高模型準(zhǔn)確度.
Regulation
Regulation 可以幫助我們通過約束要優(yōu)化的參數(shù)來防止過擬合.
![](/d/20211017/67a4dc474b33da2101a006463ee72c0d.gif)
公式
未加入 regulation 的損失:
![](/d/20211017/3f1ef7881abad65475e2c11592c82aed.gif)
加入 regulation 的損失:
![](/d/20211017/edef43174fd423b52054ea6f8e2c8f51.gif)
λ 和 lr (learning rate) 類似. 如果 λ 的值越大, regularion 的力度也就越強(qiáng), 權(quán)重的值也就越小.
例子
添加了 l2 regulation 的網(wǎng)絡(luò):
network = tf.keras.Sequential([
tf.keras.layers.Dense(256, kernel_regularizer=tf.keras.regularizers.l2(0.001), activation=tf.nn.relu),
tf.keras.layers.Dense(128, kernel_regularizer=tf.keras.regularizers.l2(0.001), activation=tf.nn.relu),
tf.keras.layers.Dense(64, kernel_regularizer=tf.keras.regularizers.l2(0.001), activation=tf.nn.relu),
tf.keras.layers.Dense(32, kernel_regularizer=tf.keras.regularizers.l2(0.001), activation=tf.nn.relu),
tf.keras.layers.Dense(10)
])
動量
動量 (Momentum) 是指運(yùn)動物體的租用效果. 在梯度下降的過程中, 通過在優(yōu)化器中加入動量, 我們可以減少擺動從而達(dá)到更優(yōu)的效果.
未添加動量:
![](/d/20211017/2923903b12db5b3a80fd63f2f5a98eda.gif)
添加動量:
![](/d/20211017/fa81232c20f41f1fcbdb4c3f2d4de82a.gif)
公式
未加動量的權(quán)重更新:
![](/d/20211017/6f4db3774dbe202d9092b8c783bc7d01.gif)
- w: 權(quán)重 (weight)
- k: 迭代的次數(shù)
- α: 學(xué)習(xí)率 (learning rate)
- ∇f(): 微分
添加動量的權(quán)重更新:
![](/d/20211017/913d24d075676d884510f2b853c66c59.gif)
例子
添加了動量的優(yōu)化器:
optimizer = tf.keras.optimizers.SGD(learning_rate=0.02, momentum=0.9)
optimizer = tf.keras.optimizers.RMSprop(learning_rate=0.02, momentum=0.9)
注: Adam 優(yōu)化器默認(rèn)已經(jīng)添加動量, 所以無需自行添加.
學(xué)習(xí)率遞減
簡單的來說, 如果學(xué)習(xí)率越大, 我們訓(xùn)練的速度就越大, 但找到最優(yōu)解的概率也就越小. 反之, 學(xué)習(xí)率越小, 訓(xùn)練的速度就越慢, 但找到最優(yōu)解的概率就越大.
![](/d/20211017/c6314154fe37baaafefe6708b429aa03.gif)
過程
我們可以在訓(xùn)練初期把學(xué)習(xí)率調(diào)的稍大一些, 使得網(wǎng)絡(luò)迅速收斂. 在訓(xùn)練后期學(xué)習(xí)率小一些, 使得我們能得到更好的收斂以獲得最優(yōu)解. 如圖:
![](/d/20211017/0f35c53397ace220001a4c97e9c1a78c.gif)
例子
learning_rate = 0.2 # 學(xué)習(xí)率
optimizer = tf.keras.optimizers.SGD(learning_rate=learning_rate, momentum=0.9) # 優(yōu)化器
# 迭代
for epoch in range(iteration_num):
optimizer.learninig_rate = learning_rate * (100 - epoch) / 100 # 學(xué)習(xí)率遞減
Early Stopping
之前我們提到過, 當(dāng)訓(xùn)練集的準(zhǔn)確率仍在提升, 但是測試集的準(zhǔn)確率反而下降的時候, 我們就遇到了過擬合 (overfitting) 的問題.
Early Stopping 可以幫助我們在測試集的準(zhǔn)確率下降的時候停止訓(xùn)練, 從而避免繼續(xù)訓(xùn)練導(dǎo)致的過擬合問題.
![](/d/20211017/1d6fb7b24022b668f9990f7470c1683a.gif)
Dropout
Learning less to learn better
Dropout 會在每個訓(xùn)練批次中忽略掉一部分的特征, 從而減少過擬合的現(xiàn)象.
![](/d/20211017/a1487cdb92f0b86a307ff869c2066630.gif)
dropout, 通過強(qiáng)迫神經(jīng)元, 和隨機(jī)跳出來的其他神經(jīng)元共同工作, 達(dá)到好的效果. 消除減弱神經(jīng)元節(jié)點(diǎn)間的聯(lián)合適應(yīng)性, 增強(qiáng)了泛化能力.
例子:
network = tf.keras.Sequential([
tf.keras.layers.Dense(256, activation=tf.nn.relu),
tf.keras.layers.Dropout(0.5), # 忽略一半
tf.keras.layers.Dense(128, activation=tf.nn.relu),
tf.keras.layers.Dropout(0.5), # 忽略一半
tf.keras.layers.Dense(64, activation=tf.nn.relu),
tf.keras.layers.Dropout(0.5), # 忽略一半
tf.keras.layers.Dense(32, activation=tf.nn.relu),
tf.keras.layers.Dense(10)
])
到此這篇關(guān)于一小時學(xué)會TensorFlow2之大幅提高模型準(zhǔn)確率的文章就介紹到這了,更多相關(guān)TensorFlow2模型準(zhǔn)確率內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- TensorFlow2.0使用keras訓(xùn)練模型的實(shí)現(xiàn)
- 入門tensorflow教程之TensorBoard可視化模型訓(xùn)練
- TensorFlow2.X使用圖片制作簡單的數(shù)據(jù)集訓(xùn)練模型
- 如何將tensorflow訓(xùn)練好的模型移植到Android (MNIST手寫數(shù)字識別)