訓練專項網絡
還記得我們在開始時丟棄的70%的培訓數據嗎?結果表明,如果我們想在Kaggle排行榜上獲得一個有競爭力的得分,這是一個很糟糕的主意。在70%的數據和挑戰的測試集中,我們的模型還有相當多特征沒有看到。
因此,改變之前只訓練單個模型的方式,讓我們訓練幾個專項網絡,每個專項網絡預測一組不同的目標值。我們將訓練一個只預測left_eye_center和right_eye_center的模型,一個僅用于nose_tip等等;總的來說,我們將有六個模型。這將允許我們使用完整的訓練數據集,并希望獲得整體更有競爭力的分數。
六個專項網絡都將使用完全相同的網絡架構(一種簡單的方法,不一定是最好的)。因為訓練必須比以前花費更長的時間,所以讓我們考慮一個策略,以便我們不必等待max_epochs完成,即使驗證錯誤停止提高很多。這被稱為早期停止,我們將寫另一個on_epoch_finished回調來處理。這里的實現:
class EarlyStopping(object):
def __init__(self, patience=100):
self.patience = patience
self.best_valid = np.inf
self.best_valid_epoch = 0
self.best_weights = None
def __call__(self, nn, train_history):
current_valid = train_history[-1]['valid_loss']
current_epoch = train_history[-1]['epoch']
if current_valid < self.best_valid:
self.best_valid = current_valid
self.best_valid_epoch = current_epoch
self.best_weights = nn.get_all_params_values()
elif self.best_valid_epoch + self.patience < current_epoch:
print("Early stopping.")
print("Best valid loss was {:.6f} at epoch {}.".format(
self.best_valid, self.best_valid_epoch))
nn.load_params_from(self.best_weights)
raise StopIteration()
可以看到,在call函數里面有兩個分支:第一個是現在的驗證錯誤比我們之前看到的要好,第二個是最好的驗證錯誤所在的迭代次數和當前迭代次數的距離已經超過了我們的耐心。在第一個分支里,我們存下網絡的權重:
self.best_weights = nn.get_all_params_values()
第二個分支里,我們將網絡的權重設置成最優的驗證錯誤時存下的值,然后發出一個StopIteration,告訴NeuralNet我們想要停止訓練。
nn.load_params_from(self.best_weights)
raise StopIteration()
讓我們在net的定義中更新on_epoch_finished處理程序的列表,并添加EarlyStopping:
net8 = NeuralNet(
# ...
on_epoch_finished=[
AdjustVariable('update_learning_rate', start=0.03, stop=0.0001),
AdjustVariable('update_momentum', start=0.9, stop=0.999),
EarlyStopping(patience=200),
],
# ...
)
到目前為止一切順利,但是如何定義這些專項網絡進行相應的預測呢?讓我們做一個列表:
SPECIALIST_SETTINGS = [
dict(
columns=(
'left_eye_center_x', 'left_eye_center_y',
'right_eye_center_x', 'right_eye_center_y',
),
flip_indices=((0, 2), (1, 3)),
),
dict(
columns=(
'nose_tip_x', 'nose_tip_y',
),
flip_indices=(),
),
dict(
columns=(
'mouth_left_corner_x', 'mouth_left_corner_y',
'mouth_right_corner_x', 'mouth_right_corner_y',
'mouth_center_top_lip_x', 'mouth_center_top_lip_y',
),
flip_indices=((0, 2), (1, 3)),
),
dict(
columns=(
'mouth_center_bottom_lip_x',
'mouth_center_bottom_lip_y',
),
flip_indices=(),
),
dict(
columns=(
'left_eye_inner_corner_x', 'left_eye_inner_corner_y',
'right_eye_inner_corner_x', 'right_eye_inner_corner_y',
'left_eye_outer_corner_x', 'left_eye_outer_corner_y',
'right_eye_outer_corner_x', 'right_eye_outer_corner_y',
),
flip_indices=((0, 2), (1, 3), (4, 6), (5, 7)),
),
dict(
columns=(
'left_eyebrow_inner_end_x', 'left_eyebrow_inner_end_y',
'right_eyebrow_inner_end_x', 'right_eyebrow_inner_end_y',
'left_eyebrow_outer_end_x', 'left_eyebrow_outer_end_y',
'right_eyebrow_outer_end_x', 'right_eyebrow_outer_end_y',
),
flip_indices=((0, 2), (1, 3), (4, 6), (5, 7)),
),
]
我們很早前就討論過在數據擴充中flip_indices的重要性。在數據介紹部分,我們的load_data()函數也接受一個可選參數,來抽取某些列。我們將在用專項網絡預測結果的fit_specialists()中使用這些特性:
from collections import OrderedDict
from sklearn.base import clone
def fit_specialists():
specialists = OrderedDict()
for setting in SPECIALIST_SETTINGS:
cols = setting['columns']
X, y = load2d(cols=cols)
model = clone(net)
model.output_num_units = y.shape[1]
model.batch_iterator_train.flip_indices = setting['flip_indices']
# set number of epochs relative to number of training examples:
model.max_epochs = int(1e7 / y.shape[0])
if 'kwargs' in setting:
# an option 'kwargs' in the settings list may be used to
# set any other parameter of the net:
vars(model).update(setting['kwargs'])
print("Training model for columns {} for {} epochs".format(
cols, model.max_epochs))
model.fit(X, y)
specialists[cols] = model
with open('net-specialists.pickle', 'wb') as f:
# we persist a dictionary with all models:
pickle.dump(specialists, f, -1)
沒有什么值得大驚小怪的事情,只不過是訓練了一系列模型,并存進了字典。盡管有early stopping 但是在單塊GPU上訓練仍然要花上半天時間,而且我也不建議你運行這個。
在多塊GPU上跑當然會快,但是還是太奢侈了。下一節介紹一種可以減少訓練時間的方法,在這里,我們先看一下這些花費了大量資源的模型的結果。
6個模型的學習率,實線代表驗證集合上的RMSE(均方根誤差),虛線是訓練集誤差。Mean代表 所有模型乘以權重(模型所擁有的目標數量)的平均驗證誤差。所有的曲線都在x軸縮放到同樣的尺度。
有監督的前訓練
教程的最后一部分,討論一種新的方式讓專項網絡訓練的更快。思路是:用net6或者是net7訓練好的權重替代隨即值來初始化網絡權重。如果你還記得early stopping的實現的話,從一個網絡復制權重到另一個網絡是非常簡單的,只要使用load_params_form()方法。下面我們改變fit_specialists方法來實現上述功能。仍然是加了#!的行是新添加的行:
def fit_specialists(fname_pretrain=None):
if fname_pretrain: # !
with open(fname_pretrain, 'rb') as f: # !
net_pretrain = pickle.load(f) # !
else: # !
net_pretrain = None # !
specialists = OrderedDict()
for setting in SPECIALIST_SETTINGS:
cols = setting['columns']
X, y = load2d(cols=cols)
model = clone(net)
model.output_num_units = y.shape[1]
model.batch_iterator_train.flip_indices = setting['flip_indices']
model.max_epochs = int(4e6 / y.shape[0])
if 'kwargs' in setting:
# an option 'kwargs' in the settings list may be used to
# set any other parameter of the net:
vars(model).update(setting['kwargs'])
if net_pretrain is not None: # !
# if a pretrain model was given, use it to initialize the
# weights of our new specialist model:
model.load_params_from(net_pretrain) # !
print("Training model for columns {} for {} epochs".format(
cols, model.max_epochs))
model.fit(X, y)
specialists[cols] = model
with open('net-specialists.pickle', 'wb') as f:
# this time we're persisting a dictionary with all models:
pickle.dump(specialists, f, -1)
事實證明復用訓練好的網絡的權重代替隨機初始化有兩個實際上的好處:一個是訓練收斂的更快,在這里大概有四倍快;第二個優點是網絡的泛化能力更強,前訓練起到了正則化項的效果。還是和剛剛一樣的學習曲線圖,展示了采用了前訓練的網絡:
最終,這個解決方案在排行榜上的成績是2.13 RMSE。
結論
現在也許你已經有了一打想法想去嘗試,你可以找到教程最終方案的源代碼,開始你的嘗試。代碼中還包括生成提交文件,運行Python?kfkd.py找出如何在命令行使用這個腳本。
還有一大堆很明顯的你可以做的改進:嘗試將每一個專項網絡進行優化;觀察6個網絡,可以發現素有的模型都存在不同程度的過擬合。如果模型像綠色或者黃色的曲線那樣幾乎沒有任何過擬合呢,你可以嘗試減少dropout的數量;要是過擬合的厲害,就增加dropout的數量。
在SPECIALIST_SETTINGS的定義中,我們能夠添加針對某個特定網絡的設置。如果說我們想要給第二個網絡添加更多的正則化項,我們可以像下面這樣改變:
dict(
columns=(
'nose_tip_x', 'nose_tip_y',
),
flip_indices=(),
kwargs=dict(dropout2_p=0.3, dropout3_p=0.4), # !
),
還有各種各樣的可以嘗試改進的地方,也許你可以再加一個卷積層或者全連接層?期待你的好消息。
評論
查看更多