訓練專項網絡
還記得我們在開始時丟棄的70%的培訓數據嗎?結果表明,如果我們想在Kaggle排行榜上獲得一個有競爭力的得分,這是一個很糟糕的主意。在70%的數據和挑戰的測試集中,我們的模型還有相當多特征沒有看到。
因此,改變之前只訓練單個模型的方式,讓我們訓練幾個專項網絡,每個專項網絡預測一組不同的目標值。我們將訓練一個只預測left_eye_center和right_eye_center的模型,一個僅用于nose_tip等等;總的來說,我們將有六個模型。這將允許我們使用完整的訓練數據集,并希望獲得整體更有競爭力的分數。
六個專項網絡都將使用完全相同的網絡架構(一種簡單的方法,不一定是最好的)。因為訓練必須比以前花費更長的時間,所以讓我們考慮一個策略,以便我們不必等待max_epochs完成,即使驗證錯誤停止提高很多。這被稱為早期停止,我們將寫另一個on_epoch_finished回調來處理。這里的實現:
class EarlyStopping(object):
def __init__(self, patience=100):
self.patience = patience
self.best_valid = np.inf
self.best_valid_epoch = 0
self.best_weights = None
def __call__(self, nn, train_history):
current_valid = train_history[-1]['valid_loss']
current_epoch = train_history[-1]['epoch']
if current_valid < self.best_valid:
self.best_valid = current_valid
self.best_valid_epoch = current_epoch
self.best_weights = nn.get_all_params_values()
elif self.best_valid_epoch + self.patience < current_epoch:
print("Early stopping.")
print("Best valid loss was {:.6f} at epoch {}.".format(
self.best_valid, self.best_valid_epoch))
nn.load_params_from(self.best_weights)
raise StopIteration()
可以看到,在call函數里面有兩個分支:第一個是現在的驗證錯誤比我們之前看到的要好,第二個是最好的驗證錯誤所在的迭代次數和當前迭代次數的距離已經超過了我們的耐心。在第一個分支里,我們存下網絡的權重:
self.best_weights = nn.get_all_params_values()
第二個分支里,我們將網絡的權重設置成最優的驗證錯誤時存下的值,然后發出一個StopIteration,告訴NeuralNet我們想要停止訓練。
nn.load_params_from(self.best_weights)
raise StopIteration()
讓我們在net的定義中更新on_epoch_finished處理程序的列表,并添加EarlyStopping:
net8 = NeuralNet(
# ...
on_epoch_finished=[
AdjustVariable('update_learning_rate', start=0.03, stop=0.0001),
AdjustVariable('update_momentum', start=0.9, stop=0.999),
EarlyStopping(patience=200),
],
# ...
)
到目前為止一切順利,但是如何定義這些專項網絡進行相應的預測呢?讓我們做一個列表:
SPECIALIST_SETTINGS = [
dict(
columns=(
'left_eye_center_x', 'left_eye_center_y',
'right_eye_center_x', 'right_eye_center_y',
),
flip_indices=((0, 2), (1, 3)),
),
dict(
columns=(
'nose_tip_x', 'nose_tip_y',
),
flip_indices=(),
),
dict(
columns=(
'mouth_left_corner_x', 'mouth_left_corner_y',
'mouth_right_corner_x', 'mouth_right_corner_y',
'mouth_center_top_lip_x', 'mouth_center_top_lip_y',
),
flip_indices=((0, 2), (1, 3)),
),
dict(
columns=(
'mouth_center_bottom_lip_x',
'mouth_center_bottom_lip_y',
),
flip_indices=(),
),
dict(
columns=(
'left_eye_inner_corner_x', 'left_eye_inner_corner_y',
'right_eye_inner_corner_x', 'right_eye_inner_corner_y',
'left_eye_outer_corner_x', 'left_eye_outer_corner_y',
'right_eye_outer_corner_x', 'right_eye_outer_corner_y',
),
flip_indices=((0, 2), (1, 3), (4, 6), (5, 7)),
),
dict(
columns=(
'left_eyebrow_inner_end_x', 'left_eyebrow_inner_end_y',
'right_eyebrow_inner_end_x', 'right_eyebrow_inner_end_y',
'left_eyebrow_outer_end_x', 'left_eyebrow_outer_end_y',
'right_eyebrow_outer_end_x', 'right_eyebrow_outer_end_y',
),
flip_indices=((0, 2), (1, 3), (4, 6), (5, 7)),
),
]
我們很早前就討論過在數據擴充中flip_indices的重要性。在數據介紹部分,我們的load_data()函數也接受一個可選參數,來抽取某些列。我們將在用專項網絡預測結果的fit_specialists()中使用這些特性:
from collections import OrderedDict
from sklearn.base import clone
def fit_specialists():
specialists = OrderedDict()
for setting in SPECIALIST_SETTINGS:
cols = setting['columns']
X, y = load2d(cols=cols)
評論
查看更多