实验总览

Phase 1:RNN(纯 tanh)

编号 实验 损失 关键参数 Best BLEU 发现
E1 hidden 扫描 CE H=E∈{16~1024} 3.02 倒 U,天花板 3.0
E2 embed 解耦 CE H=512, vary E 3.06 hash 碰撞最优 ~580 词/维
E3 epoch 深度 CE H=512/1024, 20ep 3.02 epoch 不改变 K_lang
E4 数据翻倍 CE H=1024, ×2 data 2.50 epoch 0 缓解,过拟合照旧
E5 sin 激活 CE H=512, E=128 0.76 梯度方向自毁
E6 SoftBLEU 混合 CE+SB λ=0.5 H=512, E=128 3.21 突破纯 CE 天花板
E7 SoftBLEU 纯 纯 SB H=512, E=128 🔄 CE=1-gram 不插一手
E8 BLEU Function 0/1 STE H=512, E=128 backward 循环太慢

Phase 2:Attention(LSTM + Bahdanau)

编号 实验 损失 关键参数 Best BLEU 发现
A1 CE 基线 CE H=256, E=256 3.57 BLEU 未衰退(小模型)
A2 CE 大模型 CE H=512, E=256 3.76 peak ep2 后衰退
A3 CE 深 epoch CE H=512, E=256, 10ep 3.76→3.02 与 RNN 相同的倒 U
A4 SoftBLEU 混合 CE+SB H=512, E=256 3.50 反降——梯度拉锯
A5 SoftBLEU 纯 纯 SB H=512, E=256 🔄 去 CE 冲突

全局结论

换 hash 架构(RNN→Attention)不改变过拟合模式。loss 持续下降时 BLEU 仍在衰退——梯度方向问题比架构问题更深。


May the Code be with us.


License: GPLv3