6-损失函数.png

L2 Loss 优势在于离最优点越近,梯度越小,起到微调的效果,且使得损失函数收敛。劣势在于当离最优点过远时,梯度可能会过于大,导致在最优点的两侧反复横跳,收敛过慢。

6-损失函数-1.png

L2 Loss 优势在于离最优点过远时,梯度不会特别大。劣势在于当离最优点过近时,无法进一步逼近,无法收敛。

6-损失函数-2.png

可以看到 L1 Loss 和 L2 Loss 的优势是互补的,因此有 Huber’s Robust Loss 在离最优点近时采用 L2,在离最优点远时采用 L1,结合了两者的优势。