當前位置:最新電影網 - 倫理電影 - caffe梯度大的原因是什麽?

caffe梯度大的原因是什麽?

引入Clip_gradient來處理梯度泄露問題。當權重在壹次叠代中更新過快時,容易導致損失發散。clip_gradient的直觀作用是將權重的更新限制在壹個合適的範圍內。

具體細節是,

1.首先在求解器中設置壹個clip_gradient。

2.在前向傳播和反向傳播之後,我們將得到每個權重的梯度diff。這時候不要像往常壹樣直接用這些梯度來更新權重,而是先求所有權重梯度的平方和。if sumsq _ diff >;Clip_gradient,然後找到縮放因子scale _ factor = clip _ gradient/sumsq _ diff。此比例因子介於(0,1)之間。如果權重梯度sumsq_diff的平方和較大,則縮放因子將較小。

3.最後將所有的權重梯度乘以這個比例因子,此時得到的梯度就是最終的梯度信息。

這保證了在叠代更新中,所有權重的梯度的平方和在設定的範圍內,即clip_gradient。