具體細節是,
1.首先在求解器中設置壹個clip_gradient。
2.在前向傳播和反向傳播之後,我們將得到每個權重的梯度diff。這時候不要像往常壹樣直接用這些梯度來更新權重,而是先求所有權重梯度的平方和。if sumsq _ diff >;Clip_gradient,然後找到縮放因子scale _ factor = clip _ gradient/sumsq _ diff。此比例因子介於(0,1)之間。如果權重梯度sumsq_diff的平方和較大,則縮放因子將較小。
3.最後將所有的權重梯度乘以這個比例因子,此時得到的梯度就是最終的梯度信息。
這保證了在叠代更新中,所有權重的梯度的平方和在設定的範圍內,即clip_gradient。