A.220x220x5B.218x218x5C.217x217x8D.217x217x3
A.懲罰了模型的復(fù)雜度,避免模型過度學(xué)習(xí)訓(xùn)練集,提高泛化能力B.剃刀原理:如果兩個理論都能解釋一件事情,那么較為簡單的理論往往是正確的C.正則項(xiàng)降低了每一次系數(shù)w更新的步伐,使參數(shù)更小,模型更簡單D.貝葉斯學(xué)派的觀點(diǎn),認(rèn)為加入了先驗(yàn)分布(l1拉普拉斯分布,l2高斯分布),減少參數(shù)的選擇空間
A.SGD(stochatic gradient descent)B.BGD(batch gradient descent)C.AdadetlaD.Momentum