算法数学理论—梯度下降

1.引入

交给机器一堆数据,然后告诉它什么样的学习方式是对的(目标函数),然后让它朝着这个方向去做,每次优化一点点,累积起来就是个大成绩,最后什么样的参数能使得目标函数达到极值点

2.梯度下降方法

image

3.总结

  • 学习率(步长):对结果会产生巨大的影响,一般小一些
  • 如何选择:从小的时候,不行再小
  • 批处理数量:32,64,128都可以,很多 时候还得考虑内存和效率