自己救自己系列,不然要没工作了,我太难了。
我只是个木得感情的搬运机器,以下内容都附有原链接地址,你不想我搬运的话,可以联系我删除好勒。
红色加粗是我见了好多次,感觉经常会考得点。
1、首先来一个手推BP反向传播
推荐《Neural Network and Deep Learning》中的四个公式。
详细可以看这篇博文, 再详细点可以看👆的书。
2-8题目来自某位面试官大佬:一文看尽80道AI算法高频面试题
2、One-hot的作用是什么?为什么不直接使用数字作为表示
作用:1)将类别变量转换为机器学习算法易于利用的一种形式的过程 。如:网络一般通过softmax层输出,它的输出是一个概率分布,从而要求输入的标签也以概率分布的形式出现,进而算交叉熵之类。 参考链接
2)让特征之间的距离计算更加合理。如1,2,3对应的[1,0,0],[0,1,0],[0,0,1]之间距离都是sqrt(2)。否则直接用数字,13距离为2;12、23距离为1,凭什么呢? 参考链接
3、你觉得batch-normalization过程是什么样的
1)BN的作用:对于每个隐层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题。
2)BN的实现:即BN论文中伪代码的步骤(1)计算mini-Batch内m个实例获得的m个激活x求得的均值E(x)并除以求得的方差Var(x) 。(2)对某个神经元对应的原始的激活x=WU+B进行减均值除方差操作,此处x为本该进入激活函数的x,式中U为上一层神经元输出,W权重,B偏置。 (3)通过两个调节参数(scale和shift)对上述激活x反变换。这一步是核心,scale和shift可学。
BN在inference时候均值方差怎么计算? 答:使用训练时后保存的参数
3)BN优缺点:优:训练收敛速度快,效果好,不用对初始化要求那么高
缺:bs小效果不好,原因是无法反映市局整体分布,
更详细BN解释见此博客。
附:思考一道面试题:BN需要多少参数?看看下面的图说话

4、激活函数有什么用?常见的激活函数的区别是什么?
作用:从输

1324

被折叠的 条评论
为什么被折叠?



