机器学习与模式识别第十二章自适应学习优化器模拟卷及答案

原创于 2026-07-03 00:40:46 发布 · 3 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

人工智能·杂

机器学习与模式识别

第十二章：SGD & Adam — 单元习题

总分：100分 | 建议用时：50分钟
范围：学习率调度、AdaGrad/RMSProp/Adam、SGD/Mini-batch、Epoch

占位图
在这里插入图片描述

一、单项选择题（每题2分，共20题，40分）

1. Batch GD每步的计算代价是？
A. $O(D)\mathcal{O}(D)$
B. $O(ND)\mathcal{O}(ND)$
C. $O(N)\mathcal{O}(N)$
D. $O(1)\mathcal{O}(1)$

2. SGD每步的计算代价是？
A. $O(ND)\mathcal{O}(ND)$
B. $O(D)\mathcal{O}(D)$
C. $O(N)\mathcal{O}(N)$
D. $O(BD)\mathcal{O}(BD)$

3. Mini-batch SGD每步的计算代价是？
A. $O(D)\mathcal{O}(D)$
B. $O(ND)\mathcal{O}(ND)$
C. $O(BD)\mathcal{O}(BD)$
D. $O(N)\mathcal{O}(N)$

4. 一个Epoch意味着？
A. 完成一次参数更新
B. 完整遍历全部N个数据点一次
C. 遍历B个数据点
D. 模型训练完成

5. Adam算法结合了哪两种方法？
A. SGD + Batch GD
B. Momentum + RMSProp
C. AdaGrad + Batch GD
D. 动量 + AdaGrad

6. Adam中的偏差校正（Bias Correction）解决什么问题？
A. 梯度消失
B. 初始步（s和r从0开始）导致步长过小
C. 过拟合
D. 数据不平衡

7. RMSProp相比AdaGrad的改进是？
A. 使用所有历史梯度的累积和
B. 使用指数加权移动平均→关注近期梯度，避免学习率过度衰减
C. 引入了动量
D. 不需要学习率

8. Adam的典型超参数 $β1\beta_1$ 和 $β2\beta_2$ 分别是？
A. $β1=0.5,β2=0.5\beta_1=0.5, \beta_2=0.5$
B. $β1=0.9,β2=0.99\beta_1=0.9, \beta_2=0.99$
C. $β1=0.99,β2=0.9\beta_1=0.99, \beta_2=0.9$
D. $β1=0,β2=0\beta_1=0, \beta_2=0$

9. 关于SGD的噪声梯度，正确的是？
A. 噪声总是有害的，应该避免
B. 噪声可能帮助模型逃离局部最小值
C. 噪声使模型无法训练
D. 噪声等价于正则化

10. 余弦学习率调度常用于什么场景？
A. 简单线性模型
B. 大语言模型（LLM）训练
C. K-means聚类
D. 决策树

11. 增大Batch Size B时，学习率 $η\eta$ 通常应该？
A. 保持不变
B. 按比例减小
C. 按比例增大
D. 随机调整

12. 训练误差是测试误差的什么？
A. 精确值
B. 经验估计（Empirical Estimate），大N时近似
C. 完全无关
D. 上界

13. AdaGrad的主要问题是什么？
A. 计算太慢
B. 累积r单调增长→后期学习率过度减小→早停
C. 不适用于凸函数
D. 需要太多内存

14. 设N=1000, B=100，一个Epoch需要多少步？
A. 1步
B. 10步
C. 100步
D. 1000步

15. 大Batch Size的优势不包括？
A. 梯度估计更准确
B. 更好利用GPU并行
C. 梯度噪声更大
D. 可以更高效地训练

16. 关于Shuffling，正确的是？
A. 每个Epoch应该用相同的顺序
B. 每个Epoch开始前应该随机打乱数据
C. Shuffling对训练没有影响
D. Shuffling只在测试时需要

17. Adam中 $s_i$ （一阶矩）和 $r_i$ （二阶矩）分别估计什么？
A. s=梯度均值（动量），r=梯度平方均值（尺度）
B. s=梯度平方，r=梯度均值
C. s=Hessian，r=梯度
D. s=损失，r=学习率

18. 幂律学习率调度中， $η(τ)=ηstart(1+τ/s)−c\eta^{(\tau)} = \eta_{start}(1+\tau/s)^{-c}$ ，随着 $τ\tau$ 增大， $η\eta$ 会？
A. 增大
B. 减小
C. 不变
D. 震荡

19. SGD的"随机性"来自哪里？
A. 随机初始化模型
B. 随机选择单个（或小批量）数据点估计梯度
C. 随机选择模型结构
D. 随机生成数据

20. 在深度学习实践中，通常所说的"SGD"实际上往往指的是？
A. 精确的Batch GD
B. Mini-batch SGD（含动量/Adam等变体）
C. 单样本SGD
D. 牛顿法

二、判断题（每题2分，共15题，30分。正确打√，错误打×）

21. Batch GD每步都要遍历全部数据，大数据集上极慢。（）

22. SGD的梯度是真实梯度的无偏估计。（）

23. Mini-batch SGD在B=1时退化为SGD，在B=N时退化为Batch GD。（）

24. 学习率调度通常使 $η\eta$ 在训练过程中逐渐增大。（）

25. Adam不需要设置学习率 $η\eta$ 。（）

26. RMSProp对梯度平方使用指数加权移动平均而非累积和。（）

27. AdaGrad对每个参数使用相同的学习率。（）

28. Adam中偏差校正 $s^=s/(1−β1τ)\hat{s}=s/(1-\beta_1^\tau)$ 在 $τ\tau$ 很大时几乎无影响。（）

29. 1 Epoch = N/B步（当N可被B整除时）。（）

30. Shuffling确保每个Mini-batch的数据是随机选取的。（）

31. 训练误差在大N时近似于期望测试误差，前提是训练数据与测试数据同分布。（）

32. Batch Size越大，每步梯度估计越精确。（）

33. Cosine调度在LLM训练中很少使用。（）

34. Adam的 $ϵ=10−8\epsilon=10^{-8}$ 是为了数值稳定性（防止除以零）。（）

35. SGD的噪声可以被视为一种隐式正则化。（）

三、简答题（每题5分，共3题，15分）

36. 请对比Batch GD、SGD和Mini-batch SGD三者的计算代价、梯度质量和适用场景。

37. 请阐述Adam优化器的核心思想：它如何结合Momentum和RMSProp？偏差校正解决了什么问题？

38. 请解释"训练误差是测试误差的经验估计"这一原理，以及它在SGD中为何重要。

四、计算题（每题5分，共3题，15分）

39. 某数据集N=10000，特征维度D=100。
(1) Batch GD每步需要多少次基本运算（量级）？
(2) SGD（B=1）每Epoch需要多少次？
(3) Mini-batch SGD（B=64）每Epoch需多少步？每步代价？

40. 设Adam的 $β1=0.9,β2=0.99\beta_1=0.9, \beta_2=0.99$ 。在某维度上：

第1步梯度=10，第2步梯度=8，第3步梯度=6
假设 $η=0.001,ϵ=10−8\eta=0.001, \epsilon=10^{-8}$

(1) 计算第3步后的 $s$ （一阶矩，忽略偏差校正）。
(2) 计算第3步后的 $r$ （二阶矩，忽略偏差校正）。
(3) 第3步的参数更新量 $Δw\Delta w$ 约是多少？（仅需写出表达式）

41. 某Batch GD在N=100万时每Epoch需1小时。改用Mini-batch B=1000：
(1) 每Epoch需多少步？
(2) 假设每步时间与B成正比，每Epoch总时间约为原来的多少？

试卷结束，请认真检查。

第十二章：SGD & Adam — 单元习题答案

一、单项选择题答案

题号	答案	解析
1	B	Batch GD每步计算N个梯度→ $O(ND)\mathcal{O}(ND)$
2	B	SGD每步1个点→ $O(D)\mathcal{O}(D)$
3	C	Mini-batch每步B个点→ $O(BD)\mathcal{O}(BD)$
4	B	1 Epoch=完整遍历全部N点一次
5	B	Adam=Momentum(一阶矩)+RMSProp(二阶矩)
6	B	s和r初始=0→早期步偏小→偏差校正解决
7	B	RMSProp用EMA替代累积→关注近期→避免学习率过度衰减
8	B	Adam标准： $β1=0.9,β2=0.99\beta_1=0.9,\beta_2=0.99$
9	B	SGD噪声可能帮助逃离局部最小值/鞍点
10	B	Cosine调度现代LLM训练常用
11	C	B↑→梯度更准→可用更大步长( $η∝B\eta\propto B$ )
12	B	大N→训练误差 $≈\approx$ 测试误差(大数定律)
13	B	AdaGrad的 $r$ 单调增长→学习率不断减小→早停
14	B	N/B=1000/100=10步
15	C	大B→梯度噪声更小（更精确）
16	B	每Epoch开始前Shuffle→随机性
17	A	$s$ =一阶矩(梯度均值/动量)； $r$ =二阶矩(梯度平方均值/尺度)
18	B	$τ\tau$ ↑→分母↑→ $η\eta$ ↓
19	B	随机性=随机采样数据点估计梯度
20	B	实践中"SGD"通常=Mini-batch SGD+动量变体

二、判断题答案

题号	答案	解析
21	√	Batch GD每步 $O (N D)$ →大数据慢
22	√	$E[∇En]=∇E\mathbb{E}[\nabla E_n]=\nabla E$ →SGD梯度=无偏估计
23	√	B=1=纯SGD，B=N=Batch GD
24	×	学习率通常减小（从不衰减的SGD除外）
25	×	Adam仍需设置基础学习率 $η\eta$ （典型=0.001）
26	√	$r=βr+(1−β)(∂E/∂w)2r=\beta r+(1-\beta)(\partial E/\partial w)^2$ =EMA
27	×	AdaGrad对每个参数独立调整学习率
28	√	$τ\tau$ 大→ $1−β1τ≈11-\beta_1^\tau\approx1$ →校正≈1→无影响
29	√	Epoch步数= $⌈N/B⌉\lceil N/B\rceil$
30	√	Shuffle→每Batch随机取B个点
31	√	IID假设→训练误差 $≈\approx$ 测试误差
32	√	更多样本→Monte Carlo估计更精确
33	×	Cosine在LLM中非常常用
34	√	$ϵ\epsilon$ 防止分母为零
35	√	SGD噪声=隐式正则化→可能改善泛化

三、简答题参考答案

36. Batch/SGD/Mini-batch对比

参考答案：

方法	每步代价	梯度质量	适用
Batch GD	$O(ND)\mathcal{O}(ND)$	精确	小数据集
SGD	$O(D)\mathcal{O}(D)$	噪声大	在线学习
Mini-batch	$O(BD)\mathcal{O}(BD)$	折中	最常用

B=1→SGD，B=N→Batch GD
Mini-batch=最优折中：计算便宜+梯度够好+GPU并行

37. Adam核心思想

参考答案：

Adam = Momentum + RMSProp + 偏差校正

Momentum( $s$ )：一阶矩估计→梯度方向的指数移动平均→平滑+加速
RMSProp( $r$ )：二阶矩估计→梯度平方的EMA→自适应调整每维度学习率
偏差校正( $s^=s/(1−β1τ)\hat{s}=s/(1-\beta_1^\tau)$ )： $s_0=r_0=0$ →初始几步偏小→除以 $1−βτ1-\beta^\tau$ 放大→后续 $1−βτ≈11-\beta^\tau\approx1$

更新： $w=w−ηs^r^+ϵw=w-\eta\frac{\hat{s}}{\sqrt{\hat{r}}+\epsilon}$

38. 训练误差=经验估计

参考答案：

$1N∑nL(tn,fw(xn))≈Ep(t,x)[L(t,fw(x))]\frac{1}{N}\sum_n L(t_n, f_w(x_n)) \approx \mathbb{E}_{p(t,x)}[L(t, f_w(x))]$

训练误差=期望测试误差的Monte Carlo估计
大N→大数定律→估计准确
在SGD中：单点梯度也是无偏估计( $E[∇En]=∇E\mathbb{E}[\nabla E_n]=\nabla E$ ) → 虽噪声大但方向正确

四、计算题参考答案

39. 代价计算

(1) Batch GD每步： $O(ND)=10000×100=106\mathcal{O}(ND)=10000\times100=\mathbf{10^6}$ 基本运算

(2) SGD每Epoch：N=10000步，每步 $O(D)=100\mathcal{O}(D)=100$ →总计 $106\mathbf{10^6}$ （与Batch GD每步相同！SGD每Epoch=Batch GD每步）

(3) Mini-batch(B=64)：

每Epoch步数= $10000/64≈15710000/64\approx\mathbf{157}$ 步
每步代价= $O(BD)=6400\mathcal{O}(BD)=\mathbf{6400}$ 基本运算

40. Adam手算

使用EMA公式： $vnew=βvold+(1−β)xv^{new}=\beta v^{old}+(1-\beta)x$

(1) 一阶矩 $s$ （ $β1=0.9\beta_1=0.9$ ）

τ	梯度	s更新
1	10	$s=0.1×10=1.0s=0.1\times10=1.0$
2	8	$s=0.9×1.0+0.1×8=0.9+0.8=1.7s=0.9\times1.0+0.1\times8=0.9+0.8=1.7$
3	6	$s=0.9×1.7+0.1×6=1.53+0.6=2.13s=0.9\times1.7+0.1\times6=1.53+0.6=2.13$

$s3≈2.13s_3 \approx \mathbf{2.13}$

(2) 二阶矩 $r$ （ $β2=0.99\beta_2=0.99$ ）

τ	梯度²	r更新
1	100	$r=0.01×100=1.0r=0.01\times100=1.0$
2	64	$r=0.99×1.0+0.01×64=0.99+0.64=1.63r=0.99\times1.0+0.01\times64=0.99+0.64=1.63$
3	36	$r=0.99×1.63+0.01×36=1.614+0.36=1.974r=0.99\times1.63+0.01\times36=1.614+0.36=1.974$

$r3≈1.974r_3 \approx \mathbf{1.974}$

(3) 更新量： $Δw≈−0.001×2.131.974+10−8≈−0.001×2.131.405≈−0.00152\Delta w \approx -0.001 \times \frac{2.13}{\sqrt{1.974}+10^{-8}} \approx -0.001 \times \frac{2.13}{1.405} \approx \mathbf{-0.00152}$