数据科学与统计分析问题集锦

原创

于 2025-09-14 15:06:07 发布 · 1.2k 阅读

·

30

·

文章标签：

#数据科学 #统计分析 #假设检验

76、Facebook数据显示，50%的Facebook用户有一百个或更多的朋友。此外，用户的平均好友数为190。这些发现对Facebook用户好友数量的分布形状有何启示？

这表明Facebook用户好友数量的分布可能是 右偏态 的。因为一半用户好友数在100及以上，而平均好友数达到190，说明有部分用户好友数非常多，拉高了平均值，使得分布右侧有较长的尾巴。

77、2010年美国社区调查估计，15岁及以上女性中有47.1%已婚。(a) 随机挑选三名这个年龄段的女性。选中的第三名女性是唯一已婚女性的概率是多少？(b) 三名女性都已婚的概率是多少？(c) 平均而言，在选到一名已婚女性之前，你预计要抽样多少名女性？标准差是多少？(d) 如果已婚女性的比例实际上是30%，在选到一名已婚女性之前，你预计要抽样多少名女性？标准差是多少？(e) 根据你对(c)和(d)部分的回答，降低事件发生的概率如何影响直至成功的等待时间的均值和标准差？

(a) 可根据概率乘法原理计算，前两名未婚概率与第三名已婚概率相乘；
(b) 三名已婚概率为单个已婚概率的三次方；
(c) 平均抽样数是已婚概率的倒数，标准差计算需用相关公式；
(d) 同理(c)，只是已婚概率换为30%；
(e) 通常降低事件概率会使均值和标准差增大。

78、在美国，2月2日是土拨鼠日。据说，如果土拨鼠看到了自己的影子，那么冬天还会再持续六周。以2月2日是否阳光明媚作为土拨鼠判断的替代指标，这个传统有预测价值吗？基于气象记录进行一项研究，并报告这只“神兽”预测的准确性及其统计显著性。

需要收集多年2月2日的天气（是否晴朗）以及后续六周的天气数据，对比土拨鼠“预测”（以是否晴朗为判断）和实际后续六周是否为冬季的情况，统计预测准确的比例得到准确性；再通过合适的统计检验方法（如卡方检验）来确定其统计显著性。

79、一枚硬币抛了十次，结果是两次反面和八次正面。你如何判断这枚硬币是否公平？这个结果的p值是多少？

可通过假设检验判断硬币是否公平，假设硬币是公平的（即正面和反面出现概率均为0.5），计算出现该结果或更极端结果的概率作为 p 值，若 p 值小于显著水平（如 0.05），则拒绝原假设，认为硬币不公平。

80、现在假设十枚硬币每枚都抛十次，总共抛100次。你将如何检验这些硬币是否公平？

可使用卡方检验来检验这些硬币是否公平：

先计算理论上正面和反面出现的次数；
再根据实际出现的次数与理论次数计算卡方值；
最后根据自由度和显著性水平判断是否拒绝硬币是公平的原假设。

81、判断在拍卖会上购买的汽车是否是一笔糟糕的交易。

可从车辆状况、价格、市场行情等多方面判断在拍卖会上购买的汽车是否是糟糕的交易。

82、对可在 http://www.data - manual.com/data 获取的以下数据集相关问题提供答案。(a) 分析电影数据集。美国电影票房的范围是多少？哪种类型的电影最有可能在市场上取得成功，是喜剧、PG - 13级电影还是剧情片？(b) 分析曼哈顿滚动销售数据集。曼哈顿哪些地方的房地产最贵/最便宜？销售价格和总平方英尺数之间有什么关系？(c) 分析2012年奥运会数据集。一个国家的人口数量和它获得的奖牌数量之间有什么关系？该国男女比例与GDP之间有什么关系？(d) 分析人均GDP数据集。欧洲、亚洲和非洲国家的GDP增长率如何比较？各国在何时面临GDP的重大变化，哪些历史事件可能对此负有主要责任？

需获取相应数据集进行分析才能得出答案。

83、在新闻网站上搜索，直到找到十个有趣的图表/图形，建议找到五个呈现效果好的和五个呈现效果不好的。对于每个图表，请按照以下维度进行评价：(a) 它在呈现数据方面做得好还是不好？(b) 呈现方式是否存在有意或无意的偏差？(c) 图表中是否有图表垃圾（即对数据呈现无实质帮助的元素）？(d) 坐标轴的标注是否清晰且有信息量？(e) 颜色的使用是否有效？(f) 如何让这个图形变得更好？

需自行在新闻网站找图表并按要求评价。

84、访问 http://www.wtfviz.net 网站。找出五个可笑的糟糕可视化示例，并解释它们为何既糟糕又有趣。

访问 http://www.wtfviz.net 网站自行寻找并根据数据可视化相关原则（如数据准确性、易读性、简洁性等）分析。例如，可能存在数据展示混乱、比例失调、颜色使用不当等问题，导致既糟糕又有趣。

85、使用以下方式对你喜欢的数据集的某些方面构建有启发性的可视化展示：(a) 设计良好的表格。(b) 点图和/或线图。(c) 散点图。(d) 热力图。(e) 条形图或饼图。(f) 直方图。(g) 数据地图。

可按以下通用思路操作：

(a) 设计良好的表格：
- 确保数字右对齐以体现规模差异
- 利用表格精确呈现数据

(b) 点图和/或线图：
- 点图展示离散数据
- 线图体现数据趋势

(c) 散点图：
- 对于不同规模数据集调整点大小
- 处理整数点可采用着色或添加随机噪声的方法

(d) 热力图：
- 可基于点的出现频率着色
- 或降低点的不透明度来呈现数据分布

(e) 条形图或饼图：
- 条形图比较数据大小
- 饼图展示各部分占比

(f) 直方图：
- 展示数据的分布情况

(g) 数据地图：
- 将数据与地理位置关联展示

86、为一组特定的 (x, y) 点创建十种不同版本的折线图。哪些是最好的，哪些是最差的？请解释原因。

以下是将给定文本内容调整为 Markdown 格式的结果：

可依据以下折线图的最佳实践来判断哪些是最好的，哪些是最差的：

显示数据点而非仅拟合线 ，可通过减小点大小或变浅点颜色使大量点不突兀；
尽可能显示完整变量范围 ，若截断

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。