大数据学习日常小练习题汇总收纳

最新推荐文章于 2025-07-24 10:54:48 发布

原创

最新推荐文章于 2025-07-24 10:54:48 发布 · 8.1k 阅读

本文详细介绍了Hadoop生态系统中的各种组件及其功能，包括HDFS、MapReduce、Hive、HBase等。HDFS负责数据存储，NameNode管理元数据，DataNode存储实际数据，而MapReduce则用于大数据的批量处理。Hive提供了SQL-like查询接口，方便数据处理，HBase是分布式列式存储系统，适用于实时查询。此外，文章还涵盖了数据采集、数据清洗、数据安全、大数据实时计算引擎Spark、数据治理等多个方面，讨论了大数据处理的关键技术和挑战，以及相应的解决方案和最佳实践。

仅供学习交流使用

一、选择题

1.下面哪个程序负责 HDFS 数据存储。
A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNode
答案：C

2.HDFS 中的 block 默认保存几份？
A、3份
B、2份
C、1份
D、不确定
答案：A
3.hadoop2.x版本之后 HDFS 默认 Block Size。
A、32MB
B、64MB
C、128MB
D、256MB
答案：C

4.大数据集群的主要瓶颈是
A、CPU
B、网络
C、磁盘IO
D、内存
答案：C

5.关于SecondaryNameNode哪项是正确的？
A、它是NameNode的热备
B、它是内存没有要求
C、他的目的使帮助NameNode合并编辑日志，减少NameNode启动时间
D、SecondaryNameNode应与NameNode部署到一个节点
答案：C

6.下面哪个进程负责MapReduce任务调度。
A、NameNode
B、Jobtracker
C、TaskTracker0
D、secondaryNameNode
答案：B

7.（）反映数据的精细化程度，越细化的数据，价值越高。
A、规模 B、活性 C、关联度 D、颗粒度
答案：D

8.数据清洗的方法不包括（）。
A：缺失值处理 B、噪声数据清除 C、一致性检查 D、重复数据记录处理
答案：D

9.下列关于网络用户行为的说法中，错误的是（）。
A、网络公司能够捕捉到用户在其网站上的所有行为
B、用户离散的交互痕迹能够为企业提升服务质量提供参考
C、数字轨迹用完即自动删除
D、用户的隐私安全很难得以规范保护
答案：C

10.下列关于计算机存储容量单位的说法中，错误的是（）。
A、1KB＜1MB＜1GB B、基本单位是字节（Byte）
C、一个汉字需要一个字节的存储空间 D、一个字节能够容纳一个英文字符
答案：C

11.下列关于聚类挖掘技术的说法中，错误的是（）。
A、不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别
B、要求同类数据的内容相似度尽可能小
C、要求不同类数据的内容相似度尽可能小
答案：B

12.大数据的最显著特征是（）。
A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高
答案：A

13.下列关于大数据的分析理念的说法中，错误的是（）。
A：在数据基础上倾向于全体数据而不是抽样数据
B：在分析方法上更注重相关分析而不是因果分析
C：在分析效果上更追究效率而不是绝对精确
D：在数据规模上强调相对数据而不是绝对数据
答案：D

14.数据治理是大数据技术的一个典型应用，数据来源繁多，下面哪一个不属于结构化数据源（）
A、网络日志 B、Mysql表数据 C、视频音频 D、csv文件
答案：C

16 .HDFS作为Hadoop中分布式存储单元，具备容灾容错的特性，不包括以下哪个情形( )
A、名称节点（Namenode）出错B、数据节点出错 C、数据出错 D、调度出错
答案：D
17. MapReduce计算引擎，属于哪一种计算模式（）
A、批量计算B、实时计算 C、流计算 D、查询分析
答案：A
18. 大数据框架中数据库很多，以下属于非关系型数据库的是（）
A、 Hive B、Mysql C、Hbase D、Oracle
答案：C
19. 智能健康手环的应用开发，体现了（）的数据采集技术的应用。
A、统计报表 B、网络爬虫 C、API接口 D、传感器
答案：D
20. 下列关于数据重组的说法中，错误的是（）。
A、数据重组是数据的重新生产和重新采集
B、数据重组能够使数据焕发新的光芒
C、数据重组实现的关键在于多源数据融合和数据集成
D、数据重组有利于实现新颖的数据模式创新
答案：A
22. Hive中可以使用SQL对数据表进行操作，对查询结果进行降序排列的关键函数是（）
A、Count ( ) B、DESC C、ASC D、Group by
答案：B
23. 数据采集是大数据开发工作的一个重要阶段，以下哪一个框架可以用于数据采集（）
A、 Hbase B、Flume C、Mahout D、Hive
答案：B
24.Hbase 可以实现超大规模的数据存储查询，它的存储是基于下面哪一个框架（）
A、Mysql B、HDFS C、GFS D、Spark
答案：B

25.下面哪一个框架是可靠的协同工作系统（）
A、Sqoop B、Flume C、Zookeeper D、Ambari
答案：C

26.大数据实时计算引擎 Spark作为目前企业主流的工具，其哪一个组件可以做实时计算（）
A、Spark core B、Spark Streaming C、Spark SQL D、Spark MLlib
答案：B

27.Client 端上传文件的时候下列哪项正确？
A、数据经过NameNode传递给DataNode
B、Client端将文件切分为Block，依次上传
C、Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作
D、以上都不正确
答案：B

30.HDFS1.0默认BlockSize大小是多少。
A、32MB
B、64MB
C、128MB
D、256MB
答案：B

32.Hadoop1.0默认的调度器策略是哪个。
A、先进先出调度器
B、计算能力调度器
C、公平调度器
D、优先级调度器
答案：A

34.在实验集群的master节点使用jps命令查看进程时，终端出现以下哪项能说明Hadoop主节点启动成功？
A、Namenode,Datanode,TaskTracker
B、Namenode,Datanode,secondaryNameNode
C、Namenode,Datanode,HMaster
D、Namenode,JobTracker,secondaryNameNode
答案：D

35.若不针对MapReduce编程模型中的key和value值进行特别设置，下列哪一项是MapReduce不适宜的运算。
A、Max
B、Min
C、Count
D、Average
答案：D

36.MapReduce编程模型，键值对<key, value>的key必须实现哪个接口？
A、WritableComparable
B、Comparable
C、Writable
D、LongWritable
答案：A

37.以下哪一项属于非结构化数据。
A、企业ERP数据
B、财务系统数据
C、视频监控数据
D、日志数据
答案：C

38.HBase数据库的BlockCache缓存的数据块中，哪一项不一定能提高效率。
A、–ROOT-表
B、META表
C、HFileindex
D、普通的数据块
答案：D

39.HBase是分布式列式存储系统，记录按什么集中存放。
A、列族
B、列
C、行
D、不确定
答案：A

40.HBase的Region组成中，必须要有以下哪一项。
A、StoreFile
B、MemStore
C、HFile
D、MetaStore
答案：B

41.客户端首次查询HBase数据库时，首先需要从哪个表开始查找。
A、.META.
B、–ROOT-
C、用户表
D、信息表
答案：B

42.设计分布式数据仓库hive的数据表时，为取样更高效，一般可以对表中的连续字段进行什么操作。
A、分桶
B、分区
C、索引
D、分表
答案：A

43.大数据技术的迅速发展，很大程度上取决于信息基础技术的发展，以下哪一个不是主要因素：
A、存储设备容量增加
B、CPU性能提升
C、网络带宽增加
D、自动化技术提升
答案：D

标签

#大数据