大数据学习日常小练习题汇总收纳

本文详细介绍了Hadoop生态系统中的各种组件及其功能,包括HDFS、MapReduce、Hive、HBase等。HDFS负责数据存储,NameNode管理元数据,DataNode存储实际数据,而MapReduce则用于大数据的批量处理。Hive提供了SQL-like查询接口,方便数据处理,HBase是分布式列式存储系统,适用于实时查询。此外,文章还涵盖了数据采集、数据清洗、数据安全、大数据实时计算引擎Spark、数据治理等多个方面,讨论了大数据处理的关键技术和挑战,以及相应的解决方案和最佳实践。

仅供学习交流使用

一、选择题

1.下面哪个程序负责 HDFS 数据存储。
A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNode
答案:C

2.HDFS 中的 block 默认保存几份?
A、3份
B、2份
C、1份
D、不确定
答案:A
3.hadoop2.x版本之后 HDFS 默认 Block Size。
A、32MB
B、64MB
C、128MB
D、256MB
答案:C

4.大数据集群的主要瓶颈是
A、CPU
B、网络
C、磁盘IO
D、内存
答案:C

5.关于SecondaryNameNode哪项是正确的?
A、它是NameNode的热备
B、它是内存没有要求
C、他的目的使帮助NameNode合并编辑日志,减少NameNode启动时间
D、SecondaryNameNode应与NameNode部署到一个节点
答案:C

6.下面哪个进程负责MapReduce任务调度。
A、NameNode
B、Jobtracker
C、TaskTracker0
D、secondaryNameNode
答案:B

7.( )反映数据的精细化程度,越细化的数据,价值越高。
A、规模 B、活性 C、关联度 D、颗粒度
答案:D

8.数据清洗的方法不包括( )。
A:缺失值处理 B、噪声数据清除 C、一致性检查 D、重复数据记录处理
答案:D

9.下列关于网络用户行为的说法中,错误的是( )。
A、网络公司能够捕捉到用户在其网站上的所有行为
B、用户离散的交互痕迹能够为企业提升服务质量提供参考
C、数字轨迹用完即自动删除
D、用户的隐私安全很难得以规范保护
答案:C

10.下列关于计算机存储容量单位的说法中,错误的是( )。
A、1KB<1MB<1GB B、基本单位是字节(Byte)
C、一个汉字需要一个字节的存储空间 D、一个字节能够容纳一个英文字符
答案:C

11.下列关于聚类挖掘技术的说法中,错误的是( )。
A、不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B、要求同类数据的内容相似度尽可能小
C、要求不同类数据的内容相似度尽可能小
答案:B

12.大数据的最显著特征是( )。
A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高
答案:A

13.下列关于大数据的分析理念的说法中,错误的是( )。
A:在数据基础上倾向于全体数据而不是抽样数据
B:在分析方法上更注重相关分析而不是因果分析
C:在分析效果上更追究效率而不是绝对精确
D:在数据规模上强调相对数据而不是绝对数据
答案:D

14.数据治理是大数据技术的一个典型应用,数据来源繁多,下面哪一个不属于结构化数据源( )
A、网络日志 B、Mysql表数据 C、视频音频 D、csv文件
答案:C

16 .HDFS作为Hadoop中分布式存储单元,具备容灾容错的特性,不包括以下哪个情形( )
A、 名称节点(Namenode)出错B、数据节点出错 C、数据出错 D、调度出错
答案:D
17. MapReduce计算引擎,属于哪一种计算模式( )
A、 批量计算B、实时计算 C、流计算 D、查询分析
答案:A
18. 大数据框架中数据库很多,以下属于非关系型数据库的是 ( )
A、 Hive B、Mysql C、Hbase D、Oracle
答案:C
19. 智能健康手环的应用开发,体现了( )的数据采集技术的应用。
A、统计报表 B、网络爬虫 C、API接口 D、传感器
答案:D
20. 下列关于数据重组的说法中,错误的是( )。
A、数据重组是数据的重新生产和重新采集
B、数据重组能够使数据焕发新的光芒
C、数据重组实现的关键在于多源数据融合和数据集成
D、数据重组有利于实现新颖的数据模式创新
答案:A
22. Hive中可以使用SQL对数据表进行操作,对查询结果进行降序排列的关键函数是( )
A、Count ( ) B、DESC C、ASC D、Group by
答案:B
23. 数据采集是大数据开发工作的一个重要阶段,以下哪一个框架可以用于数据采集 ( )
A、 Hbase B、Flume C、Mahout D、Hive
答案:B
24.Hbase 可以实现超大规模的数据存储查询,它的存储是基于下面哪一个框架( )
A、Mysql B、HDFS C、GFS D、Spark
答案:B

25.下面哪一个框架是可靠的协同工作系统( )
A、Sqoop B、Flume C、Zookeeper D、Ambari
答案:C

26.大数据实时计算引擎 Spark作为目前企业主流的工具,其哪一个组件可以做实时计算( )
A、Spark core B、Spark Streaming C、Spark SQL D、Spark MLlib
答案:B

27.Client 端上传文件的时候下列哪项正确?
A、数据经过NameNode传递给DataNode
B、Client端将文件切分为Block,依次上传
C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作
D、以上都不正确
答案:B

30.HDFS1.0默认BlockSize大小是多少。
A、32MB
B、64MB
C、128MB
D、256MB
答案:B

32.Hadoop1.0默认的调度器策略是哪个。
A、先进先出调度器
B、计算能力调度器
C、公平调度器
D、优先级调度器
答案:A

34.在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功?
A、Namenode,Datanode,TaskTracker
B、Namenode,Datanode,secondaryNameNode
C、Namenode,Datanode,HMaster
D、Namenode,JobTracker,secondaryNameNode
答案:D

35.若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。
A、Max
B、Min
C、Count
D、Average
答案:D

36.MapReduce编程模型,键值对<key, value>的key必须实现哪个接口?
A、WritableComparable
B、Comparable
C、Writable
D、LongWritable
答案:A

37.以下哪一项属于非结构化数据。
A、企业ERP数据
B、财务系统数据
C、视频监控数据
D、日志数据
答案:C

38.HBase数据库的BlockCache缓存的数据块中,哪一项不一定能提高效率。
A、–ROOT-表
B、META表
C、HFileindex
D、普通的数据块
答案:D

39.HBase是分布式列式存储系统,记录按什么集中存放。
A、列族
B、列
C、行
D、不确定
答案:A

40.HBase的Region组成中,必须要有以下哪一项。
A、StoreFile
B、MemStore
C、HFile
D、MetaStore
答案:B

41.客户端首次查询HBase数据库时,首先需要从哪个表开始查找。
A、.META.
B、–ROOT-
C、用户表
D、信息表
答案:B

42.设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。
A、分桶
B、分区
C、索引
D、分表
答案:A

43.大数据技术的迅速发展,很大程度上取决于信息基础技术的发展,以下哪一个不是主要因素:
A、存储设备容量增加
B、CPU性能提升
C、网络带宽增加
D、自动化技术提升
答案:D

44

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北慕辰

你的鼓励是小北最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值