大数据和Hadoop

一、大数据的特征

大数据主要具有四个方面的典型特征,即大量(Volume)、多样(Variety)、高速(Velocity)和价值(Value),即“4V“。

大量(Volume):数据量的存储单位从过去的GB到TB、甚至达到PB、EB

多样(Variety):数据类型复杂多样,包括结构型数据、非结构型数据、源数据、处理数据等

高速(Velocity):大数据采集、处理计算速度较快、能满足实时数据分析需求

价值(Value):将原始数据经过采集、清洗、深度挖掘、数据分析后具有较高的商业价值

二、结构化数据和非结构化数据

结构化数据:

结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。

例子:关系数据库中的数据表、Excel电子表格、SQL数据库中的数据

非结构化数据:

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。

例子:社交媒体帖子、视频和音频文件、文档和PDF文件

三、Hadoop生态圈

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值