分布式文件系统Hadoop、GoogleFS、RAID介绍_磁盘阵列和hadoop优劣-CSDN博客

本文介绍了分布式文件系统Hadoop的HDFS特性，如何存储超大文件并保证高容错性；GoogleFS的结构，包括主服务器、数据块服务器和副本策略；RAID的优势，如提高传输速率和提供容错功能；以及DAS、SAN、NAS三种存储方式的区别和应用场景。

一、Hadoop

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

和MYSQL是建立在操作系统的文件系统上一样，Hbase也是建立在HDFS这样的分布式文件系统上。HDFS就像您说的，把一个文件分成64M大小的块，分布到集群里各台机器上（一般每一块保留三个备份，同一机架上两台节点保存其中两个，另一机架上一个节点保存另外一个，这样来保证数据不至于因为一台机器、一台机架的宕机、断网导致数据块无法访问），HDFS利用这种方法来存储一个超大的文件，使得保存在不同节点上的文件看上去像是保存在本地硬盘的文件。但是HDFS只保存数据，对数据的解释是由其上的程序来处理的。比如您可以利用一个map/reduce的程序来对一个超大文件进行分析。

Hbase实现了一个数据库，和MYSQL类似，支持插入一行、增加一列之类的操作，你在Hbase里存储的数据最终会以某种格式存放在HDFS上，Hbase负责解释这些数据。由于HBase建立在HDFS之上，天生就拥有分布式的存储系统，这样即使保存PB级的数据，也完全可以支撑，相比之下，MYSQL只能运行在单机上，很难管理如此巨量的数据。

二、GoogleFS

GoogleFS包括一个主服务器和多个大数据块服务器，这些块服务器响应多个客户端的访问请求。文件被分割成64MB固定大小的数据块（Chunk），它分布在各个块服务器上，每个块在多个服务器上都