系统，FastDFS 、 GlusterFS 、Ceph 分析

关键字：‘群集’、‘文件’、’开源’

对比说明 /文件系统	FastDFS	GlusterFS	Ceph
开发语言	C	C	C++
开源协议	GPL V3	GPL V3	LGPL
数据存储方式	文件/Trunk	文件/块	对象/文件/块
集群节点通信协议	私有协议（TCP）	私有协议（TCP）/ RDAM(远程直接访问内存)	私有协议（TCP）
专用元数据存储点	无	无	占用MDS
在线扩容	支持	支持	支持
冗余备份	支持	支持	支持
单点故障	不存在	不存在	存在
跨集群同步	部分支持	支持	不适用
易用性	安装简单，社区相对活跃	安装简单，官方文档专业化	安装简单，官方文档专业化
适用场景	单集群的中小文件	跨集群云存储	单集群的大中小文件

开源协议说明

GPL:不允许修改后和衍生的代码做为闭源的商业软件发布和销售，修改后该软件产品必须也采用GPL协议；

GPL V2：修改文本的整体就必须按照GPL流通，不仅该修改文本的源码必须向社会公开，而且对于这种修改文本的流通不准许附加修改者自己作出的限制;

GPL V3：要求用户公布修改的源代码，还要求公布相关硬件;LGPL：更宽松的GPL

FastDFS

FastDFS是国人开发的一款分布式文件系统，目前社区比较活跃。如上图所示系统中存在三种节点：Client、Tracker、Storage，在底层存储上通过逻辑的分组概念，使得通过在同组内配置多个Storage，从而实现软RAID10,提升并发IO的性能、简单负载均衡及数据的冗余备份；同时通过线性的添加新的逻辑存储组，从容实现存储容量的线性扩容。

文件下载上，除了支持通过API方式，目前还提供了apache和nginx的插件支持，同时也可以不使用对应的插件，直接以Web静态资源方式对外提供下载。

目前FastDFS(V4.x)代码量大概6w多行，内部的网络模型使用比较成熟的libevent三方库，具备高并发的处理能力。

§ 特性

1）在上述介绍中Tracker服务器是整个系统的核心枢纽，其完成了访问调度（负载均衡），监控管理Storage服务器，由此可见Tracker的作用至关重要，也就增加了系统的单点故障，为此FastDFS支持多个备用的Tracker，虽然实际测试发现备用Tracker运行不是非常完美，但还是能保证系统可用。

2）在文件同步上，只有同组的Storage才做同步，由文件所在的源Storage服务器push至其它Storage服务器，目前同步是采用Binlog方式实现，由于目前底层对同步后的文件不做正确性校验，因此这种同步方式仅适用单个集群点的局部内部网络，如果在公网上使用，肯定会出现损坏文件的情况，需要自行添加文件校验机制。

3）支持主从文件，非常适合存在关联关系的图片，在存储方式上，FastDFS在主从文件ID上做取巧，完成了关联关系的存储。

§ 优点

1）系统无需支持POSIX(可移植操作系统)，降低了系统的复杂度，处理效率更高

2）支持在线扩容机制，增强系统的可扩展性

3）实现了软RAID，增强系统的并发处理能力及数据容错恢复能力

4）支持主从文件，支持自定义扩展名

5）主备Tracker服务，增强系统的可用性

§ 缺点

1）不支持断点续传，对大文件将是噩梦（FastDFS不适合大文件存储）

2）不支持POSIX通用接口访问，通用性较低

3）对跨公网的文件同步，存在较大延迟，需要应用做相应的容错策略

4）同步机制不支持文件正确性校验，降低了系统的可用性

5）通过API下载，存在单点的性能瓶颈

§ 应用场景

1）单集群部署的应用

2）存储后基本不做改动

3）小中型文件根据

目前官方提供的材料，现有的使用FastDFS系统存储容量已经达到900T，物理机器已经达到100台（50个组）

GlusterFS

GlusterFS是Red Hat旗下的一款开源分布式文件系统，它具备高扩展、高可用及高性能等特性，由于其无元数据服务器的设计，使其真正实现了线性的扩展能力，使存储总容量可轻松达到PB级别，支持数千客户端并发访问；对跨集群，其强大的Geo-Replication可以实现集群间数据镜像，而且是支持链式复制，这非常适用于垮集群的应用场景

§ 特性

1）目前GlusterFS支持FUSE方式挂载，可以通过标准的NFS/SMB/CIFS协议像访问本体文件一样访问文件系统，同时其也支持HTTP/FTP/GlusterFS访问，同时最新版本支持接入Amazon的AWS系统

2）GlusterFS系统通过基于SSH的命令行管理界面，可以远程添加、删除存储节点，也可以监控当前存储节点的使用状态

3）GlusterFS支持集群节点中存储虚拟卷的扩容动态扩容；同时在分布式冗余模式下，具备自愈管理功能，在Geo冗余模式下，文件支持断点续传、异步传输及增量传送等特点

§ 优点

1）系统支持POSIX(可移植操作系统)，支持FUSE挂载通过多种协议访问，通用性比较高

2）支持在线扩容机制，增强系统的可扩展性

3）实现了软RAID，增强系统的 并发处理能力及数据容错恢复能力

4）强大的命令行管理，降低学习、部署成本

5）支持整个集群镜像拷贝，方便根据业务压力，增加集群节点

6）官方资料文档专业化，该文件系统由Red Hat企业级做维护，版本质量有保障

§ 缺点

1）通用性越强，其跨越的层次就越多，影响其IO处理效率

2）频繁读写下，会产生垃圾文件，占用磁盘空间

§ 应用场景

1）多集群部署的应用

2）中大型文件根据目前官方提供的材料，现有的使用GlusterFS系统存储容量可轻松达到PB

§ 术语：

brick：分配到卷上的文件系统块；

client：挂载卷，并对外提供服务；

server：实际文件存储的地方；

subvolume：被转换过的文件系统块；

volume：最终转换后的文件系统卷。

Ceph

Ceph是一个可以按对象/块/文件方式存储的开源分布式文件系统，其设计之初，就将单点故障作为首先要解决的问题，因此该系统具备高可用性、高性能及可扩展等特点。该文件系统支持目前还处于试验阶段的高性能文件系统BTRFS(B-Tree文件系统)，同时支持按OSD方式存储，因此其性能是很卓越的，因为该系统处于试商用阶段，需谨慎引入到生产环境

§ 特性

1）Ceph底层存储是基于RADOS（可靠的、自动的分布式对象存储），它提供了LIBRADOS/RADOSGW/RBD/CEPH FS方式访问底层的存储系统，如下图所示

2）通过FUSE，Ceph支持类似的POSIX访问方式；Ceph分布式系统中最关键的MDS节点是可以部署多台，无单点故障的问题，且处理性能大大提升

3）Ceph通过使用CRUSH算法动态完成文件inode number到object number的转换，从而避免再存储文件metadata信息，增强系统的灵活性

§ 优点

1）支持对象存储（OSD）集群，通过CRUSH算法，完成文件动态定位，处理效率更高

2）支持通过FUSE方式挂载，降低客户端的开发成本，通用性高

3）支持分布式的MDS/MON，无单点故障

4）强大的容错处理和自愈能力5）支持在线扩容和冗余备份，增强系统的可靠性

§ 缺点

1）目前处于试验阶段，系统稳定性有待考究

§ 应用场景

1）全网分布式部署的应用

2）对实时性、可靠性要求比较高官方宣传，存储容量可轻松达到PB级别

总结;

1、FastDFS是一款类似Google FS的开源分布式文件系统，是纯C语言开发的。

FastDFS是一个开源的轻量级分布式文件系统，它对文件进行管理，功能包括：文件存储、文件同步、文件访问（文件上传、文件下载）等，解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务，如相册网站、视频网站等等。

2、GlusterFS 是Red Hat旗下的一款开源分布式文件系统，它具备高扩展、高可用及高性能等特性，由于其无元数据服务器的设计，使其真正实现了线性的扩展能力，使存储总容量可轻松达到PB级别，支持数千客户端并发访问；对跨集群，其强大的Geo-Replication可以实现集群间数据镜像，而且是支持链式复制，这非常适用于垮集群的应用场景

3、Ceph是加州大学圣克鲁兹分校的Sage weil攻读博士时开发的分布式文件系统。说 ceph 性能最高，C++编写的代码，支持Fuse，并且没有单点故障依赖，于是下载安装，由于 ceph 使用 btrfs 文件系统，而btrfs 文件系统需要 Linux 2.6.34 以上的内核才支持。

可是ceph太不成熟了，它基于的btrfs本身就不成熟，它的官方网站上也明确指出不要把ceph用在生产环境中。

搜索此博客

recommend linux

系统，FastDFS 、 GlusterFS 、Ceph 分析

系统，FastDFS 、 GlusterFS 、Ceph 分析

评论

发表评论