FastDFS是用c语言编写的一筐开源的分布式文件系统,充分考虑了冗余备份,负载均衡,线性扩容等机制,并注重高可用.高性能等指标,使用FastDFS可以很容易搭建一套高性能的文件服务器集群提供文件上传下载.
FastDFS架构包括Tracker Server和Storage Server.客户端请求Tracker Server进行文件的上传下载,通过Tracker Server调度最终由Storage Server完成文件的上传和下载;
FastDFS集群中的Tracker Server可以有多台,Tracker Server之间是互相平等关系同事提供服务,不存在单点故障,客户端向Tracker Server请求采用轮询方式,
Storage集群采用了分组存储方式,storage集群由一个或者多个组构成,集群存储的总容量就是所有组的存储之和,一个组由多个存储服务器组成,组内的所有Storage Server之间是平等关系,会相互连接 进行文件同步,从而保证组内的所有Storage Server的文件内容一致,不同组之间的Storage Server之间不会相互通信.
采用分组存储的方式的好处是实现了冗余备份,负载均衡,线性扩容的机制,当一个组的服务器的访问的压力比较大 的时候可以在各组之内增加存储服务器来扩充服务能力(纵向扩容),当系统的容量不足时,可以增加组来扩充容量(横向扩容)
FastDFS同组中的Storage Server的数据是同步的,Storage Server对组内除自己以外的每台服务器都会启动专门的线程根据binlog进行文件同步,binlog中只记录文件名,不记录文件内容.当组内新加入一台服务器时,由已有的一台Storage Server将己有的所有数据(包括源头数据和备份数据)全部同步给这台新服务器.文件上传至组内的一台Storage Server后再由这台Storage Server根据binlog同步给组内的其他服务器这种同步的方式为异步方式,异步方式带来了文件同步延迟的问题,新文件上传之后,在汕尾被同步过去的Storage serVer中下载该文件的时候就会出现文件找不到的现象
首先要知道的是,一个组中包含哪些Storage Server不是通过配置文件设定的,而是通过Tracker Server获取到的,Storage Server会启动一个单独的线程完成对一台Tracker Server的连接和定时报告, Storage Server主动向Tracker Server报告其状态信息,包括磁盘剩余空间,文件同步状况,文件上传下载次数等统计信息,另外,每台Storage Server都会定时向Tracker Server报告它向同组其他机器同步到的文件时间戳.当Tracker Server收到一台Storage Server发来的同步报告之后,他会依次找出该组中各个Storage Server被同步到的文件时间戳最小值,作为Storage Server的一个属性记录到内存中,根据上述情况FastDFS提供下面简单的解决方案:
a.该文件上传到的源Storage Server,文件直接上传到该服务器上的
b.文件创建时间戳 < Storage Server被同步到的文件时间戳.这意味着当前文件已经被同步过来了
c.文件创建时间戳 = Storage Server 被同步到的文件时间戳 并且 (当前时间-文件创建时间戳) > 一个文件同步需要完成需要的最大时间
d.(当前时间-文件创建时间) > 文件同步延迟阈值,比如我们把阈值设置为一条,代表文件在一天之内肯定能完成同步
简而言之:就是所有的Storage Server都会向Stracker Server提交自己的状态信息和文件同步信息,当客户端来想Tracker发起下载请求时,Tracker Server会根据Storage Server提供的信息一定会返回给客户端一个 一定有完成同步的Storage Server的地址
tracker和storage使用相同的安装包
下载地址:http://sourceforge.net/projects/FastDFS/ 或https://github.com/happyfish100/FastDFS(推荐
本教程下载:FastDFS_v5.05.tar.gz
FastDFS是C语言开发,建议在linux上运行,本教程使用Centos6.4作为安装环境。
安装FastDFS需要先将官网下载的源码进行编译,编译依赖gcc环境,如果没有gcc环境,需要安装gcc:yum install gcc-c++
FastDFS依赖libevent库,需要安装:
yum -y install libevent
libfastcommon是FastDFS官方提供的,libfastcommon包含了FastDFS运行所需要的一些基础库。
将libfastcommonV1.0.7.tar.gz拷贝至/usr/local/下
cd /usr/local
tar -zxvf libfastcommonV1.0.7.tar.gz
cd libfastcommon-1.0.7
./make.sh
./make.sh install
注意:libfastcommon安装好后会自动将库文件拷贝至/usr/lib64下,由于FastDFS程序引用usr/lib目录所以需要将/usr/lib64下的库文件拷贝至/usr/lib下。
要拷贝的文件如下:
将FastDFS_v5.05.tar.gz拷贝至/usr/local/下
tar -zxvf FastDFS_v5.05.tar.gz
cd FastDFS
./make.sh
./make.sh install
安装成功将安装目录下的conf下的文件拷贝到/etc/fdfs/下。
安装成功后进入/etc/fdfs目录:
拷贝一份新的tracker配置文件:
cp tracker.conf.sample tracker.conf
修改tracker.conf
vi tracker.conf
base_path=/home/yuqing/FastDFS
改为:
base_path=/home/FastDFS
/usr/bin/fdfs_trackerd /etc/fdfs/tracker.conf restart
启动的日志显示先停止5619进程(实际环境不是5619)再启动,如下图:
注意:如果没有显示上图要注意是否正常停止原有进程。
[root@tracker FastDFS]# vim /etc/rc.d/rc.local |
将运行命令行添加进文件:/usr/bin/fdfs_trackerd /etc/fdfs/tracker.conf restart
同tracker安装
同tracker安装。
同tracker编译安装。
安装成功后进入/etc/fdfs目录:
拷贝一份新的storage配置文件:
cp storage.conf.sample storage.conf
修改storage.conf
vi storage.conf
group_name=group1
base_path=/home/yuqing/FastDFS改为:base_path=/home/FastDFS
store_path0=/home/yuqing/FastDFS改为:store_path0=/home/FastDFS/fdfs_storage
#如果有多个挂载磁盘则定义多个store_path,如下
#store_path1=.....
#store_path2=......
tracker_server=192.168.101.3:22122 #配置tracker服务器:IP
#如果有多个则配置多个tracker
tracker_server=192.168.101.4:22122
/usr/bin/fdfs_storaged /etc/fdfs/storage.conf restart
启动的日志显示先停止8931进程(实际环境不是8931)再启动,如下图:
注意:如果没有显示上图要注意是否正常停止原有进程。
[root@storage1 FastDFS]# vim /etc/rc.d/rc.local |
将运行命令行添加进文件:/usr/bin/fdfs_storaged /etc/fdfs/storage.conf restart
FastDFS安装成功可通过/usr/bin/fdfs_test测试上传、下载等操作。
修改/etc/fdfs/client.conf
base_path=/home/fastdfs
tracker_server=192.168.101.3:22122
使用格式:
/usr/bin/fdfs_test 客户端配置文件地址 upload 上传文件
比如将/home下的图片上传到FastDFS中:
/usr/bin/fdfs_test /etc/fdfs/client.conf upload /home/tomcat.png
http://192.168.101.3/group1/M00/00/00/wKhlBVVY2M-AM_9DAAAT7-0xdqM485_big.png就是文件的下载路径。
对应storage服务器上的
/home/fastdfs/fdfs_storage/data/00/00/wKhlBVVY2M-AM_9DAAAT7-0xdqM485_big.png文件。
由于现在还没有和nginx整合无法使用http下载。
完整的测试方法参考测试源代码。
public class FastdfsClientTest {
//客户端配置文件
public String conf_filename = "F:\\workspace_indigo\\fastdfsClient\\src\\cn\\itcast\\fastdfs\\cliennt\\fdfs_client.conf";
//本地文件,要上传的文件
public String local_filename = "F:\\develop\\upload\\linshiyaopinxinxi_20140423193847.xlsx";
//上传文件
@Test
public void testUpload() {
for(int i=0;i<100;i++){
try {
ClientGlobal.init(conf_filename);
TrackerClient tracker = new TrackerClient();
TrackerServer trackerServer = tracker.getConnection();
StorageServer storageServer = null;
StorageClient storageClient = new StorageClient(trackerServer,
storageServer);
NameValuePair nvp [] = new NameValuePair[]{
new NameValuePair("item_id", "100010"),
new NameValuePair("width", "80"),
new NameValuePair("height", "90")
};
String fileIds[] = storageClient.upload_file(local_filename, null,
nvp);
System.out.println(fileIds.length);
System.out.println("组名:" + fileIds[0]);
System.out.println("路径: " + fileIds[1]);
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
}
}
}
nginx的安装细节参考nginx文档。
在每个tracker上安装nginx,的主要目的是做负载均衡及实现高可用。如果只有一台tracker服务器可以不配置nginx
将FastDFS-nginx-module_v1.16.tar.gz传至/usr/local/下
cd /usr/local
tar -zxvf FastDFS-nginx-module_v1.16.tar.gz
cd FastDFS-nginx-module/src
修改config文件将/usr/local/路径改为/usr/
将FastDFS-nginx-module/src下的mod_FastDFS.conf拷贝至/etc/fdfs/下
cp mod_FastDFS.conf /etc/fdfs/
并修改mod_FastDFS.conf的内容:
vi /etc/fdfs/mod_FastDFS.conf
base_path=/home/FastDFS
tracker_server=192.168.101.3:22122
#tracker_server=192.168.101.4:22122(多个tracker配置多行)
url_have_group_name=true #url中包含group名称
store_path0=/home/FastDFS/fdfs_storage #指定文件存储路径
将libfdfsclient.so拷贝至/usr/lib下
cp /usr/lib64/libfdfsclient.so /usr/lib/
创建nginx/client目录
mkdir -p /var/temp/nginx/client
添加FastDFS-nginx-module模块
./configure \
--prefix=/usr/local/nginx \
--pid-path=/var/run/nginx/nginx.pid \
--lock-path=/var/lock/nginx.lock \
--error-log-path=/var/log/nginx/error.log \
--http-log-path=/var/log/nginx/access.log \
--with-http_gzip_static_module \
--http-client-body-temp-path=/var/temp/nginx/client \
--http-proxy-temp-path=/var/temp/nginx/proxy \
--http-fastcgi-temp-path=/var/temp/nginx/fastcgi \
--http-uwsgi-temp-path=/var/temp/nginx/uwsgi \
--http-scgi-temp-path=/var/temp/nginx/scgi \
--add-module=/root/fastdfs-nginx-module/src
make
make install
新建一个nginx配置文件nginx-fdfs.conf.
添加server:
server {
listen 80;
server_name 192.168.101.3;
location /group1/M00/{
#root /home/FastDFS/fdfs_storage/data;
ngx_fastdfs_module;
}
}
说明:
server_name指定本机ip
location /group1/M00/:group1为nginx 服务FastDFS的分组名称,M00是FastDFS自动生成编号,对应store_path0=/home/FastDFS/fdfs_storage,如果FastDFS定义store_path1,这里就是M01
通过java客户端上传文件,使用浏览器访问,比如访问上传图片测试的文件:
访问storage:
http://192.168.101.3/group1/M00/00/00/wKhlBVVY2M-AM_9DAAAT7-0xdqM485_big.png
1 基本配置
disable
#func:配置是否生效
#valu:true、false
disable=false
bind_addr
#func:绑定IP
#valu:IP地址
bind_addr=192.168.6.102
port
#func:服务端口
#valu:端口整数值
port=22122
connect_timeout
#func:连接超时
#valu:秒单位正整数值
connect_timeout=30
network_timeout
#func:网络超时
#valu:秒单位正整数值
network_timeout=60
base_path
#func:Tracker数据/日志目录地址
#valu:路径
base_path=/home/michael/fdfs/base4tracker
max_connections
#func:最大连接数
#valu:正整数值
max_connections=256
work_threads
#func:线程数,通常设置CPU数
#valu:正整数值
work_threads=4
store_lookup
#func:上传文件的选组方式。
#valu:0、1或2。
# 0:表示轮询
# 1:表示指定组
# 2:表示存储负载均衡(选择剩余空间最大的组)
store_lookup=2
store_group
#func:指定上传的组,如果在应用层指定了具体的组,那么这个参数将不会起效。另外如果store_lookup如果是0或2,则此参数无效。
#valu:group1等
store_group=group1
store_server
#func:上传服务器的选择方式。(一个文件被上传后,这个storage server就相当于这个文件的storage server源,会对同组的storage server推送这个文件达到同步效果)
#valu:0、1或2
# 0: 轮询方式(默认)
# 1: 根据ip 地址进行排序选择第一个服务器(IP地址最小者)
# 2: 根据优先级进行排序(上传优先级由storage server来设置,参数名为upload_priority),优先级值越小优先级越高。
store_server=0
store_path
#func:上传路径的选择方式。storage server可以有多个存放文件的base path(可以理解为多个磁盘)。
#valu:
# 0: 轮流方式,多个目录依次存放文件
# 2: 存储负载均衡。选择剩余空间最大的目录存放文件(注意:剩余磁盘空间是动态的,因此存储到的目录或磁盘可能也是变化的)
store_path=0
download_server
#func:下载服务器的选择方式。
#valu:
# 0:轮询(默认)
# 1:IP最小者
# 2:优先级排序(值最小的,优先级最高。)
download_server=0
reserved_storage_space
#func:保留空间值。如果某个组中的某个服务器的剩余自由空间小于设定值,则文件不会被上传到这个组。
#valu:
# G or g for gigabyte
# M or m for megabyte
# K or k for kilobyte
reserved_storage_space=1GB
log_level
#func:日志级别
#valu:
# emerg for emergency
# alert
# crit for critical
# error
# warn for warning
# notice
# info for information
# debug for debugging
log_level=info
run_by_group / run_by_user
#func:指定运行该程序的用户组
#valu:用户组名或空
run_by_group=
#func:
#valu:
run_by_user=
allow_hosts
#func:可以连接到tracker server的ip范围。可设定多个值。
#valu
allow_hosts=
check_active_interval
#func:检测 storage server 存活的时间隔,单位为秒。
# storage server定期向tracker server 发心跳,
# 如果tracker server在一个check_active_interval内还没有收到storage server的一次心跳,
# 那边将认为该storage server已经下线。所以本参数值必须大于storage server配置的心跳时间间隔。
# 通常配置为storage server心跳时间间隔的2倍或3倍。
check_active_interval=120
thread_stack_size
#func:设定线程栈的大小。 线程栈越大,一个线程占用的系统资源就越多。
# 如果要启动更多的线程(V1.x对应的参数为max_connections,V2.0为work_threads),可以适当降低本参数值。
#valu:如64KB,默认值为64,tracker server线程栈不应小于64KB
thread_stack_size=64KB
storage_ip_changed_auto_adjust
#func:这个参数控制当storage server IP地址改变时,集群是否自动调整。注:只有在storage server进程重启时才完成自动调整。
#valu:true或false
storage_ip_changed_auto_adjust=true
2 同步
storage_sync_file_max_delay
#func:同组storage服务器之间同步的最大延迟时间。存储服务器之间同步文件的最大延迟时间,根据实际情况进行调整
#valu:秒为单位,默认值为1天(24*3600)
#sinc:v2.0
storage_sync_file_max_delay=86400
storage_sync_file_max_time
#func:存储服务器同步一个文件需要消耗的最大时间,缺省为300s,即5分钟。
#sinc:v2.0
storage_sync_file_max_time=300
sync_log_buff_interval
#func:同步或刷新日志信息到硬盘的时间间隔。注意:tracker server 的日志不是时时写硬盘的,而是先写内存。
#valu:以秒为单位
sync_log_buff_interval=10
3 trunk 和 slot
#func:是否使用trunk文件来存储几个小文件
#valu:true或false
#sinc:v3.0
use_trunk_file=false
#func:最小slot大小
#valu:<= 4KB,默认为256字节
#sinc:v3.0
slot_min_size=256
#func:最大slot大小
#valu:>= slot_min_size,当小于这个值的时候就存储到trunk file中。默认为16MB。
#sinc:v3.0
slot_max_size=16MB
#func:trunk file的size
#valu:>= 4MB,默认为64MB
#sinc:v3.0
trunk_file_size=64MB
4 HTTP 相关
是否启用 HTTP
#func:HTTP是否生效
#valu:true或false
http.disabled=false
HTTP 服务器端口号
#func:tracker server上的http port
#valu:
#note:只有http.disabled=false时才生效
http.server_port=7271
检查Storage存活状态的间隔时间(心跳检测)
#func:检查storage http server存活的间隔时间
#valu:单位为秒
#note:只有http.disabled=false时才生效
http.check_alive_interval=30
心跳检测使用的协议方式
#func:检查storage http server存活的方式
#valu:
# tcp:连接到storage server的http端口,不进行request和response。
# http:storage check alive url must return http status 200.
#note:只有http.disabled=false时才生效
http.check_alive_type=tcp
检查 Storage 状态的 URI
#func:检查storage http server是否alive的uri/url
#note:只有http.disabled=false时才生效
http.check_alive_uri=/status.html