图片及目录防盗链解决方案

什么是防盗链
   简单的说,就是某些不法网站,通过在其自身网站程序里未经许可非法调用其它网站的资源,然后在自己的网站上显示这些调用的内容,达到填充自身网站显示的效果,但是消耗了了源站的网络流量,造成其他网站的带宽及服务压力吃紧,甚至宕机(图片水印,防火墙,防盗链)网站资源被盗链带来的问题
    最直接的影响就是网络带宽占用加大了,带宽费用损失,监控软件告警,服务器压力加大,甚至网站的正常用户访问也受到影响

如何及时发现盗链?

1、对IDC及CDN带宽做监控

2、作为高级运维或运维经理,每天上班的一个重要任务,就是经常查看网站流量图,关注流量变化与异常流量

3、访日日志分析,对于异常流量迅速定位,并且与市场推广有较好沟通,以便调度带宽和服务器资源,确保网站正常访问体验得到保证。


常见的防盗链解决方案的基本原理


1、根据http referer实现防盗链在HTTP协议中,有个表头字段叫referer,使用URL格式来表示从哪里来的链接到当前网页的资源,通过referer可以检测目标访问的来源网页,
如果是资源文件,可以跟踪到显示它的网页地址,一旦检测出来源不是本站,马上进行阻止或返回指定的页面HTTP Reffer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器是从哪个页面链接过来的,
服务器借此可以获得一些信息用于处理。Apache、Nginx、Lighttpd三者都支持根据此指令实现防盗链,目前referer是网站图片、附件、html等最常用的防盗链手段。

提示:nginx模块ngx_http_referer_module通常用于阻挡来源非法的域名请求.我们应该牢记,伪装Referer头部是非常简单的事情,所以这个模块只能用于阻止大部分非法请求.我们应该记住,有些合法的请求是不会带referer来源头部的,所以有时候不要拒绝来源头部(referer)为空的请求.
location ~* \.(gif|jpg|png|bmp)$ {
   valid_referers none blocked *.ttlsa.com server_names ~\.google\. ~\.baidu\.;
   if ($invalid_referer) {
       return 403;
       #rewrite ^/ http://www.ttlsa.com/403.jpg;
   }
}
以上所有来至ttlsa.com和域名中包含google和baidu的站点都可以访问到当前站点的图片,如果来源域名不在这个列表中,那么$invalid_referer等于1,在if语句中返回一个403给用户,这样用户便会看到一个403的页面,如果使用下面的rewrite,那么盗链的图片都会显示403.jpg。如果用户直接在浏览器输入你的图片地址,那么图片显示正常,因为它符合none这个规则.

2、根据cookie防盗链
通过ActiveX显示的内容不向服务器提供Referer Header(例如,Flash,WindowsMedia视频等)
ActiveX插件不传递Referer,但是却忠实的传递Cookie。于是在显示ActiveX的页面的 标签内嵌入一段代码:

这段代码用 javascript 设置了一段 Cookie: Cache=vod
然后通过各种ACL来判断这个Cookie的存在以及验证其值的操作了

3、通过加密变换访问路径实现防盗链
 lighttpd有类似的插件 mod_secdownload

4、Nginx web服务通过referer实现防盗链
a、利用referer并且针对扩展名rewrite重定向
location ~* \.(wma|wmv|asf|mp3|mmf|zip|rar|jpg|gif|png|swf|flv)$ {
    valid_referers none blocked *.lvnian.com lvnian.com;
    if ($invalid_referer)
{
    #rewrite ^/ http://www.765h.com/error.html;
    return  403;
     }
}
提示:根据自己公司实际业务进行域名设置(外链合作)
b、利用referer并且针对站点目录过滤返回错误代码
location /img/ {
root /data/img/;
   valid_referers none blocked *.lvnian.com lvnian.com;
 if ($invalid_referer) {
 rewrite ^/ http://www.lvnian.com/error.gif;
 #return 403;
 }
}

5、Nginx的HttpAccessKeyModule实现防盗链
6、产品设计上解决防盗链,为网站上传图片增加水印



配置错误页面优雅显示


在网站运行过程中,可能由于页面不存在或者系统过载等原因,导致网站无法正常响应用户请求,此时web服务默认会返回默认的错误代码,或者不友好的页面我们可以将404、403等错误信息页面重定向到网站首页或者其他事先指定的页面,提升用户体验
server {    
listen    80;    
server_name    www.gtms.org;    
location / {        
root        html/www;       
 index    index.html index.htm;           
  }    
  
  error_page    403        /403.html    
  error_page    404        /404.html   
   error_page    404        http://www.gtms.org
}
    扩展(天猫)
    error_page  500 501 502 503 504 
     error_page  400 403 404 405 408 410 411 412 413 414 415 http://XXX/error1.html


 



nginx站点目录文件及目录权限优化


单机LNMP环境目录权限严格控制措施为了保证网站不遭受******,所有站点目录的用户和组都应该为root,所有目录权限设置为755,所有文件权限是644,然后把用户上传资源的目录权限设置为755 ,用户和组设置为nginx服务的用户,最后针对上传资源的目录做资源访问控制

大多数公司的不安全的授权如下:
1)chmod -R 777 /sitedir(最不安全)
2) chmod -R nginx.nginx /sitedir(最不安全)
如果大多数公司授权一般的授权,会给网站带来最大的安全隐患,特别是******在较好的网站业务架构中,应把资源文件,包括用户上传的图片、附件等服务和程序服务分离,最好把上传程序服务也分离,这样可以从容按照前面安全的标准授权了


 



防爬虫优化(开发管)

Nginx防蜘蛛爬虫处理
假定一个场景:某个网站它可能不希望被网络爬虫抓取,例如测试环境不希望被抓取,以免对用户造成误导,那么需要在该网站中申明,本站不希望被抓取。有如下方法:
方法一:修改nginx.conf,禁止网络爬虫的ua,返回403。
server { 
listen 80; 
server_name 127.0.0.1; 
#添加如下内容即可防止爬虫if ($http_user_agent ~* " qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") 
{ 
return 403; 
}

方法2:网站更目录下增加Robots.txt,放在站点根目录下。
在http://tool.chinaz.com/robots/站点可以针对现在的搜索引擎按照想要的规则生成robots.txt文件。知识扩展:
       robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
   当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;
如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。 Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;2、网站有义务保护其使用者的个人信息和隐私不被侵犯。 当然,如果搜索引擎不遵守约定的Robots协议,那么通过在网站下增加robots.txt也是不起作用的。(在正式环境中,可以适当允许搜索引擎抓取收录)


 



利用nginx限制http的请求方法


其中最常用的http方法为GET、POST,我们可以通过nginx限制http请求的方法来达到提升服务器安全的目的,例如,让http只能使用GET、HEAD和POST方法的配置如下
if ($request_method !~ ^(GET|HEAD|POST)$ )
{
return 501;
}
#可以控制对设置针对某几个php不能get在上传服务器其上限制HTTP的GET方法配置如下
if ($request_method !~ ^(GET)$ ){return 501;}
#还可以加一层location更具体的显示文件名


 

使用CDN做网站内容加速


CDN的全称是Content Delivery Network,即内容分发网络。(网宿、蓝讯、快网)
简单的讲,通过现有的internet中增加一层新的网络架构,将网站的内容发布到最接近用户的cache服务器,通过只能DNS负载均衡技术,判断用户的来源,让用户就近使用和服务器相同线路的带宽访问cache服务器取得所需内容
例如:天津网通用户访问田间网通cache服务器上的内容,北京电信访问北京电信cache服务器上的内容,
这样可以减少数据在网络上传输的时间,提高访问速度BGP机房虽然可以提升用户体验,但是价格昂贵,对于用户来说,CDN的诞生可以提供比机房更好的体验(让同一地区、同一线路的用户访问和当地的网站)。
BGP机房和普通机房有将近5-10倍的价格差。CDN多使用单线的机房,根据用户的线路以及位置,为用户选择靠近用户位置以及相同的运营商线路,不但提升了用户体验,价格也降下来了。

CDN的价值
1、为架设网站的用户省钱
2、提升企业网站用户的访问体验(相同线路、相同地域、内存访问)
3、可以阻挡大部分流量***,例如DDOS

100万PV架构设计思路:首先应该尽量考虑把网站数据放到CDN中的缓存,这样计算网站总流量总访问量减去CDN的访问流量后,剩下的访问量规模需要的架构才是我们需要设计考虑的,一个良好的网站架构设计,访问量尽量都交给CDN


 



为网站程序解耦


解耦是开发人员中流行的一个名词,简单的说就是把一堆程序代码按照业务用途分开,然后提供服务,
例如:注册登录、上传、下载、浏览列表、商品内容页面、订单支付等都应该是独立的程序服务、只不过在客户端看来是一个整体而已。
如果中小公司做不到上述细致的解耦,起码也要让下面的几个程序模块独立

1、网页页面服务

2、图片附件及下载服务

3、上传图片服务上述三者的功能尽量分离


 



解决普通端口非80提供服务的问题

用lb解决web服务非80端口的转换问题(haproxy、nginx、f5)
本解决方案优点
1、给nginx服务降权,让网站更安全
2、按用户设置站点权限,使站点更独立
3、开发不需要用root即可完整的管理服务器及站点
4、可实现对责任的划分:网络问题属于运维责任,网站打不开就是开发责任或共同承担

 



控制nginx并发连接数量


Module ngx_http_limit_conn_module
此模块用于限制每个定义的key值得连接数,特别是单IP的连接数,不是所有的连接数都被计数,一个符合要求的连接时一个由服务器处理的请求,整个请求头已经被读取
1、限制单IP并发连接数(可用于down限制)
http {    
limit_conn_zone $binary_remote_addr zone=addr:10m;    ...    
server {      ...        
location /download/ {            
limit_conn addr 1;        
}
# allow only one connection per an IP address at a time.
Syntax: limit_conn_zone key zone=name:size;
Default: —  
Context: http 
设置共享内存区域,key可以是字符串、nginx自有变量或者两者组合,如$binary_remote_addr、$server_name。name为内存区域的名称,size为内存区域的大小。Syntax: limit_conn zone number;Default: —  Context: http, server, location 为指定key设置最大并发连接数,超过时返回503
#测试并发连接3,访问10次ab -c 3 -n 10 
 #测试并发连接1,访问10次ab -c 1 -n 10 http://ip



限制虚拟主机总连接数


不仅可以限制单IP的并发连接数,还可以限制虚拟主机总连接数,可以同时使用
limit_conn_zone $binary_remote_addr zone=perip:10m;
limit_conn_zone $server_name zone=perserver:10m;

server {    
...    limit_conn perip 10;    
limit_conn perserver 100;
提示:nginx内部变量表http://nginx.org/en/docs/varindex.html



控制客户端请求nginx的速率


此模块用于限制每个IP访问每个定义key的请求速率
http {    
limit_req_zone $binary_remote_addr zone=one:10m rate=1r/s;    #定义共享区    ...    
server {        ...        
location /search/
 {            
 limit_req zone=one burst=5;    #使用定义的one内存空间,队列值5,即5个请求排队等待        
 }}
 Syntax: limit_req_zone key zone=name:size rate=rate;
 Default: —  
 Context: http 
 设置共享内存区域,key可以是字符串、nginx自有变量或者两者组合,如$binary_remote_addr、$server_name。name为内存区域的名称,size为内存区域的大小。rate为速率,单位为r/s,每秒一个请求
 Syntax: limit_req zone=name [burst=number] [nodelay];Default: —  Context: http, server, location 
 运用了令牌桶原理,burst=number,一共有num块令牌,发完后,多出来的请求就会返回503
 换句话说,一个银行,只有一个营业员,银行很小,等候室只有5个人的位置。因此营业员一个时刻只能为一个人提供服务,剩下的不超过5个人可以在银行内等待,超出的人直接不提供服务,返回503
 nodelay默认在不超过burst值得情况下会排队等待处理,就会处理完num+1次请求,剩余都视为超时503
 #测试并发连接3,访问10次ab -c 6  -n 10 http://ip