1,误操作导致文件损坏
时间:2002年5月
特点:第一次触发错误操作
心情:超级紧张,全身冒冷汗
详情:下班同事一起外出吃饭,走之前在披露跑一个删除用户的脚本。想着吃饭回来继续弄,没有盯着总是不好,强行停止了脚本。结果回来发现邮局系统最重要的记录文件损坏,数据丢失。
修复:幸好文件有规律可循,赶紧通过其它文件,写脚本重新生成
备注:人们对于自己的第一次工作失误总是印象深刻,幸好领导还不错,指导我如何修复文件
2,邮件系统安全设定不足,导致被乱发邮件
时间:2002年10月
详情:当时负责邮件系统的运维工作,当时的邮件系统还是非常高大上的工作,能够运营的公司非常少,一台服务器同时承担Web服务和邮件系统服务。由于服务器配置不当,被用户监测到新服务器OpenRelay没有关闭,用来发送垃圾邮件。
修复:直接关闭OpenRelay,漏洞的原因非常简单,不认真
3,主业务数据库被拖库
时间:2004年8月
特点:第一次听闻重大运维安全事故
心情:旁观者,事不关己;心情还是很紧张的
详情:当时还是普通员工身份,没有接触到核心业务。主网站平台,由于程序漏洞,导致被上传文件,从而将打包的数据库备份文件直接拖走。老大发现后,根据黑客留下来的痕迹,联系上了当事人,恩威并施,一方面威胁报警,另一方面给予一定量Q币。黑客估计当时也是经验不足,遗留了很多痕迹,心理也比较脆弱,和谈解决。
复盘:重大的漏洞,大部分都是由于日常的工作不小心严谨造成的
4,程序漏洞导致域名丢失
时间:2006年~2010年
特点:专门针对业务流程的安全
详情:当时域名还是比较火的业务,有一群专门的域名黑客,盯着几家大的域名服务商的平台,详细研究业务流程,根据页面的某个漏洞,不断渗透,非法转移走域名。因为域名被转移后,一部分只能高价赎回,一部分给用户赔偿,还一些走仲裁流程要回。
这部分漏洞长期存在,和运维的工作关系不大,主要在于出现丢失事件后,按图索骥,查询线索,分析日志等大量的研究工作,查找到原因和域名丢失的路线图,和研发一起确认修复漏洞。
复盘:业务日志非常关键,业务日志真的是在不断的出现安全事件的过程中,不停的完善
5,虚拟主机网站漏洞被用于肉机
时间:长期存在
特点:漏洞群体庞大,网站管理员安全意识薄弱,大部分为模版建站
详情:客户的虚拟主机采用模版建站搭建,大部分DedeCMS,PHPCMS,Discuze等等,这些系统一段时间后就会爆出漏洞,用户重来都不会修复的。被上传恶意攻击代码,用于发送远程UDP攻击。
复盘:很难主动防御,只有提前通过漏洞监测平台进行扫描测试,需要升级补漏
6,虚拟主机网站首页挂黑链
时间:长期存在
特点:漏洞全体大
详情:客户的虚拟主机被恶意上传木马后,不是用来攻击其它客户,而是用来挂黑链接用于盈利,修改客户主页,增加大量的恶意链接,大部分为色情,博彩的链接。
个别客户的网站漏洞,很容易处理,进行排查,找到恶意程序的,通过日志核查上传的路径,进行修复封堵。权限管理好即可。
如果是整台服务器几百个网站全部挂马,就会比较麻烦。一方面服务器肯定在某个方面存在漏洞隐患,另一方面全面清理难度也加大。
[if !supportLineBreakNewLine]
[endif]
7,业务系统漏洞导致虚拟主机全面挂黑链
时间:2010年
特点:排查周期长,漏洞定位耗时时间长
详情:2010年5月份开始,发现几十台虚拟主机服务器,几千个站点都被挂黑链,特点比较明显,反复核查清理后,过2天依然重现。不停的处理,分析原因,为此几乎2天一个沟通会,沟通进展,核查方向,总计耗费了一个月的时间,对业务造成了极大的影响。可以说本次故障成为了我公司虚拟主机业务开始下滑的转折点,为此2年后公司业务不振,销售依然对此颇有微词。
几经排查,最后发现是我公司的业务控制系统被人复现破解,通过我公司的正常的控制系统进行非法文件的下发,更新。
复盘:一开始我们的方向就被引导偏了,完全没有想到是我们自己的系统的问题。为了此漏洞,我们几乎每天加班处理,测试,观察分析。
[if !supportLineBreakNewLine]
[endif]
8,业务平台DDOS攻击
时间:2008年
特点:攻击流量大
详情:恶意用户的泄愤行为。直接攻击主网站平台,波及到其它业务平台,管理平台,进行全面攻击。采用了电信的DDOS清洗服务,当时的防护还是很弱的,按照攻击流量购买的,1万元1G/月,结果峰值攻击流量23G,这个是我印象里面主业务平台的最大攻击流量。最后在费用方面进行了协商处理。
复盘:现在我们的主业务平台全部采用了360安全卫士,百度云加速等免费防护措施。
目前针对这种DDOS的防护,各个主要服务商都有防护服务,根据需要先使用免费的,业务平稳后,可以酌情考虑购买收费的服务,都是按照防护流量收费的。
9,针对客户虚拟主机网站的DDOS攻击
时间:长期存在
特点:频发
详情:由于我公司维护的虚拟主机数量较多,最多的时候有8万个网站,几乎每周都有攻击事件。一般小的攻击在1G流量以下的,机房就会直接防御。超过1G流量的攻击,到达机房的流量预留峰值,会协同机房一起确认受到攻击的IP,最直接的方式基本就是直接将IP拉入黑洞,然后通知用户修改解析到临时地址。如果用户的域名是我们公司维护和管理的,则会修改用户的解析到127.0.0.1地址。
复盘:该业务我公司总租用带宽是很少的,只有几百M,是无法自行上线防护设备的。
攻击者的手段不多,一半都是初级的人员,但是麻烦不少。
现在也还存在,但是一般5G以下的流量攻击,都是机房自动防御了。超过5G的攻击不多,处理方式直接封锁受到攻击的IP。因为防护的服务太贵了,买不起。
10,DNS服务的攻击
时间:2010年后
特点:高流量,难防御
详情:2009年以前DNS的攻击非常的少,一年难得有一次。由于我公司维护最多100万的权威DNS解析服务,数量庞大,出现攻击就需要向工信部,公安局,应急响应中心报备。
自动2009年DNSPOD的的DNS攻击事件之后,大家都发现了攻击DNS解析服务器的威力,各种工具也是相继出现,使得攻击成本大大降低。由于攻击引起的连锁反应,暴风域名的请求风暴,堆积到临界点直接导致6省份大规模网络故障。自此,DNS攻击一战成名,成为了攻击的终极武器。
一旦收到DNS的攻击,服务商只能舍弃受到攻击的域名,停止解析,域名HOLD,修改指向等。实际上,攻击者攻击DNS服务商是最不划算的行为,服务商也是间接受害者。
最疯狂的时候,2010年,一年的DNS攻击高达30次,每次攻击出现都是不停的抓包,修改服务IP,启动异地容灾等。其中有1/5的聪明的攻击者,会根据DNS的IP,进行跟踪攻击,这种情况就更加被动。
2010年开始,迫于攻击压力,进行了8个异地的DNS分布式部署,其中只有4个节点是在线服务,其它都是备用,一旦发现攻击,就进行分流。
2013年后就基本没有问题了,因为和360高防DNS合作,可以防护50G流量攻击,即便如此,也是发生了几次超高流量的攻击,360高防DNS方面迫于攻击压力,还是发生了几次封堵域名操作。大部分的攻击都是无感知的了,无任何影响。DNS服务器基本就保留2个节点即可。
复盘:现在一些服务商提出的高防服务,都是和电信合作的基于高防IP的防护,实现近源封堵,基本在1T的流量攻击都不在话下,都是钱啊。
11,NTP反射攻击
时间:2014年
详情:那段时间,出现了几次很异常的攻击行为,出口带宽被占满。经过抓包分析,发现是我们的内部的NTPD时间服务器导致的。该设备只有NTPD服务,用于校对几百台服务器的时间,通过抓包分析了多次才确认故障。
复盘:防火墙规则不严谨,应该只允许内部访问
12,机房被渗透,拖库
时间:2008年
详情:Discuz引发的血案。公司要测试上线个新项目,项目组人员图方便,直接采用了Discuz系统部署,部署的时候,没有做过多的安全考量,和核心业务放到了一起。结果该系统存在漏洞被人渗透进入公司业务机房里面,通过内部系统进行拖库。
还有一次是业务平台的Debug系统,没有关闭,被利用获取敏感信息。
复盘:高危的业务一定要隔离部署,安全无处不在
13,用户资料泄漏
时间:2012年
详情:客户身份证,营业执照等泄漏,这些客户资料是客户通过后台上传,系统统一保存在一台存储上面,然后对外提供接口访问,便于内部人员审核处理。
结果该存储的Web服务器配置不当,被检索到目录,可以直接遍历所有的身份证等信息
复盘:Web服务配置不严谨
14,暴力破解业务平台
时间:2011年
详情:代理平台遭遇暴力破解账号密码,黑客不停的进行密码测试,当时业务防范意识不强,研发没有做过多的安全限制策略。损失是个别的账号弱口令被破解。业务系统自此也增加安全防护策略。
复盘:没有太多技术含量
15,邮件账号密码撞库
时间:2013年
详情:大量邮局账号密码被撞库破解,涉及几万个账号,用户的邮箱密码设置的太简单,都是常见的123456,11111,q1w2e3r4,q1a2z2等等弱字典口令。
邮箱密码被破解后,后果就是被贩卖到市场,被发送垃圾邮件的群体利用群发垃圾邮件。
邮件IP被降级,拒收等。
复盘:一方面增加了弱口令检查,另一方面系统增加了密码复杂度检查
16,邮件系统Web漏洞
时间:2014年
详情:自己研发的邮件Webmail界面,存在XSS漏洞,黑客可以用来进行账号切换,登录到其它用户的邮箱后台。
复盘:这个完全归罪于研发部门,这个锅不背
17,Unix虚拟主机路径漏洞
时间:2013年
详情:Unix虚拟主机架构,我们图方便管理和维护,采用了统一的账号管理,统一的用户目录权限,同时允许用户进行目录切换。不好的地方就是,用户可以越权操作。我们本身知晓这个漏洞,但是因为便于管理,所以没有处理。
危害就是,黑客可以改写其它用户的主页文件,增加黑链
复盘:实际有更加安全的措施可以使用,懒惰而已
18,DNS解析记录篡改
时间:2013年
详情:一段时间发现用户的DNS解析记录被增加了'*'记录,导致访问不能存在的解析aaa.domainname.com的时候,跳转到一个非法的广告页面。多方进行核查,业务系统,DNS管理系统,日志等全部核查了遍,这个问题持续了大概2周的时间,最终确认问题源头。
原因是代理商采用的第三方系统,通过API和我们的业务系统进行对接,结果第三方系统有漏洞被破解了,黑客利用这个平台,然后通过API直接对代理商名下的所有域名进行篡改操作。
个别的域名,流量较大的域名,直接被修改了www记录指向
复盘:授信权限放得太大
19,业务平台被黑,篡改主页
时间:2010,2011
详情:非主业务平台,其它的小项目的业务平台,由于使用了在线文本编辑器FCedit,该编辑器存在文件上传漏洞,被上传后门程序,从而修改了主页面
复盘:第三方的插件,使用需要严格限制
20,备案系统Struts2漏洞
时间:2013年
详情:采购的第三方网站备案系统,由于使用java开发,使用了Structs架构,该系统对外使用,漏洞暴漏后,被很快扫描到,然后被遍历了服务器上保存的网站备案信息,照片,身份证等等
复盘:漏洞当时爆发的时候,没有及时进行修复和隔离,迅速被发现和利用
21,Redis漏洞
时间:2016年
心情:最郁闷的安全事件
详情:漏洞被爆出来后,马上对系统进行了加固处理。结果由于处理的时候不完全,遗漏一个机房节点没有修复,后果很严重,数据全部被清空。最后使用备份的数据才恢复业务。
第二次,运维自己使用的一台服务器,用户运维数据统计分析的,使用了Redis服务,有次在家里使用,防火墙调整的时候,忘记了及时关闭,结果暴露在外网,被入侵。结果很严重,所有的敏感信息都被发现,包括账号,密码,敏感的数据等等。
复盘:漏洞爆出后,需要马上进行全方位修复。
隐患存在就要处理,任何疏忽都是致命的
数据库账号要分离
内外网络要隔离
22,服务器被增加账号,篡改文件系统
时间:2009年左右
心情:水平很高的一次入侵
详情:当时一台业务系统被入侵,篡改了主页。通过日志分析,始终没有找到源头。清理了匿名账号的计划任务,添加的系统账号,后门程序后,发现问题依旧存在。几经周折,最终发现了问题所在,黑客居然直接篡改了常用的命令,ps、top、netstat、ls等命令,隔离了上传的后门。
复盘:自此后,对于修复被入侵的系统,我的通用做法都是能重做系统的就重做系统,你不知道到底什么地方还有隐患。
23,内部系统配置不当,数据泄漏
时间:2013年
心情:郁闷,又是自己的问题
详情:安排研发开发了一套运维人员自己使用的系统,权限很高,能做关键业务。结果权限放得太开了,研发安全逻辑不严谨,导致被上传木马,内部信息完全泄漏。
复盘:越是觉得安全的地方越危险
24,员工Blog泄漏敏感信息
时间:2007年
详情:事情起因非常偶然,一名新进员工非常好学,经常将新学习的内容写Blog记录,偶然一次,想看看都写了啥,就进去看了下。结果发现,居然将工作时候的截图都放里面了,里面有IP,密码等敏感信息。
复盘:新员工的安全意识
25,员工感染木马
时间:长期存在
详情:总有小白员工的电脑被木马感染,由于众所周知的原因,运维有的时候必须承担起来内网的安全工作。木马发个ARP,公司就都无法上网了,有段时间,几乎每个月我们都会遇到一次。
另外一种常见的安全问题就是邮件,病毒通过邮件传播,最近一次闹的很凶的勒索病毒,就是通过邮件进行传播的。
复盘:邮件必须配置反垃圾防病毒模块