内部管理还需居安思危
- 发布时间:2015-06-08 09:32:41 来源:中华工商时报 责任编辑:罗伯特
数个小时未能恢复数据,反映出携程技术人员显得羸弱的技术水平,这也反映出携程管理层对技术团队忽视的悲哀。其实,携程对安全的漠视酿成大祸,已经成为国内互联网企业的通病。携程事故再度提醒了中国互联网企业,在注重高速发展的同时应不断提高自己的安全和灾备能力
5月28日,携程系统崩溃。登录携程系统发现,携程官方网站突然陷入瘫痪,打开主页后点击时均显示“ServiceUnavailable”,而百度搜索上的携程官方页面也显示404错误。APP打开后也无法正常使用。
被戏称为“黑色五月”中,网易、支付宝、携程先后出现瘫痪事件,究竟是什么让这些网络公司陷入胶着?
“宕机”12小时
当天上午11:09,携程网站和APP全线瘫痪,多项功能无法使用。点击携程官方网站,页面显示404报错,点击“返回首页”后依然可进入携程,但其功能和其他链接均无法使用;APP的酒店查询页面则显示“Error503Service”,其他业务线的产品均不能查询和预订。然而28日临近中午时,携程的网页和APP都崩溃了,携程的Logo蓝色小海豚一直处于哭泣状态,订单难以处理,网页刷不出来。
因携程未在第一时间公布原因,随后,各种猜测甚嚣尘上。
对于“宕机”的原因,坊间流传系内部员工报复所为。一则消息在微信朋友圈风传:携程数据库被物理删除(指文件存储所用到的磁存储区域被真正地擦除或清零,不可恢复)。
携程方面也两次作出解释:中午12:38,携程先是称“因部分服务器疑似遭到不明攻击所致”;次日凌晨,携程又宣布此次事件系内部人员错误操作导致。两次解释,理由不同。对此,携程公关部石凯峰在接受采访时表示:“服务器攻击可以来自内部或者外部,此次主要是携程内部技术人员删除了生产服务器上的执行代码所致。”
一位自称为携程员工的网友在微博上爆料:“网站根目录被删除,所有节点上的业务代码包括发布日志都被干掉了,个人猜测是有人内部报复。”另有网友分析,携程数据庞大,从外部直接攻击的难度可想而知,应该是内部人员动了“手脚”,“最大的可能性是某人破解公司内部密码和验证条件,放置了某些恶意程序”。
而有媒体辗转获得一个来自携程内线的消息称,据说是乌云平台曝了携程的漏洞,携程技术人员就开始修复,结果在修复过程中不小心用发布工具删除了整个目录,所以各个业务单元的代码分别发布,一个一个功能修复,修复周期会长一些,但不至于说彻底垮了,那个发布工具权限太高,现在修复过程中传上去的代码会被继续删除,老板说谁解决了就奖励100万元。
5月29日0:18,携程微博称:5月28日23:29,经技术人员抢修,携程官方网站及APP全面恢复正常。经过排查,携程郑重声明,数据没有丢失,预订数据也保存完整。从瘫痪到修复,携程“宕机”近12小时。若按携程一季度营收3.37亿美元估算,“宕机”一小时的平均损失为106.48万美元,12个小时算下来总损失超过1200万美元。
值得注意的是,很多已经离开携程的技术人员都纷纷在28日下午暂时赶回“老东家”携程帮忙恢复系统,可见问题不轻。
实际上,从今年1月起,乌云平台就已经曝光了超过十次携程的漏洞,包括撞库、官方邮件劫持、内部员工邮箱历史信息泄露,但携程的回应大多是“厂商忽略”。
导流弄瘫艺龙
颇有意思的是,就在5月22日,携程投资艺龙,成为艺龙最大股东,昔日“冤家”变成“一家人”后,携程立马发生了重大危机。原本作为“冤家”应该“落井下石”的艺龙如今却成为了携程的危机应对渠道。在28日携程系统瘫痪后,其页面上赫然出现了“携程网站暂时无法提供服务,正在紧急修复中……您可以访问:艺龙旅行网”的字样,这在以往是根本无法想象的,因为携程遭遇危机后居然请艺龙帮忙下订单。当然,现在携程和艺龙是一家人,此行为可以被理解。
本着有资本关联就可以一起应对危机的想法,携程正寻找合作伙伴帮助。
有一位携程内部人员发布了一则帖子称,携程瘫痪后,如果要订酒店机票则可以找艺龙,订门票可以用同程,订旅游可以用途牛,订公寓可以用途家,用车可以找一嗨,订邮轮可以用天海。据悉,上述这些都是携程参与投资的相关企业。去年4月,携程以逾2亿美元的价格战略投资同程,成为其第二大股东。
其实,携程现在是艺龙的最大股东,也是同程的第二大股东,因此这两家或许真的可以成为携程应对危机的帮手。
但是,28日下午3点,携程的官网及APP查询和预订服务仍未恢复。刚刚收归携程门下的艺龙,暂时承担起了崩溃后的导流任务。就在携程导流艺龙两个小时后,艺龙首页也无法正常访问;几乎同时,同程旅游因接入携程的酒店数据,酒店预订服务也出现瘫痪。
对于同程和艺龙网站短时间崩溃的原因,华南地区一名从事互联网信息安全的人士分析说:“携程过大的流量导入,使得同程和艺龙首页的承压过大而致首页崩溃,艺龙最后借助腾讯的流量清洗系统解决了该问题。”瘫痪更引来业内质疑:难道导流量的时候不和对方商量下并且算算流量涨两倍多会有啥结果吗?
管理问题大于技术问题
“宕机”事件发生后,携程一直没有给出明确的原因,官方微博中都以“疑似”来说明。
携程12个小时恢复网站,在互联网公司实属罕见,足以说明内部管理、系统、技术投入都存在问题,如果有灾难恢复机制,不太可能花如此长时间,此前携程的支付系统调试接口被泄露,已足以暴露它在互联网信息安全管控这块的短板。
如此长的时间还没有恢复服务,可能有两个原因:一是数据库根本没有备份;二是数据库恢复过程中出现了不可预见的问题。
据接近携程网的技术人士称,作为美国上市企业的携程,数据库没备份的几率很小,数据库恢复受阻的可能性最大。数个小时未能恢复数据,反映出携程技术人员过于羸弱的技术水平,而这也反映出携程管理层对技术团队忽视的悲哀。其实,携程对安全的漠视酿成大祸,已经成为国内互联网企业的一个通病。
现在SOA架构的网站,都是由成百上千个应用子系统组成。平时真正经常发布的,可能就是不到20%的核心子系统。而且发布时都是做加法,很少完全重新部署一个应用,一旦遇到需要所有系统都需要重新部署的极端情况,管理协调的问题,应用之间的依赖关系、还有很多平时欠下的技术债都集中爆发了,更不用说很多不常用的子系统,上线之后就没人动过,一时半会儿都找不到能处理的人。而且,在这样的高压之下,各种噪音和干扰很多,运维工程师的反应也没有平时灵敏。
猎豹移动安全专家李铁军分析,携程的瘫痪很可能是内部管理失控所致,通常黑客从外部攻击很难做到数据大量丢失,且备份的还原也不至于拖延太久。黑客仅仅是拿走核心数据而不是进行破坏性操作。
有业内人士分析称,携程历来对信息安全并不算重视,从之前信用卡用户信息泄露、到忽略白帽子黑客上报的漏洞、再到本次的事件,不管始作俑者是内部员工、竞争对手、还是恶意的攻击者,携程自己的信息安全管理混乱在此次事件中肯定是重要因素之一,发生了这样的事情,公关和应急处置上也一团乱。公关先不说,应急处置,按照目前的方式和速度来看,估计携程缺少切实可行的全系统瘫痪应急预案。
作为动辄拥有上亿、甚至数亿用户的互联网企业,遇到信息系统故障通常如何应对?据多位网络安全技术专家介绍,目前,不少普通的互联网企业并没有灾难备份,但如果涉及支付、资金交易等业务,往往有灾难备份,只是备用的数据中心平常并不启用或很少启用,即“冷备”。安全级别高的企业通常采用异地“热备”,再高一级就是不同的城市多个数据中心同时“备”,也就是业内常说的“异地多活”。
如果是携程内部人员所为,至少说明携程对于内部的管理不到位,或者是线上环境和其他环境隔离不够,或者是角色和权限的划分、控制以及记录不够。如果是代码被删除,那也就是说某个员工可能拥有携程大部分服务器的登录和操作权限。所以有人认为携程在安全审核和权限控制方面的流程存在问题。但也有人认为再完善的流程也有可能被钻漏洞,人品比技术更重要。携程事故再度提醒了中国互联网企业,在注重高速发展的同时应不断提高自己的安全和灾备能力。
如果把这次的故障比作一次地震,那这次灾难可能就是携程的“汶川地震”了。减少地震伤亡的一种有效做法是应急演练,同样,软件公司也需要灾难演练,以防不备之灾。
- 股票名称 最新价 涨跌幅