黑色八月,细数宕机的那些事

2015-08-21 00:30:55 -0400
当今社会,我们日常生活中都会接触到各种各样的网络服务和应用。遇到问题时,百度或google一下寻找解决办法;闲暇时候,可以通过微信和朋友聊上几句。不想上街逛超市,也可以通过网购购买自己心仪的商品。
但最近一段时间里,网络应用和服务都频繁地出现问题——国外苹果iclould、谷歌、微软、Amazon等巨头先后宕机,让小伙伴都捏了一把汗;国内百度、微信也发生故障,被不少的网友吐槽。一时间内,宕机和避免宕机成为人们和企业机构的热门话题。
一、8月宕机的那些日子:

1.Amazon两次宕机损失近700万美元
8月可谓是Amazon最为悲剧的一月,在8月19日和8月26日发生两次宕机。据推测两次宕机致使Amazon损失了约700万美元。
美国东部时间8月19日下午2点45分开始,有用户率先发现了Amazon网站出现宕机,大约在20多分钟后又恢复正常。此次宕机让Amazon损失近200万美元。
在此期间,消费者无法通过Amazon.com、Amazon移动端以及Amazon.ca等网站进行购物。
用户登录Amazon网站时,只能看到一条报错信息:“哦,我们非常抱歉,我们在满足你们的需求方面面临难题。请再给我们机会——点击你浏览器上的返回键,再次尝试请求,或者再从我们的主页开始。”
此外,祸不单行Amazon北弗吉尼亚数据中心在8月26日再一次宕机。据悉,这次的宕机源于网络故障,并持续从美国时间25日下午12时51持续直到下午1时42分。截至下午3时23分,AWS报告说,受影响最大的Elastic Compute Cloud服务已经重新启动和运行。
作为世界最大最著名的云计算服务供应商——AWS,很难数清楚有多少的用户因AWS的宕机而受到影响, Instagram 月活跃用户数超 1.3 亿,Vine 用户数超 4000 万,Flipboard 用户数超 7500 万,租房网站 Airbnb 用户数超 400 万。不考虑对其它影响网站,仅仅这四家网站宕机就会影响了数亿用户。
据《普吉特海湾商业杂志》(Puget Sound Business Journal)估计,若按照亚马逊的每分钟平均销售额11.7882万美元计算,宕机40分钟,亚马逊可能损失了近500万美元的销售额。
2.苹果iClould宕机300万用户受影响
美国太平洋时间2013年8月21日21点30分左右,从苹果的服务状态网页的信息来看,iMessage、Photo Stream、Documents in the Cloud、Backup and Restore和iPhoto Journals等服务都处于无法访问的状态。另外有大约17%的iTunes用户在一个小时时间内无法进行购买操作。

服务状态网页称,此次宕机事故而受到影响的用户接近300万人,不到用户总量的1%。
苹果并没有对周四的宕机给出任何的解释,而且也没有证据表明苹果的服务遭到恶意攻击。据据业内人士分析此次苹果宕机可能是因为软件错误或设备的功能缺陷导致。
此外,在8月28日上午,苹果iTunes Store再次宕机近3个半小时,造成20%用户无法购买媒体内容。苹果系统状态网页显示,该次宕机事故是从太平洋时间早上6:00开始,一直持续到上午9:26,影响到了20%的用户,目前尚不清楚这次宕机原因。
3.谷歌全面宕机,5分钟全球流量下降40%
美国太平洋时间8月16日下午3点50分到3点55分(北京时间8月17日6点50分到6点55分),谷歌遭遇了宕机。此次宕机影响了了包括谷歌网站首页、YouTube视频网站、Google Drive云存储服务以及Gmail邮件服务在内的所有谷歌服务。
在互联网领域,恐怕没有哪家企业像Google这样能如此深入而广泛地影响全球用户。可以说, “Google打个喷嚏,全球互联网都要感冒”。市场研究公司GoSquared称,Google在5分钟的时间里就让全球的网络流量下降了40%。

按照谷歌公布的今年第二季度营收141亿美元的财务情况来推算,此次宕机事件将对谷歌造成约55万美元的损失。
目前,谷歌已经重新恢复了所有服务的正常运行,但仍未出面解释造成此次宕机事故的具体原因。
但是令人惊奇的是,谷歌在8月17日的宕机作为一个维护问题的负面新闻却由于谷歌的应急机制的成功而转变成正面新闻。谷歌的宕机让人们见识了什么是集群服务器,更让人见识了一个集群服务器的恢复仅仅花了11分钟的时间,这给国内外的互联网企业带来巨大的深思和启发。
4.微软Outlook和SkyDrive云存储等服务遭宕机
2013年8月14日21点左右,微软的邮箱服务Hotmail、即时通讯服务Messenger及云存储服务SkyDrive等在全球范围内出现了技术故障。15日1点20分,微软账户、Messenger及日历已恢复正常,但Outlook邮箱、社交应用People及SkyDrive仍然无法使用,直到美国东部时间8月17日4点30分才基本修复正常。
由于Outlook.com的此次宕机导致了一些用户三天未能使用相关的服务,为此,微软还发布声明,向用户致歉,解释了此次宕机的原因以及采取了哪些防范措施来防止未来发生类似情况。
以下是微软道歉声明(节选):
在此,我们向那些在本周深受Outlook.com宕机影响的用户致歉。如今我们已经恢复了所有帐户的服务,用户可以登录帐户,并更改设置,以便将来这些服务仍能够更好的恢复使用。我们认识到我们肩负的责任——就是让使用我们服务的用户能够与他们最为关注的人士进行交流和分享。我们再次向那些在本周受影响的用户致歉。
此次事件是由与使用微软Exchange Activesync的设备相连接的缓冲贮存区出现的问题所引起的,……为了恢复整个电子邮件服务,我们暂时关闭了通过Exchange ActiveSync进行连接的渠道。这将有助于我们帮助用户通过网页方式来恢复使用Outlook.com,并恢复SkyDrive的共享功能。
我们已经从此宕机事件中汲取了一些教训,我们已经采取了两大调整措施,来加固我们系统,以防止未来发生类似的情况。其一是,增加系统中受影响部门的网络带宽,其二是改变了使用Exchange ActiveSync设备处理错误的方式。我们将继续监控系统,并进行其它必要的调整,以此保证服务的稳定。
现在,我们已经恢复了服务,因此所有的用户都应当能够正常使用他们设备上的所有服务。我们在此再次向那些受宕机影响的所有用户致歉,我们也对用户在我们解决问题过程中体现出的耐心表示感激。
5.百度短暂性不可访问
2013年8月14日17点左右,百度出现大面积访问故障,具体表现为无法打开baidu.com首页,无法访问服务器,约15分钟后故障排除。

目前仍不清楚是什么原因导致百度首页无法访问。
6.微信再次发生大面积故障
8月19日晚上10点左右,微信再次发生大面积故障,出现包括微信公众平台无法登陆、用户无法正常登陆微信和朋友圈无法刷新等状况。对此,微信团队称是因为网络硬件出现故障,导致部分用户无法登录或信息收发延迟。目前微信个人账户及公共平台已经恢复正常。
随后微信腾讯微信团队做出回应称:由于机房的网络设备出现故障,部分微信用户的信息收发和登录可能会受到影响。目前我们正在紧急抢修中。

凌晨1点52分,微信团队再次发消息称:经团队全力抢修,现在您可以正常登录和使用微信功能了。此次是由于网络硬件出现故障,导致部分用户昨日晚间无法登录或信息收发延迟。
二、如何规避宕机

宕机的代价是多大?或许无人知晓确切的答案。不过,从谷歌仅仅宕机5分钟就损失损失近55万美元,Amazon两次宕机不到100分钟内损失近700万美元。而且据国外媒体报道,自从2007年到2012年,13次著名的云服务宕机导致了568小时的服务中断,造成了超过7170万美元的经济损失。如此巨大的损失使得企业和机构不断地寻找避免宕机和减少宕机损失的方法。
ptime Institute副会长Rick Schuknecht表示良好的规划可以减少宕机发生的几率。从此次Google宕机实践中我们可以得出避免宕机发生的3个注意事项:
1.选择适合自己的服务器
如今服务器产品种类繁多,但是企业选择服务器产品不能人云亦云,企业应根据自身的实际情况选择合适自己的服务器产品。
2.要做好避免宕机的准备工作
服务器每天都在运行,企业要加强对服务器运行情况的巡检、检修工作,所以企业要选择一个有保障的实时监控商。此外企业需准备一个备用的服务器,这样就不用担心服务器宕机之后所带来的巨大影响。
3.制定好宕机之后的修复计划
既然服务器出现宕机的可能性随时存在,为了避免宕机之后手忙脚乱的局面,企业要做好未雨绸缪的准备。在部署服务器时,企业需要邀请相关IT专家进行讨论,分析该企业可能出现宕机情况,思考宕机情况出现时的解决策略,制定一套宕机后的修复计划。
http://m.csdn.net/article/2013-09-02/2816789
«Newer      Older»
Comment:
Name:

Back to home

Subscribe | Register | Login | N