墨菲定律之运维惨案 | 数据库损坏+备份“哑火”

  墨菲定律:如果事情有变坏的可能,不管这种可能性有多小,它总会发生。

  信息安全如同一个木桶,整个防护体系是否坚固完全取决于短板。因此即使网络层、操作系统的安全防护已相对完善,可如果真正存放核心信息的数据库系统得不到应有的保护,照样会带来不好的影响。

  数据库破坏产生的后果,不止是机密数据泄露导致商业信誉受损,更多的是导致组织无法正常运转,影响业务运行。

  去年,暴雪娱乐与网易公司旗下的《炉石传说》因为遭遇数据库故障而最终不得不选择服务器归档——意味着只保留历史归档数据。

  为什么暴雪娱乐与网易公司这样的游戏行业领导者,仍会遇到数据库破坏,并且没有进行数据备份这样的事故呢?

  事件回顾

  在某个周六下午,当时没有太多的人在加班。15:20数据库由于供电意外中断的原因而产生故障,导致数据损坏。

  暴雪与网易的工程师们来不及反思数据损坏发生的原因,第一时间着手进行抢修——重启数据库并且尝试数据恢复。看起来问题应该很快就能够解决。

  但不幸的是,由于相关备份数据库也出现故障,这些尝试均未成功。

  暴雪娱乐与网易尝试了各种解决方案仍未能有效解决数据损坏事故。此时,服务器的维护时间也已超过24小时。服务中断,用户仍焦急等待,直接收入损失预计达数百万。最终不得已通过数据归档——游戏回档的方式让服务器继续运转。

  事后,暴雪娱乐与网易公司也认为出现这样的事故是不可接受的。

  事件反思

  回过头来看暴雪与网易的数据库事故,“周末”、“停电”、“数据库故障”、“备份数据库故障”、“数据恢复失败”一系列低概率的事件不约而同的在同一时刻发生。大家是不是认为太匪夷所思了,其实不然。

  一开始我们提到了墨菲定律:如果事情有变坏的可能,不管这种可能性有多小,它总会发生。我们可以得出这样一个结论:技术风险能够由可能性变为突发性的事实。

  通过反省并学习此次事故所带来的经验,我们需要更注重优化的监测。IT负责人通过监测能否回答好两个问题是关键。数据库是否安全?备份数据是否安全?

  IT 运维 2.0

  IT运维2.0时代,需要关注不同角色的数据需求,过多实时的数据一则成本高,二则干扰大。此时,需要区分不同角色的数据需求,一线运维人员更多的是看服务状态,因此需要设置实时告警的信息;上层的运维管理人员希望看到的是服务周期性的状态、趋势和对比。

  如果把数据库比作仓库,那么备份系统就如同消防栓一样,是最后的一道安全线。一旦发生重大险情,需要通过消防栓进行灭火。仅仅部署了消除栓是不够的,仓库管理员仍然需要时刻关注仓库的各项异常指标,例如温度、湿度等;安全管理员则需要定期检查消防栓。这两项工作作为生活中必须的两道程序,对于存放着核心信息的数据库系统却没有规范到位。

  在这种情况下,一旦出现数据库故障,IT运维人员能否及时发现问题、第一时间智能定位问题、在最短的时间内快速解决问题?在数据库无法修复的情况下,备份数据是否正确?备份是否完全?数据恢复是否能够顺利解决故障?这对于大多数IT运维都是难以回答的问题。

  AnyRobot日志云以数据库安全为核心,提供数据库安全双重保障。

  一、保障数据库自身安全

  AnyRobot 内置数据库异常检测引擎、数据保护引擎,能够实时监控数据库安全,第一时间发现数据自身层面上的数据异常、内部层面上的违规操作、外部层面上的入侵检测。同时,使用机器学习风险预测,为管理员提供安全改进措施及风险预防措施的告警。管理员收到告警后,AnyRobot为用户提供以告警对象为核心的可视化报表。“哪台数据库主机有问题”、“那个数据库实例有问题”,管理员一目了然。完成定位后,AnyRobot能够捕获异常关键日志及信息,帮助管理员在最短的时间内解决问题,管理员也可以通过关系图谱、安全报表、机器学习等途径进行深度下钻,挖掘风险来源。

  二、灾备可视化,深度保障灾备数据安全

  企业部署了灾备系统,不能停留在只设置备份任务或者只关注备份完成情况。这是远远不够的,网易的数据库事故就是一个很好的例子。对于灾备系统首先要做到灾备可视化,了解备份效率、数据积压、灾备成效等。其次还需要对备份的有效性进行深度透视,例如在系统定期停机断电前,是否能够及时完成备份,断电突发导致的事故需要保证备份措施能够仍然有效。

  AnyRobot 日志云功能优势介绍

  • 秒级部署,集中统一管理

  • 数据安全可视化

  • 全方位告警中心+机器学习风险预测

  • 关系图谱——探索式关联分析

  • 机器学习——备份积压风险预测、数据库风险预测

  一.秒级部署,集中统一管理

  采集演示

  运维管理员在AnyRobot日志云界面上能够实现秒级部署,无需复杂的配置操作。通过简单的输入项就能够在最短的时间内,把所有的数据库、备份系统统一管理起来,帮助管理员避免了复杂而又大量的服务器、系统部署工作。

  二.数据安全可视化

  部分可视化分析视图展示

  AnyRobot 日志云为用户提供开箱即用的数据库安全可视化报表、灾备可视化报表。

  数据库安全可视化能够实时监控数据库安全。数据库安全作为数据安全的关键,需要在日常工作中时刻关注。AnyRobot日志云一旦出现数据风险,立即发送告警通知系统管理员;帮助运维人员及时发现问题,然后智能定位问题,最后快速解决问题;结合内置的告警策略、机器学习风险预测为数据库安全保障提供了囊括“事前-事中-事后”的规范解决思路。

  灾备可视化能够实时监控灾备系统运行状态。灾备作为企业数据安全的生命底线,需要保证能够在关键时刻正常运转。AnyRobot日志云让管理员在实时掌握备份动态的同时量化衡量备份的价值,例如备份效率如何、是否存在数据积压、备份成效如何、能否保证发挥备份功能等待一系列的灾备盲点。

  对于不同的角色,AnyRobot 可视化报表提供了不同角度的价值。

  运维管理员对数据安全、备份数据安全一目了然,可以清楚地看出系统是否在稳定运行。同时支持大屏展示。

  运维人员通过可视化报表,能够快速进行检查工作。对大量的数据库、备份数据库实现统一管理,提高运维效率。一旦收到AnyRobot的数据安全警报,能够第一时间智能定位故障数据库,并且日志云能提供信息帮助运维人员在最短的时间内排除故障,避免影响业务正常运行。

  三.全方位告警中心+机器学习风险预测

  部分告警策略展示

  AnyRobot 提供一整套开箱即用的智能告警策略,同时支持数据行为基线分析、机器学习风险预测告警。在全方位覆盖数据库安全风险的同时能够做到智能化预测分析数据库安全状态,通过行为基线分析和机器学习,锁定数据库中潜在的风险并进行分析和预测。

  一旦出现数据库风险和备份风险,AnyRobot会立即发送告警通知管理员,管理员通过可视化报表和关系图谱能够快速定位和解决问题。

  四.关系图谱——探索式关联分析

  关系图谱将单一文字式记录的日志,进行系统化、线索化的关系图谱关联分析。能够帮助管理员实现数据库告警溯源,并且明晰灾备任务执行概览;不仅如此,关系图谱真正做到让管理员从海量的日志记录中解放出来,通过以告警为核心的关联分析,实现快速排障和溯源分析。

  备份任务出现异常情况时,是什么原因导致的?除了系统风险还可能存在人为风险,例如操作不当或者恶意修改备份策略、备份对象出错等等。通过关系图谱可以以管理员或者以任务为中心展开关联分析。可以清楚地看到管理员对哪些对象做了具体什么操作?备份任务什么时候被创建了、什么时候被修改了、什么时候被暂停了、什么时候被删除了。帮助管理员实现从业务角度对备份效果进行关联分析。

  五.机器学习——备份积压和数据库风险预测

  AnyRobot内置异常检测引擎,能够对数据库风险、灾备风险进行预测。

  在备份过程中,往往存在数据积压,如何积压过多或者备份不及时,那么对于数据安全是一种潜在的风险。

  AnyRobot能够预测未来数据积压情况和备份完成度。如果未来数据积压过多,那么管理员可以根据预测量增大备份速度或者合理增加备份主机;积压的数据需要多久才能够清空,如果在数据维护和物理断电前无法完成,那么管理员必须及时采取措施,保证备份系统能在发生维护意外、断电意外导致的数据事故时正常运转。

  通过机器学习还能够对数据库安全进行风险预测,自学习风险趋势、风险模型,对数据库潜在的风险进行告警,能够有效帮助运维管理员提前对系统进行调优、排障,从而避免了潜在的数据损坏风险。

  总结

  回顾去年暴雪娱乐和网易公司发生的数据库事故,对于企业来说是一类应该避免且能够避免的事故。AnyRobot对于这类事故,能够提供多场景、全方位、多角色的应对策略。

  在日常运维中,通过安全可视化报表对数据安全一目了然,并且为用户监控“备份安全底线”。在事前避免潜在的数据风险,在事中帮助企业快速定位问题、解决问题,在事后能够提供深度的分析报表、帮助企业事故溯源的同时改进安全策略。

  AnyRobot 部分其他方案效果展示

第 1 /  10 页
点击查看余下全文