博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据库备份爆了带宽导致业务服务故障
阅读量:6965 次
发布时间:2019-06-27

本文共 486 字,大约阅读时间需要 1 分钟。

  hot3.png

    刚刚开发完的全新架构的cache。在上线后每晚1点定时出现不能服务的状况。白天业务请求量大的时候处理队列都不会阻塞。而晚上请求量很小的时候,居然出现大面积服务停服。在提供服务的集群机器上,在1时没有定时任务。而单从服务器内部命令统计观察,发现命令处理队列出现堆积,查询时长由200ms变到了18s。考虑到旧cache没出现类似的情况,而新cache因为弄成了集群模式,增加了cache间通讯,问题可能出现在集群内部通信上。

    向运维的同学询问了一下服务器在IDC的分布情况。发现有一台服务器(A)所在的机柜上跑着mysql的备份机器。在6个小时里要从32台db服务器完成3.3T的数据传输备份。使用rsync 同步文件将服务器(A)所在的机柜的入口带宽跑满了。导致所有欲从A服务器上取数据的请求产生时延,A服务器从其它服务器取得数据回复包产生时延。这样怎个集群就会因为某些命令需要跨机柜取数据而阻塞。导致cache不能向前端提供服务。本欲做到去单点故障却因带宽跑满而出现滚雪球效应。

转载于:https://my.oschina.net/qingwa/blog/113728

你可能感兴趣的文章
PowerShell Pester 使用 - Assertion
查看>>
我的友情链接
查看>>
精品JS代码收藏大全
查看>>
(总结)Nginx配置文件nginx.conf中文详解
查看>>
EditPlus—一个小巧但是功能强大的文本编辑器
查看>>
linux系统产生随机数或字符的6种方法
查看>>
(3)lambda与函数式——响应式Spring的道法术器
查看>>
GRE隧道配置
查看>>
Puppet基于Master/Agent模式实现LNMP平台部署
查看>>
Redis配置文件详解
查看>>
Using Helm to Deploy Blockchain to Kubernetes
查看>>
使用流的方式往页面前台输出图片
查看>>
软件测试质量分析与度量
查看>>
Linux crontab定时执行任务 命令格式
查看>>
Why Groovy?
查看>>
云计算将使盗版软件被淘汰
查看>>
综合技术 --spring理解
查看>>
Linux下查看进程占用内存的方式
查看>>
Timeon云网管给出网络时间黑洞解法
查看>>
学习C语言指针和链表的体会
查看>>