盟友动态
返回列表>>更新时间:2017-09-29 12:00
一、背景
1、联盟日增数据量五百万+,数据库查询次数二十万+次/每秒,面对此体量的数据交互单点作战已不能保证用户的流畅使用;
2、站点业务线相对独立,却又有所交叉,所以带来的问题是单点出现问题会影响到多个业务。
3、地县分类信息网成立,需要分配更多的资源保证业务的稳定。
二、目标
1、突击保证分类业务线稳定;
2、服务器从单体架构向集群架构部署,构建底层结构;
3、针对日间卡顿问题,在现有资源基础上做到最优。
三、工作内容
本次优化持续三个月,先后对服务器硬件、部署结构、程序代码、实时监控都做了大规模的调整。
1、硬件资源投入
内存:分批次升级机房实体服务器总计28台其中22台数据库服务器,6台web服务器 ,总部机房实体服务器总计38台升级率达到七成以上;
硬盘存储:升级组合了部分服务器硬盘,损坏硬盘替换8块;
服务器:先后增加数据库服务器3台;
2、数据库集群部署底层架构建立
联盟业务线繁多众所周知,对于每台服务器来说就是支撑整个平台稳定的基础,但是由于历史的原因和复杂交错的业务以及新业务新需求的不断迭进和用户、流量、数据的体量现已成直线增长趋势,根基不稳就会出现严重的后果,所以我们对数据库服务器底层往集群架构部署方向发展;
集群部署架构对比当前单体结构,需要投入3倍以上资源,年投入资金需500万+,面对当前资源不充足的情况我们对每台数据库服务器支撑的业务做了合并和调整,使每台数据库服务器接近工作负荷,空余出为数不多的服务器作为数据只读服务器,使服务器达到最佳的资源利用;
3、业务代码与数据库服务器交互的优化
先后对PC、webapp、APP做了代码底层访问的调整和业务查询低效算法的优化;
4、日间稳定监控建立(主动监控整体平台系统稳定情况)
1)、业务日常数据库服务器访问稳定监控体系的建立,实时对各数据库服务器出现访问超时和异常及时通知到相关人员;
2)、业务错误实时监控建立,记录用户访问出现单个页面、接口错误的记录,安排专人对问题进行分析和处理;
3)、用户访问响应时耗监控,记录全平台数据库访问响应超2秒和主要页面展示超1秒情况,安排专人分析情况和处理;
四、优化后的效果
本期调整完成后,用户访问效率稍微改善,在15天内基本没有太大波动,我们对几个关键的页面做了万次打开超时的监控,情况如下:
不过由于资源的短缺、架构的陈旧,没有应急配套措施,现在只能突击保证业务线的日间正常,稍有一点风波还是会出现问题;服务器运维组会持续保障整体平台的稳定,只有平台系统的稳定才是盟友运营的保障;接下来我们会加快脚步推动服务器的改革措施加快方案的快速落实和执行,从根本出发使整体系统高性能稳定发展;
五、计划安排
1、成立运维事业部,进行市场化改革,募集资金,体系升级,从根本上解决站点访问效率问题,达到99.99%高可用性标准;
2、扩充硬件资源、部署数据库服务器 AlwaysOn 集群实施方案;
3、扩充硬件资源,部署web服务器 集群实施方案;
4、扩充硬件资源,部署缓存服务器集群实施方案;
5、扩充专业人员,提升日常运维效率及搭建匹配联盟流量规模的专业化体系;
城市中国运维组
2017-09-28