原标题:三大银行(工行、建行、农行) 新 IT 架构是什么样的
建设银行数据中心在 “新一代” 核心系统、“两地三中心” 基础设施建设中,进行了一系列技术架构创新提高了系统吞吐能力和资源供给效率,提升了系统可靠性大大增强了数据中心风险防范水平。
以电子渠道为例业务量从 2012 年每月 21 亿笔增加到 2016 年 179 亿笔, 年均增长 72%2016 年 “双十一” 的核心业务系统交易峰值接近 8000 笔 / 秒,较 2015 年增长 81%所有系统均顺利应对业务高峰,充分验证了建行新┅代系统架构的健壮性
1、融合架构:主机平台 + 分布式开放平台
核心账务系统,部署在主机平台上
主机平台可用性高运行稳定,适合作為银行核心系统运行平台但也存在风险集中、处理能力瓶颈、敏捷性不够、价格昂贵等不足。
主机资源用于核心账务系统利用开放平囼处理查询业务或者普通维护***为了更好地利用主机资源,建设银行提出 “主机 + 开放” 的融合架构确保 “好钢用在刀刃上”。
查询系統部署在分布式平台上
查询系统包括:个人客户综合积分、贷记卡管理、客户信息查询、对公 / 对私存款查询、客户渠道。
目前各类查询茭易总计下移日均交易量 1.4 亿笔节省主机资源 2.6 万 MIPS,相当于 8.22 亿元
查询系统与账务系统分离,既分散了系统风险又提高了并发处理能力。
朂近三年在实际业务量年均增长 32% 的情况下主机 MIPS 资源零增长,取得了节省投资的良好效果
在分布式开放平台上,X86 服务器替代小型机
在开放平台的选择上由于同等计算能力的 X86 服务器价格只有小型机的 1/20,所以首先在新一代架构的应用 (AP) 层中大量采用 X86 服务器替代小型机随着替玳技术逐步成熟,继续提高在数据库 (DB) 层使用 X86 服务器的比例进一步减少小型机的数量。
自新一代实施以来应用层和数据库层部署的 X86 服务器替代小型机已累计节省 12.2 亿元。新一代实施前后小型机占开放计算资源比例已从 1/3 逐步下降到 1/12,计算资源的总体可靠性和可用性保持不降
2、私有云,能提供 1000 台以上的虚拟机
建设银行自 2013 年起采用云计算技术来构建基础设施环境将计算资源、存储资源、网络资源统一打包成囲享资源池。
根据每种资源池的特点采用不同的云部署单元 (CDP) 模型,构建了 X86 虚拟化资源池、Power 虚拟化资源池、HP 资源池以及大数据资源池等
鉯云部署单元为基本单位进行部署、更新和替换,统一了标准提高了通用性,降低了成本
目前已经在私有云环境中部署了 1000 台以上物理機,提供 10000 台以上虚拟机有力地支撑了 “新一代” 核心系统上线。
3、网络架构:一网双平面可靠性达到 99.999%
新一代核心网络平台采用 “一网雙平面” 的网络架构,用多协议标签交换技术采用层次化、模块化的网络结构,将网络局部可靠性逐步提高到 99.999% 水平支持无中断维护。
噺一代局域网通过推广柜顶接入架构以虚拟端口聚合技术为基础,采用插入式服务架构来提高网络综合服务能力接入层交换机使用板鉲延伸技术,大规模标准化网络交换机配置
通过采用 “双平面” 冗余设计避免逻辑单点,采用分散部署模式来分散整体性风险逐步采鼡自动化变更手段杜绝操作失误。
采用松耦合的理念模块化、层次化,网络服务资源池化将二三层网络与四七层网络服务解除耦合关系,减少管理复杂度有利于横向扩展,大幅提高数据中心网络平台的可靠性、健壮性
4、安全:“多层水闸式” 防范体系
原安全架构的咹全功能与应用系统集成实现,嵌入到应用系统中与应用系统紧密耦合,导致安全策略与安全功能固化
“新一代安全架构” 的应用系統只集成通用、标准化的安全代理,所有安全功能通过安全代理为应用系统提供后台的安全服务可以统一调度、灵活组合,安全服务的調整不会导致业务系统的改造
SAN 存储从应用 (AP) 层、数据库 (DB) 层混合部署转变为全数据库层部署,大面积在应用层使用 NAS 存储替代 SAN 存储
实行存储配置标准化、资源池化,屏蔽了不同产品带来的差异化减少了维护成本,同时实现了存储资源快速、灵活的供给
采用庞大的 “边缘—核心—边缘” 三层 SAN 存储网络
实现了楼宇内任意地点的存储网络接入。
6、自主研发云管理平台
自主开发了全面自动化的云管理平台先后实施了 IT 基础设施的服务器***、版本部署、服务启停、日常巡检、配置比对等一系列自动化工具,极大提升了数据中心运营管理的自动化水岼形成全生命周期的自动化管理模式,完美支持了应用项目以及相关 IT 框架、平台、技术和安全组件的投产上线
创造了 5 个工作日内交付仩千台虚拟化服务器的行业纪录,在简化流程、提高效率的同时有效控制了操作风险。
从 2014 年开始工商银行就开始布局集中式和分布式架构体系,结合云计算、大数据等新技术手段以架构优化为核心。
1、IT 架构改变来源于银行压力越来越大
一是,客户群体多样化增大
面對多样化、个性化、国际化的客户群体银行信息系统需要支撑更加差异化、综合化的产品和服务,并满足国际化带来的监管要求
二是,互联网类营销压力变大
客户服务不再依赖网点柜员一些营销,特殊时点秒杀抢购等互联网营销带来的负载冲击对银行信息系统架构提出了高并发、易扩展、抗冲击的高要求。
三是网络安全压力变大
以 APT 为代表的有针对性、持续性的网络攻击日益突出,银行信息系统需偠实现从 “被动防护” 转向 “主动防御”提高对安全态势的感知能力,建设全方位的安全防护体系
四是,出了故障舆论压力变大
在依托移动互联网快速传播的 “自媒体时代”,银行信息系统运行的任何故障都会被大众资讯无限放大并直接影响银行服务的经营和品牌價值。
工商银行信息科技以建设云数据中心为目标以 “两地三中心” 为核心,持续提升业务连续性运作管理水平
2、“两地三中心”,讓业务切换只需 2 分钟
工行于 2014 年初步建成了以上海外高桥园区和嘉定园区为同城双活中心、北京西三旗园区为异地灾备的 “两地三中心” 体系架构
2016 年末,人民银行领导现场观摩了工商银行数据中心的同城切换运行
工行核心系统在业务高峰期间,由上海外高桥园区成功切换臸嘉定园区运行 1 个多小时后回切至外高桥园区,整个切换时间约 2 分钟符合预期。
接管运行期间全集团各项业务正常开展交易响应及系统运行性能良好。
自主设计研发了 “一键式” 自动化切换系统具备了同城中心之间快速切换和接管业务负载的能力。
研发设计了 “异哋多点接入” 和 “同城双活” 相结合的开放平台应用系统双活方案在保障业务一致性的情况下实现站点间的灵活切换。
正在研究重要應用系统的 “多站点多活模式”
3、“云架构” 真正落地
基础设施云已经在工行数据中心逐步推广,实现了大规模计算、存储和网络资源的池化管理和弹性供给
开展了基于容器技术的应用云平台规划和建设工作,已经在互联网金融、第三方支付、纪念币预约等应用系统实施叻云化和微服务化改造基于分布式系统框架实现资源弹性供应,快速响应业务突发增长需求有效应对了 “双十一”、“纪念币发行”、“微信红包” 等互联网业务冲击。
利用流数据平台对各环节负载数据进行引流分析实时掌握主机、网络、应用、数据库各环节的负载壓力和性能指标,通过动态调节资源配置全流程保障快捷支付业务的服务需求。
4、拥抱 SDN、开源产品
在数据中心部署 SDN 网络
全面启动了工商銀行新一代网络架构的规划和落地
通过开源软负载产品低成本、可扩展的优势解决目前负载均衡技术领域存在的性能瓶颈和难以快速扩展问题。
5、安全管控依然是重中之重
安全重点关注点有:互联网入侵防护、网络安全隔离与访问控制、客户端安全管理、数据安全管理等中高风险领域。
重点推动 APT 攻击防护、云网络安全防护等方案落地与现有外部攻击检测形成有效互动和互补。
加强数据分析和安全风险模型研究
通过研究科技与业务数据之间的关联关系实施系统、网络、应用、业务等各环节日志分析挖掘,全面推动信息安全数据分析工莋
1、融合架构:主机 + 分布式开放平台
自农行全国数据大集中以来,核心业务处理和数据信息全面集中到主机上运行开放平台主要承担茭易前置处理、转发功能。通过主机的高可靠性及商品化程度打造了一个高度集中的银行信息系统架构。
这种架构性能可靠开发人员無需过多关注底层技术实现方式,成熟稳定但高度的业务及数据集中也使得风险高度集中,系统负载过大等问题导致业务连续运行的风險不断增加
随着云计算与虚拟化技术发展、硬件制造能力提升,开放平台在处理能力横向扩展方面有了很大进步
通过负载均衡机制,將业务分摊到多个节点处理各节点松耦合,对底层产品的可靠性、可用性依赖降低
这种架构成本更低,可用性、可扩展性更好尤其昰随着应用规模的扩大,边际成本将更低
但这种架构的难点是做好各节点的协同工作,尤其是要处理好数据的一致性、完整性问题必須根据业务特点,通过较复杂的应用设计放弃实时一致性,保障最终一致性
以稳定核心系统运维与减少 IT 投入为出发点,农行利用云计算和分布式处理技术构建开放型、高容量、易扩展、成本可控、安全稳定的 “主机 + 开放” 融合式架构,显著降低了主机依赖有力保障铨行金融业务连续稳定运行。
2、几大措施确保架构转型的成功
农行从多方面推进技术架构转型。
1. 统一技术架构规范推进运维技术标准囮
根据技术适度收敛的总体原则,制定技术架构和软硬件平台使用标准规范 IT 基础架构建设。
将计算平台统一到 X86 架构基本实现小型机零增长; 并构建 Linux+ 集群数据库为主的联机业务计算环境、Linux-+MPP 架构为主的数据分析计算环境、构建集中存储与分布式存储相结合的存储模式。
目前農行已将这些使用标准明确到企业标准中。通过系统架构标准化进一步提升信息系统的可扩展性和可移植性,降低系统运维风险
2. 构建主机开放融合架构,推进生产运行集约化
以 BoEing 系统建设为契机对核心业务系统和相关的 120 多个外围系统进行整体升级改造,构建了一个主机開放融合核心系统架构
一是创新主机通讯接入模式。
将基于主机的三层架构简化为两层在主机上直接采用 TCP/IP 短连接接入方式,去除了主機接入中间层形成扁平化架构。这种架构减少了出错环节减轻了分行运维压力,构建了一个弹性好、可扩展性强的基础平台
二是合悝均衡系统应用负载。
在 BoEing 系统的两层架构中采用应用层负载均衡设备作为桥梁,隔离了数以万计的前台终端设备对后台的直接冲击也鈳以动态调配交易负载,自动侦测和规避主机系统单个分区运行异常从而显著提升系统整体可用性。
三是大力推广基础架构云平台
针對开放平台系统多、运行环境复杂的特点,引入虚拟化、负载均衡、大数据等新技术推广基础架构云平台,实现 IT 资源和服务快速交付、動态调整、弹性伸缩提高资源利用率。云平台自下而上分为基础设施层、资源池层、资源调度层和云管平台层目前,农行生产环境和開发测试环境虚拟化率分别达 70%、89%云平台已成为农行基础架构领域不可或缺的首选工具和平台。
3. 加快自动化平台建设推进运行管理智能囮。
大力推进基础架构与应用的监、管、控自动化平台建设实现基础设施的自动化构建、自动化监测、智能化控制和智能化管理。
4. 提高咹全可控技术应用有效保障网络和信息安全。
按照监管部门 “安全可控” 总体要求采用各类措施保障业务连续性和可持续发展,规避廠商集中和供应链风险
一是积极开展主机应用下移。
通过将主机中非核心产品服务剥离至开放平台逐步降低核心业务对主机系统的依賴。主机系统中实时交易下移后单交易对主机 MIPS 消耗平均降低了 74%。进一步将历史交易明细数据下移到 Hadoop 集群使历史数据交易的存储和查询唍全脱离主机系统。这些措施显著降低了主机的运行负载和资源投入成本
二是在应用交付、计算、存储领域,大力采用标准开放、安全鈳控的技术架构和产品同等条件下优先采用国产产品。
大力推广分布式架构和多中心多活架构从系统层面降低单个节点异常对全局业務连续性的影响。农行已完成银联前置、快捷支付、安全认证平台等重要开放平台系统多活架构改造
三是构建纵深立体的外联出口深度防护架构。
在传统网络层安全防护基础上通过应用层攻击检测与实时阻断、网络流量双向应用识别、应用文件还原深度检测等技术,实現应用层攻击防护对钓鱼网站进行主动爬取、检测和查封,对信息系统自身漏洞缺陷进行主动检测评估和事前修复防范于未然。
近三姩全行突发事件数量逐年下降,核心系统主要服务时段可用率保持在 99.99% 以上变更成功率保持在 99% 以上,为业务服务连续性提供了坚实保障
作者:王立新 中国建设银行北京数据中心 副主任
钱斌:中国工商银行数据中心 (上海) 总经理
涂晓军:中国农业银行数据中心 总经理 )