先到先得,豆邮,谢谢,好人一生平安
注:可以用1024,或其他邀码换
加入小组后即可参加投票
GOPS 全球运维大会由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)联合主办,指导单位为工信部信通院数据中心联盟(DCA)。GOPS全球运维大会是国内第一个运维行业大会,面向互联网及传统行业、广大运维技术人员,传播先进技术思想和理念,分享业内最佳实践。迄今为止,GOPS 已经举行了九次,大会参会嘉宾累计突破2万人次,国内每一站均为本地区最大规模的高端运维盛会,满意度和推荐度高达95%以上。
第十届 GOPS全球运维大会将于2018年9月14日-15日在上海召开。大会为期2天,有来自金融行业10个多个议题,3BATJ等的 10多个 AIOps 议题、及大量自动化运维和 DevOps 议题。目前已经有全国各地大公司组团前来参加。
第十届GOPS主要面向运维及相关领域的中高端技术人员。目的在于为了帮助运维人员系统学习了解相关知识体系,让创新技术推动社会进步。你将会看到国内外知名企业的相关案例,也能与国内顶尖的技术专家探讨技术实践,使企业可以根据最佳实践确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。
我在 @百格活动 发现一个不错的活动#GOPS全球运维大会2018·上海站#,分享给大家
高效运维社区 发起人
AIOps 白皮书发起人
隆重发布《企业级 AIOps 实施建议》白皮书 V1.0 正式版
个人简介:高效运维社区发起人,DevOps时代社区发起人,开放运维联盟联合主席,GOPS 全球运维大会发起人,复旦大学特聘讲师。2004 年硕士毕业于北京科技大学,先后就职于联想集团、搜狐畅游、 触控科技等。十余年互联网运维从业经验,运维自媒体。
GOPS 金牌讲师 清华大学副教授 青年千人
主题简介:结合我在AT&T的工作经验,以及百度、阿里、腾讯、滴滴、搜狗的合作经验,我总结智能运维科研还没有做到普世化,有条件智能运维科研的人很少。这是因为:工业界有数据、有应用,但是欠缺定义科研问题的经验和算法经验; 学术界不了解智能运维的应用场景,也很难获得训练算法必需的数据;工业界与学术界的一对一交流效率低、见效慢。在这次分享中, 我将提出普世化智能运维科研的一个思路。 首先,我将系统地把运维生产环境中的应用难题***成若干切实可行的科研问题,并公布在我们实验室即将启动的一个智能运维算法大赛网站。 在这个网站上,各个企业可以为自己关心的、已经***好的具体科研问题上传可供公开访问的脱敏数据;学术界基于公开的科研问题和数据,贡献算法,并与其他科研工作者的算法进行性能比较。就像ImageNet网站对图像识别机器学习算法的大力推进一样, 我相信这个智能运维算法大赛网站也将成为智能运维算法高速发展的一个有力催化剂,有效推进智能运维科研的普世化。
个人简介:裴丹博士是清华大学计算机系长聘副教授,特别研究员,青年千人。目前的主要研究方向是基于机器学习的智能运维。目前与百度、阿里、腾讯、滴滴、搜狗在智能运维领域都有合作。 在美国UCLA获得了博士学位,之后加入美国AT&T研究院担任资深研究员、主任研究员。 在智能运维领域发表了90余篇学术论文,20多项美国专利授权。他是ACM和IEEE的Senior Member。
浙江移动 信息技术部副总经理
云计算中心主任
系统架构云化之后,网元海量化、技术栈多样化、部署架构复杂化是云平台的特点,新形式下系统整体稳定性、故障快速定界、运维管理效率都面临着挑战,传统的人肉运维和自动化运维已经不能满足要求。基于AIOps的智慧化运维是运维的发展必然,是自动化运维的下一个发展阶段。王晓征带队的浙江移动云运维团队在智慧化运维方面创新性地提出“双L2”演进路线,为浙江移动AIOps发展和实践奠定坚实基础。借助于浙江移动智慧运维平台——“神舟”,对AIOps的智慧化相关场景进行探索落地。
个人简介: 在浙江移动IT战线工作多年,曾从事浙江移动业务系统开发、核心数据库运维,云计算平台建设及管理等重要工作。于2003年获得Oracle 9I OCM,是中国移动首批前3个OCM之一;1997年中国足球乙级联赛注册球员。在云计算中心任职期间,创造性地以ITIL为基础框架,融入DevOps的敏捷血液,构建了具有浙江移动特色的云运维体系。当前正在投身建设基于AIOPS的智慧运维平台,取得了值得传统行业借鉴的理论和技术成果。
主题简介: 三讲是指:讲观点、讲数据、讲案例。
在中国,程序员把自己称做“码农”,说自己是编程的农民工,干的都是体力活,加班很严重,但正是这群码农创造了中国现在互联网的成就。如何在程序员这个群体中能突颖而出,那就是正确高效地做好每一件事。如何让技术发挥更大的价值,那就是找准业务场景进行技术赋能。讲观点就是要抓住事物的本质,考验你发现问题的能力,讲数据就是确保问题的客观性和真实性,而不是自己的臆想,讲案例就是对成果具象化的检验。
三指数是指:体验指数、能效指数、弹性指数。
规模以上的大中型企业的信息化,往往呈现出“业务系统多元、基础架构老化、接口调用散乱、语言工具庞杂”等特征,CTO经常处于救火的状态。如何在繁杂的工作中理出头绪,找到工作主线,我的老板教导我要善于抓住主要矛盾和矛盾的主要方面。我把老板的教导拆解为体验指数、能效指数、弹性指数等三个指数,以这三个指数为主线目标进行资源配置和系统优化改造,宏观地推进整体技术为企业战略服务。
个人简介: 盛国军 花名毛尖,现任海尔电器集团CTO。第一代互联网和电子商务开发者,历任8848系统架构师、麦考林首席架构师、麦包包首席架构师。2012年加入海尔集团,致力于打造以用户为中心的交互、交易、交付等企业级电子商务技术平台。
中国银行数据中心
信息安全技术团队 主管
智能安全运营中心建设实践
个人简介: 2017年度十佳首席安全官CSO,长期从事信息与网络安全技术与管理体系建设、信息系统安全审计工作,目前致力于在中国银行建设以纵深防御为基础,主动防御为目标的一体化网络安全保障体系。 拥有CISSP、TOGAF、CISA、CBCP、Cobit、ISO 27001、ITIL、PMP、CCNP等网络安全、企业架构、信息系统审计、IT治理、业务连续性、信息安全管理体系、项目管理等相关领域的国际权威认证。
中国工商银行 上海数据中心 系统二部总经理
主题简介: 随着银行业务的快速发展,以及银行业迈入转型创新关键期的形势下,银行信息系统运行的压力也在持续增加,给数据中心运维工作带来全新挑战。如何改变大型主机传统的运维模式,结合分布式、大数据、人工智能等新兴技术的应用,提升主机运维的自动化、智能化水平,是大型主机运维人员的着重发力点。
近几年,工行数据中心(上海)大型主机运维团队在运维自动化、智能化方面做了一些尝试。希望借助新技术逐步夯实运维基础,提升运维的自主可控水平,寻找保障业务安全稳定的有效路径。本次主要介绍下工行在大型主机智能化运维的探索和实践。
个人简介: 一直在工行科技条线,主要从事大型主机技术研发、运维管理工作,承担过主机系统一线运维,有主机运维的一手经验;负责主机架构优化设计、系统软件产品测试验收,负责工行“两地三中心”工程建设,有主机大型项目的实施经验。这几年也在积极投入到智能运维体系建设的探索中,致力于通过新技术的整合应用来提升大型主机的运行效率和稳定性。
阿里巴巴 高级技术专家
阿里巴巴集团在业务规模不断扩大、业务形态不断变化的背景下,为了保证业务的稳定运行和故障的快速恢复,我们需要通过更加智能化的手段来支持和管理故障发现、故障分析、故障恢复等一系列故障处理过程。同时,在“新零售”等互联网新业态的驱动下,我们也积极探索了一些有别于传统监控的新场景,通过新的技术手段来提升业务监控的质量和效率,拓展了传统监控的应用场景。在本次分享中,我们希望能够从增强版的时间序列异常检测、多指标异常的智能判断、故障影响面和可疑原因的智能分析等几个层面来介绍我们在智能监控领域的新场景探索,希望能够给听众在智能运维理念在实际业务落地的过程中以指引和帮助。
个人简介: 王肇刚(花名:梓弋) 阿里巴巴集团 基础设施事业群-全球运行指挥中心(GOC) 高级技术专家。负责阿里巴巴集团业务指标监控、业务故障分析及监控中心团队的管理工作。在时间序列异常检测、业务故障定位及影响面分析、运维数据仓库和其它相关的智能运维相关领域有丰富的技术经验积累和成果产出。其中,业务指标异常检测算法,成功地将阿里巴巴集团核心业务指标监控的正确率提从40%提升到80%,极大地提升了集团业务故障发现的效率和自动化水平。
2017年5月,受邀代表阿里巴巴集团参加国际运维领域顶级会议SREcon17,并发表主题演讲,向国际同行介绍阿里巴巴集团在业务指标异常检测算法方面的实践和成果。
在加入阿里巴巴之前,作为百度智能运维团队的架构师及核心项目负责人,主导了服务于百度商业广告系统异常发现和故障定位的智能运维产品的设计和研发,并对主导了百度运维数据仓库及百度智能运维平台的设计和研发工作。参与过百度运维平台和运维基础组件(中间件)的研发工作。也曾经担任百度贴吧产品线的运维负责人,积累了大量一线应用运维的业务和技术经验。
汇丰银行 财富交易系统全球部署团队总负责人
汇丰银行30年恐龙级IT系统DevOps成功改造
主体简介:30多年前,汇丰银行聚集了一批当时的IT精英,花了几年时间,在IBM AS400中型机平台上,开发了一个当时非常前沿领先的国际财富交易系统。这个传奇系统第一个版本在香港正式上线运作,是1987年。 由于优秀且卓有远见的设计和高质量的开发维护,30多年间,这个系统经历了风风雨雨,依然兢兢业业,为汇丰环球银行与资本市场部门提供稳健的覆盖全球的巨量外汇与资本财富交易服务。 但当今需求瞬息万变,传统的瀑布式开发已经严重影响了系统对需求反应的时效性。传奇也慢慢变成了巨大而笨重的恐龙。当2016年,我们汇丰决定全面引入DevOps的时候,基本没人会认为这个系统能DevOps 起来。 但我们相信,没有绝对落后的系统,挡道的只是不思进取的思维模式。凭着我们团队的精诚协作,锐意创新,不懈努力,7个月多后,这只恐龙,成功地在DevOps的舞台上翩翩舞动起来。做到了很多新系统都难以完成的高难度动作。 想知道其中的魔法和奇迹?这次讲演将为您拨开云雾看青天。希望能对DevOps 改造中的你有所启发。 我们的巨型恐龙都能舞动起来,你的系统一定也可以!
个人简介:15年前,作为一个毕业生,非常荣幸能在将近十选一的竞争中脱颖而出,在激动与兴奋中开始了这一段与汇丰银行一起成长的惊叹旅程。 感恩并得益于公司开放的环境和文化,本人多年的学习工作得以横跨汇丰多个部门,在环球银行资本市场到个人银行和财富管理等部门都能有所历练。不同的系统和丰富的学习成长机会,加上充足的内部资源支持,让我从一个程序员逐步成长为全球功能团队的负责人。同时, 在香港、伦敦、多伦多、新加坡、吉隆坡、海得拉巴、浦那等国际及地区的商务旅行和海外工作经验,极大拓展了我的全球化视野,提高了我对全球化协作的理解和相关事件的处理能力。也令我能成功建立跨区域团队,并让团队拥有高性能高效率同时,保持非常良好的士气与氛围。 15年转瞬而逝,但我砥砺前行的激情并没淡去。我依旧相信,不断努力学习,思考,改进和创新,我一定能带领团队,继续为部门,为公司,乃至为整个行业做出更多贡献,带来更好的变化。
中国建设银行 北京数据中心 处长
主题简介: 本次演讲内容是对数据中心服务台的智能化手段进行了研究,重点研究语音识别、自然语言处理、人机交互、知识图谱、用户体验数据获取、非故障问题发现等技术,并对知识库的大数据分析和机器学习进行探讨,对端到端的事件发现能力进行描述,最终形成对智能化服务台的支撑。
个人简介: 郝丽萍是建设银行北京数据中心生产调度处处长,在建设银行从事信息技术领域工作30年,在运维管理方面积累了大量的经验,曾组织完成了北京数据中心大运行、一体化运维等相关工作,目前负责建设银行数据中心运维工具智能化的规划、建设等工作,对数据中心智能运维有比较深入的理解,尤其是对数据中心智能服务台进行了专门的研究。
太平洋保险
应用运行支持部副总经理
DevOps 标准核心专家
个人简介:现担任中国太平洋保险集团股份有限公司信息技术中心应用运行支持部副总经理。长期从事保险行业信息化建设,曾多次主持大型保险信息系统建设和推广工作,参与和实施保险核心系统数据大集中和重构工作,参与大型数据中心建设和系统搬迁,参与智能移动保险平台建设。目前主要从事云计算和大数据相关技术研究和应用,面对移动互联浪潮的挑战和机遇,积极探索和实践传统行业IT运维模式的转型升级。
个人简介: 来炜,滴滴出行技术总监,CCF TF 系统运维 SIG 执行主席,滴滴工程委员会、开源委员会委员,国内最流行的开源企业级监控系统Open-Falcon的创始人和社区负责人,致力于推动建设开源软件生态,专注于高可用架构、稳定性保障、运维自动化、云服务、容器化等方向。
平安银行 科技运营中心副总经理
银行对系统可用性的要求非常的高,对每个故障的处理时效也是严格限制。随着银行互联网业务的不断增长,相关业务的代码更新速度也越来越快,系统和子系统的数量的关系越来越复杂,导致当故障发生时定位问题的时间越来越长。那么如何系统得提升故障处理领域得效率和效果,通过建立和运行银行SWAT团队,我们通过两个维度对业务和系统进行了梳理,建立了故障处理得相关机制,通过一段时间得运行,取得了明显得进步。
个人简介: 在互联网以及电商行业深耕多年,曾服务于HP、 ebay、携程等知名互联网公司,具备很强的技术背景以及深厚的Devops实践功底,是国内Devops践行者,通过持续实践,实施了第一批的敏捷运维项目,积累了丰富的Devops转型、管理、落地执行等实践经验。
华图教育 技术总监 GOPS 金牌讲师
演讲议题:Github 高星开源:基于 Python 的企业级运维自动化平台 个人简介:12年IT行业经验,曾任职于易车网,中国电信,跟谁学等公司,现任HPE顾问讲师。擅长超大规模路由交换网络设计与运维,大规模Linux集群运维管理,Mysql集群解决方案。目前专注于私有云、Devops、数据库领域。
招商银行信用卡中心 技术经理
Fintech(科技金融)、区块链等越来越多的概念喷涌而出,面对日益增长、变幻莫测的业务需求,IT基础架构的稳定性正在不断接受着挑战,,如何在IT交付流程中寻找稳态和敏态间的平衡点,成为了很多企业困扰的焦点之一。Shawn将以多年在金融行业IT基础架构的经验分享,向大家展现如何通过Zabbix实现全栈自动化监控,确保及时、有效的进行全栈级监控,实现快速定位故障或者潜在的问题。
个人简介: 蔡翔华(Shawn):GOPS金牌讲师。国内首批ZCP,Zabbix中文手册官方译者,Zabbix社区签约作者。EXIN Devops Handbook官方译者。积极投入Zabbix社区建设,在多个技术大会上进行技术分享,同行业内首次引入Zabbix开源监控平台,实现统一的全栈式监控。拥有DevOps
比特大陆 高级技术专家
SkyWalking 发起人
主题简介: Zipkin作为全球化运用最广泛的分布式追踪库,涵盖了几乎所有主流语言,拥有强大的社区基础。大量的中间件、类库都已经在发布版中就完成了对Zipkin的集成。Apache SkyWalking作为中国首个起源于个人项目的Apache项目,也是首个中国OSS领域的Apache项目,提供了强大的分析和展现能力,目前提供Java、.NET以及Node.js的自动探针。支持Zipkin数据格式,对非自动探针语言分布式追踪生态,提供了强大的支持。这次SkyWalking主导的OSS开源系统数据兼容,为大家提供了更多的选择,更大的想象空间。追踪系统完全可以打破项目边界,沟通构建具有交互性的生态。
同时,在本次演讲中,我们将分享更多Apache SkyWalking的最新进度,里程碑。
华为 消费者BG云运维部
AIOps 负责人
AIOps 白皮书核心编写专家
主题简介: 消费者BG云服务业务飞速发展,如何支撑起业务海量运维数据的实时存储与分析,如何支撑起运维问题场景的分析,大量指标涌来后如何在故障检测、故障诊断上提升运维团队的问题处理效率,本次将与大家继续分享下消费者BG云运维团队在AIOps的技术实践。
个人简介: 华为 消费者BG云运维部 AIOps 负责人,AIOps 白皮书核心编写专家,2018年GOPS 大会(深圳站)金牌讲师;07年加入华为,分别参与并负责传统智能网、中间件平台、运维工具等产品的研发与规划,在分布式系统、大数据分析处理、高并发连接、运维工具等场景有丰富的实践经验;15年初起负责运营商领域的软件运维工具平台、17年初起加入消费者领域,负责云运维部运维大数据的研发与规划,倡导数据化精准化智能化运维理念,目前着力于AIOps 能力的运维实践提升。
《智能运维:从0搭建大规模分布式AIOps系统》作者 新浪微博 技术专家
微博作为拥有超过1.8亿DAU的社交产品,其商业化近年来也发展迅速,计算规模日益庞大,在商业广告及微博复杂社交的特定场景下,整个商业化技术架构面临前所未有的挑战。强大的运维基础设施是保障商业变现业务至关重要的支撑,然而,我们离AIOps的理想王国到底还有多远?本次分享将全面完整地呈现微博广告智能运维技术体系整体架构、核心系统的设计思路、微博复杂场景下智能运维技术的典型案例,让我们一起探索AIOps的这座运维技术的王国。
个人简介:微博广告基础架构团队负责人、技术专家,目前负责广告核心引擎基础架构、智能运维系统、商业基础数据平台(D+)等基础设施建设。关注计算广告、大数据、人工智能、高可用系统架构设计、区块链等方向。在微博之前,曾就职于百度负责大数据平台建设,曾担任趣点科技联合创始人兼CTO等职位。毕业于西北工业大学,曾在国内外知名期刊发表多篇学术论文,拥有9项发明专利。著有《智能运维:从0搭建大规模分布式AIOps系统》一书。
腾讯运维总监 腾讯 T4 专家
主题简介: 1、腾讯运维监控体系的几个核心实践
2、玩转运维数据,数据导向的运维规划
3、AIOps 探索与实践:预测、根源、根因
个人简介: 从开发到运维,伴随腾讯社交网络运营部成长的十年,负责过腾讯社交产品所有业务运维工作。目前主要负责 QQ、空间等产品运维团队管理工作。经历多个业务产品的诞生到蓬勃,伴随着运维团队的成长和成熟,见证着腾讯一代代运营技术的创新和发展。作为运维界老兵有好多故事想和大家讲,也特别愿意听听各位经历的酸甜苦辣。
腾讯 计费平台部运营质量中心负责人
腾讯内部业务规模和数量逐年迅猛增长,节假日、周年庆等大促活动日趋常态化,特别是在节假日期间包括公司头部应用的大批量业务同时段开展大促营销活动,动辄几十倍的活动峰值在容量预判、资源隔离、自动化调度、运营可用度等方面对公司计费平台提出了巨大的挑战。对此,腾讯计费构建了一套集现网压测、播测监控、自动化扩缩容、鹰眼扫描、智能调度于一体的大促保障体系,确保公司收入大盘万无一失。
个人简介: 黄宇,腾讯计费平台部运营质量中心负责人,主要负责公司计费收入大盘的整体运营及管理工作,在虚拟支付、多终端移动支付、海量账户存储等领域长期耕耘,拥有十多年丰富的运营开发和运维规划经验,目前专注于devops、私有化运营平台、智能监控等能力建设。
主题简介: 1、腾讯运维体系实施路径与关键技术
2、夯实根基,非功能运维规范与技术实践
3、聚焦场景,面向业务价值的自动化运维
个人简介:梁定安,腾讯运维总监、腾讯织云负责人、腾讯学院讲师、腾讯云布道师、DevOps专家、高效运维社区金牌讲师、复旦大学客座讲师、《DevOps三十六计》主编之一。运维体系化建设的经验丰富,在腾讯SNG负责运维自动化、立体化监控、智能化的运营规划与团队管理工作。在腾讯云toB业务,负责运维解决方案织云产品输出,客户包括:中国银行、迈瑞科技、云南电网、安心保险、港交所、上汽集团、广汽集团、车轮互联、金谷银行、华通银行等大客户的运维一体化项目。
网易 资深系统运维专家
分享网易系统运维团队多年的运维工具演变历程和对运维工具的思考。网易复杂的产品线,核心产品突发式的扩展,对系统运维提出了非常高的要求。业务增长在大部分时间内是提前于运维团队的,这个就要求运维团队不断提升人均服务器运维能力。讲座将重点介绍系统运维团队在面临考拉,云音乐等众多业务快速增长的压力下,如何通过将日常系统运维能力封装成标准化服务,对外暴露RESTful接口,方便内部平台集成能力。在实践中,运维能力的服务化成功的降低了运维成本,提升运维效率。
毕业前就在网易工作,做了12年的运维,一直从事系统运维工作。主导过网易几乎所有产品的运维工作,包括网易社交产品,IM产品,金融产品,电商产品等,基本上除了游戏,邮箱和有道产品外。对互联网产品运维技术,流程和架构均有深刻的认识和实践。对监控系统,DDoS防御,运维自动化均有实践。当前主要负责网易考拉,网易云音乐等核心产品的运维工作,聚焦于运维自动化,系统自愈相关的技术研究和实践工作。
腾讯 网络平台部基础架构运营负责人
大型DCI互联网络规模宏大、技术复杂度高,如何在出现DCI网络故障时,快速发现异常、定位并恢复受损业务,是诸多网络管理人员面临的首要挑战。传统的网工们往往需要花大量的时间总结经验,遍历故障路径进行排查,效率较低;或引入自动化,对分析逻辑进行自动化封装,但仍然存在通用性瓶颈和覆盖盲区;为此,腾讯针对DCI网络引入智能化的监控、定位系统,实现最快10分钟内快速发现网络异常并恢复业务。
个人简介: 何维兵,腾讯网络平台部基础架构运营负责人;资深运维老兵,拥有10年运营商网络、6年互联网基础设施运营经验,擅长大型骨干网络、数据中心网络维护管理和运营支撑系统规划建设,目前专注于网络自动化运营、DevOps以及网络智能运营的实践探索。
阿里 计算平台事业部高级运维专家
主题简介: 介绍阿里大数据大规模集群运维的演进之路及积累的一些经验,同时探讨大规模集群运维的发展方向。
个人简介: 在运维领域工作超过10年,在阿里巴巴带领团队主要关注在大数据大规模计算平台的运维工作,先后负责过阿里MaxCompute、AnalyticDB、PAI、等大数据产品运维工作。目前主要专注于实时计算平台StreamCompute的运维工作。
eBay作为一个20多年历史的老牌电商,为了适应指数级增长的用户规模,前后经历了5代架构演进。虽然一些架构已经淘汰了,但目前仍然有2代架构并存,具体到不同架构下的子系统就更多了。在这样复杂的平台下,我们SRE的怎么保障站点的可用性,可靠性和性能?具体到监控领域,我们遵循怎样的监控原则,才能求同存异,抽丝剥茧,帮助我们快速地定位问题?一套完整的监控必须做到实时性,全面性,精准性,同时又不能草木皆兵,告警满天飞。应用程序Application提供了eBay站点的所有功能,我们以应用为中心,围绕应用的外围和应用本身收集指标数据。SRE通过收集4个黄金指标LETS,就能全方位地掌握应用系统的健康状况。如何落地这4个抽象指标,在实践中化抽象为具体?正向思维的监测就是收集所有从前端到后端的LETS,如LB、Server、Container、Web application、DB、network、middleware,但其困境就是数据量太大,不利于快速定位根本原因。以LB connection stacking为例,运用反向思维,通过现象来反观LETS,达到以少量的数据得到全局的健康情况。设立domain SRE,跨业务应用部门合作,了解业务应用的核心组建,创建白盒监控。从用户体验的角度来观测站点的健康值,创建黑盒监控。以service client markdown为例,阐述如何有机地结合检测、自动调优、预防和恢复机制。监控的结果要简单且具体,把故障定位在具体的位置,对异常指标的描述要简单明了,只有这样故障恢复的措施才会具体明了,才能快速地恢复业务,让智能排查和智能恢复变得可能。
个人简介: 2008年毕业于东南大学,毕业后加入摩根士丹利,负责全球证券和外汇内部数据仓库的容量规划和ETL,提升可用性和可靠性。2014年加入eBay,加入全球网站监控平台团队,负责监控平台和自研Agents的改进和开发。后加入SRE团队担任主管工程师,用工程化方法维护站点的可用性,稳定性和性能,专注于研发、运维、安全、监控、自动化领域。
精益运维发起人 优维科技 CEO
演讲主题:基于 CMDB 打造一体化运维平台体系 主题简介:CMDB 在 DevOps 时代下,显得越来越重要,已经成为核心的基础元数据平台。个人坚持把整个 DevOps 平台构建在 CMDB 之上的,因为个人经验CMDB对于一个数字化企业的价值,能够提供平台整合的支点。我们深刻的认识到,过去 CMDB建设的失败经验教训,而今我们需要从理念、方法、技术、组织架构等多个维度重构CMDB体系。我们把新一代CMDB称之为强CMDB,是以IT对象为中心,从业务/应用视角构建起IT资源的生命周期管理,从而支撑今天复杂的IT过程,如DevOps、ITOM等等,这个强是指支撑的过程更强了,更多了,自动化要求更高了。本次分享是从多个角度分析如何基于CMDB构建一个完整的平台体系。 个人简介:15年出来运维创业,优维科技CEO,聚焦在DevOps方向,提供一站式DevOps及运维解决方案。07年进入腾讯公司接触运维,经历服务器从百到万的运维历程,先后在YY和UC参与不同业务形态的运维,期间带过前端运维、数据存储运维、YY语音、游戏运维、运维研发等多种运维团队,对运维有着全面的理解。极力倡导互联网价值运维理念,即面向用户的价值是由自动化平台交付传递,同时由数据化来提炼和衡量。创办优维科技公司的目的,旨在缩短企业到达互联网运维的路径。
主题简介: 随着公司业务的成长,Micro Service的应用,遇到了基础库升级频繁,代码review流程不统一,代码整体质量偏低,版本管理复杂,代码复用率低,开发效率不高等一系列问题。B站引入Mono-Repo大仓库的理念,对基础库进行一致的版本管理,简化了依赖管理,实现了极致的代码共享和复用,加强了团队间的紧密协作。与此同时,通过CodeOwner机制增加了对代码写权限的分布式控制,以及精准的事件通知。整合和优化CI工具和流程,结合Gitlab
个人简介: 目前负责B站Mono-Repo大仓库的推动,大仓库下自动构建和部署平台,持续集成及自动化测试平台等工程效率平台的研发。
携程 技术保障中心资深运维 AI 工程师
主题简介: 随着人工智能时代的到来,携程生产环境运维进入了新的运维时代—AIOps。通过两年多时间的技术投入与积累,AIOps 在效率提升、可用性保障、成本优化等运维场景取得了显著的成果。本次GOPS全球运维大会将和大家分享携程AIOps的实践之路以及几种典型实践案例。
个人简介: 携程技术保障中心资深运维AI工程师,毕业于复旦大学信号处理专业,硕士学位。负责携程多个AIOps项目的设计与研发,对人工智能、机器学习、神经网络及数学有浓厚的兴趣,对人工智能技术结合运维场景的实践有深入研究。
腾讯 架构平台部运营开发组负责人
EB级存储量,百T级带宽,超十万台服务器,遍布全球多地域、多运营商的网络环境,公司内部业务与外部云上业务的接合,如此重体量下的多个业务如何在保证安全运营前提下的高效率运维,日常的海量监控,频繁的业务变更,复杂又多变的生产环境运维需求,需要尽量减少运维人工的参与,才能尽力提升运维效率,同时这里面的各个点又需要具备灵活应对的能力,本次分享藉由微信图片、语音业务入手介绍腾讯海量存储及CDN服务的自动化运维体系,着重介绍在监控告警、容量管理、变更方面的自动化运维,以及灵活需求下的自助化运维方案。
个人简介: 从事运营系统相关的建设工作超过8年,参与建设了腾讯云CDB、腾讯海量文件存储系统TFS以及腾讯CDN服务的运营体系从初级到较为完善的各个阶段,目前专注于提升腾讯云上直播、点播、静态文件CDN、COS等业务的运营质量,以及建设更为高效与安全的自动化运维体系。
主题简介: 本次分享将从百度智能运维的整体架构开始,以运维大数据和运维操作自动化两条线为脉络,介绍百度云在智能运维研发领域的工程经验。并结合实际的运维操作场景,详细介绍如何使用运维研发框架ARK快速构建部署、故障自愈解决方案。
个人简介: 王艺,百度云智能运维团队架构负责人。2010年加入百度,先后负责百度链接库、百度志愿计算、百度统一资源管理的研发,热衷于直面架构技术挑战,在分布式计算,分布式资源、任务调度方面经验丰富。作为百度云智能运维架构方向的技术负责人,致力于为智能运维平台研发提供高性能、高可用、可扩展的系统架构和基础设施。
好买财富 持续集成平台负责人
主题简介: 1、了解好买持续集成平台的构建历史,发展历程;
2、了解好买持续集成平台各组成系统的关键特征;
3、持续集成平台的困难与挑战;
个人简介: 16年加入好买财富,时任测试经理,力推多元化测试的分层测试体系,参与设计并推广接口测试自动化。现任好买持续集成平台负责人,专注于打造好买特色的持续交付体系,致力于提高好买研发工程效能。
前上海某交易所 DevOps 专家
主题简介: 这是一个有点 ”Low ”的主题
99.999% 的人应该都可以听得懂我在说什么(普通话二级乙等)
80% 的人听完可以借助 Ansible 完全模仿并实现更符合需求管理方式
0% 硬广和炫技成分,晦涩难懂高大上的架构?不存在的
100% 的努力去平衡生活(工作 + 家庭)
个人简介: 在金融行业摸爬滚打多年,经历了单手扛8U服务器的光荣岁月,见证了金融行业从人肉运维到神兵利器然后进化为DevOps开发运维一体化的时代。目前主要负责Ops运维,研究和实现基于Ansible的主机自动化运维管理框架,近期主要研究Dev自动化运维平台开发的项目实践。
京东 工程效率专家 DevOps 标准核心编写专家
个人简介: Certified DevOps Master,Certified Jenkins Engineer,DevOps时代社区核心成员,全开源端到端部署流水线主创成员。现任某大型互联网公司工程效率负责人,负责公司 DevOps 与持续交付体系与平台建设。曾任职于乐视、华为、尼康,从事持续交付推进及工具链平台建设工作,拥有多年持续交付落地实践经验。
以“让更多人变美”为使命,怀揣着“打造美丽生态链,让每个人都使用美图产品”的愿景,美图公司产品矩阵目前在全球15亿台设备激活,DAU超过4.8亿,知名的产品如美图秀秀、美颜相机、美拍、美图手机、美图美妆等,覆盖工具产品、社交、电商、智能硬件及区块链等软硬件领域。本次分享主要介绍,我们如何支撑这么大规模产品快速交付,如何构建整套支撑体系,以及DevOps在其中扮演的关键作用。
个人简介: 前新浪微博平台运维架构师,见证微博平台从几十台到万台规模下后端服务的发展历程,具有丰富的运维体系建设及其互联网业务经验。现任美图运维总监,负责DBA、业务运维、大数据运维、CDN技术支撑,监控体系等方面的工作。
京东商城 前台技术服务负责人
主题简介: 不同业务产品、不同技术水平、不同的合作伙伴 如何找到正确的管理规划、如何避免团队的冲突和矛盾、如何精益高效的服务于业务。
个人简介: 京东前台技术服务提升部总监
开放运维联盟专家委员,高效运维社区核心成员
运维、质量、工程效率,技术服务开放平台
腾讯社交平台、网媒门户、电商平台
主题简介: 沪江2017年完成去windows的技术转型,从一整套windows的解决方案转向到基于Linux+Java+mysql体系转变,本次主题会对运维体系从应用打包、发布、监控、管理、预警、排障等运维系统是如何建设的全面介绍。
个人简介: 沪江平台架构部资深Java架构师。技术研发十余年,喜欢技术,追求卓越
携程 系统研发部云平台高级研发经理
主题简介: 容器时代的运维实践,介绍携程云平台团队是如何使用创新的工具和流程进行SRE工程实践,保障携程云平台持续、稳定、高效运行。
个人简介: 毕业于同济大学软件学院,毕业后长期从事系统运维、应用运维和运维平台开发等相关工作。曾任职于百度、PPTV等互联网公司,现任职于携程系统研发部,负责携程容器云运维管理、自动化运维工具开发。
京东金融 应用架构部负责人
每年的618大促都是一场盛大的狂欢,也是对运维人员最大的考验,业务对用户体验和访问质量的要求非常严格,关键业务路径的一些接口的性能都有精确到毫秒级的指标要求,而大量严苛的监控指标项,毕然会导致经常会触发监控报警,可能是硬件损坏,可能是网络抖动,可能是某些中间件的异常,如何抽丝剥茧,追查到问题背后的真相,需要敏锐的眼睛,缜密的思维,渊博的知识,精巧的技艺,现如今,更是有了强大的AIOPS的利器来帮助我们分析案例,快速定位和解决问题,保障大促的平稳运行。
个人简介: 京东金融资深技术架构师、应用架构部负责人,也曾负责人人网产品运维团队(PE)。经历了京东金融运维体系从0到N的过程,数次618和双十一大促的考验,目前主要关注DevOps,运维与架构的融合,业务可用性保障,智能运维,大数据运维,运维平台建设和团队管理。
相当一部分运维人员都处在中小企业里就职,如何在中小企业做好运维和安全,是很多运维和安全人员关心的问题。中小企业面临着一个实际的问题:人少事多,尤其是创业公司,迭代发布快,而且没有专职的运维开发。为解决这个问题,应充分使用好已有的开源的软件,在开发尽可能少的脚本下,让不相干的开源软件进入到运维自动化流程里,包括系统***,系统初始化,中间件***,业务系统发布,监控项添加等,减少人力的干涉,从而提高运维效率。同时可以把相关的安全参数通过自动化流程传递到各个系统里,大幅度减少因安全参数修改而劳师动众。
个人简介: 我叫陈行飞,目前负责复星金服的运维和安全。复星金服主要是以保理,供应链金融,征信,第三方支付,电子***等为核心业务。本人在世界500强外企呆了11年,负责中国区域的IT基础架构;然后在第三方支付公司和创业公司也呆了一段时间。
我本人也曾多次经历了中小企业从无到有,再到逐渐完善的运维建设经历。经过自己的一些个人总结,把这些经验沉淀下来,希望对其他有同样经历的运维人员有所帮助。
主题简介: 在移动互联、云计算与大数据的浪潮下,与许多互联网公司一样,互联网金融企业在逐渐从传统模式向分布式模式转型,而在面对“大平台,小团队”的硬性变革下,基础化共享服务也在不断调整技术研发方向,通过完善中间平台到底层基础设施的整体端到端的技术布局,也许是个非常赶时髦,且立竿见影的选择。
金融业务属于强监管领域,在17年前,基础化共享服务在运维与测试两方面相对偏于传统,但自从17年起,随着对快速发布、快速排障的要求逐渐提高,好买开始逐步将自己的应用与中间件迁移至云上,并在中间件上实施DevOps,在这个过程中累计经验与教训,本次分享希望与大家聊一聊好买是如何在混合云场景下的构建自己的金融级中间件自动化运维平台的。
个人简介: 2013 年加入好买财富,在5年内亲身经历了公司面向互联网的业务转型与技术变迁,辗转过不同的业务团队,对技术与业务都有一定的深入了解。 曾担任大智慧测试总监,在2年内带领团队自研了“大智慧云测试平台”,通过平台化将金融数据服务业务从瀑布式逐渐转型为DevOps。
美国伊利诺伊大学 机器学习方向博士 听云 首席科学家
主题简介: 随着软件日新月异的发展和数据量的爆炸式增长,智能化运维越来越受到人们的重视。在海量的运维数据里,最不可忽视的就是各种 KPI、指标数据。在一个大型软件系统里,往往每分钟能产生百万级的指标数据,如何从这些海量数据里发现规律,指导运维并将其智能化,成为了下一代运维中最重要的环节之一。 在本次演讲中,我们将从机器学习的角度总结和分享运维里指标的类型、场景和常用算法。同时,结合实践走过的坑,给出实际应用中不同算法的取舍。
个人简介: 本科毕业于清华大学,获美国伊利诺伊大学芝加哥分校,机器学习和数据挖掘方向博士。拥有十多项美国和国际专利以及多篇最佳学术论文,并连续多年担任国际人工智能会议 KDD、ICDM、IJCAI、CIKM等的程序委员,同时是最早将AIOps产品化的实践者之一。
《深度实践 KVM》作者
个人简介: 二十年运维工作经验,新钛云服资深架构师,《深度实践KVM》作者,《运维前线》系列图书策划人,《Ceph cool book》译者之一。
主题简介: 通过使用轻量级分布式任务调度框架和分布式计算框架,实现开源安全工具和安全产品的自动化运维,从而更加高效地发现安全风险。
个人简介: 负责安全产品开发、内部开发框架实现、新领域研究及落地。关注分布式、机器学习在安全领域结合的前沿技术。
畅销书《深入理解Nginx:模块开发与架构解析》作者
大数据背景下需要我们的应用有很强的数据处理能力,而最前方的Nginx作为反向代理、静态资源服务、API服务尤其需要强大的单机处理能力,当单机能够处理百万并发、百万QPS时,才有可能以水平扩展的方式组建可线性扩容的集群。而百万并发对我们的内存优化方式提出了很大挑战,而百万QPS或者更低的latency则对我们的网络优化、系统内核的调度理解、应用场景的熟悉有非常高的要求。这里我想提纲契领的与大家一起过下优化Nginx的思路,尽快让大家手中的Nginx都能成为大数据处理的利器。
个人简介: 先后于华为、腾讯、思科、阿里巴巴等公司负责大数据处理相关工作,曾著有畅销书《深入理解Nginx:模块开发与架构解析》,作为联合创始人创立杭州智链达数据有限公司并担任技术总监一职,目前专注于使用互联网技术助力建筑行业实现转型升级。
主题简介: 阿里集团拥有庞大的,成百上千的业务群,这些业务群通过百万量级的主机规模来支撑,如此规模宏大的主机如何进行安全访问与管控?如何确保访问安全,登陆安全,操作安全,监管合规安全? 这个问题一直是我们需要思考和去解决的。在这个体系化建设过程中,我们经过多年多个阶段的演进,提升。至今,我们已经取得了一定的阶段性里程碑成果。本次也是阿里首次对外分享主机系统安全管控方面的主题。
个人简介: 从事互联网运维行业12年以上,一直服务于一二线大厂,做过运维全栈(IDC , SA,PE,DEV, 架构,管理,安全),对运维行业具有深刻的理解和认识。在阿里,先后从事过系统平台,全局变更,风险评估,全网主机系统安全管控体系建设,监管合规等相关工作。
主题简介: 京东APP拥有超大规模的访问量,其背后依赖大量的后台接口来保证用户的极致体验。随着业务量的迅猛增长,复杂的业务逻辑逐渐放到了后台处理,因此后台接口测试的平台化建设就非常重要而紧迫,本次主题秉承平台化建设思维重点介绍京东APP后台服务接口测试相关的平台建设,从主动行为的功能测试,到性能测试,再到被动行为的常态化测试共同形成的强大测试平台链。
个人简介: 10多年测试及自动化经验,从通信行业到互联网领域,在测试方面有着丰富的经历,先后就职于爱立信,诺基亚等知名公司。2015年加入京东,从事后台服务接口相关的测试、平台化建设及测试构架设计方面的工作,参与多次618、双11大促备战压测,在后台接口测试方面有较深的实战经验。
隆重发布《企业级 AIOps 实施建议》白皮书 V1.0 正式版
个人简介:高效运维社区发起人,DevOps时代社区发起人,开放运维联盟联合主席,GOPS 全球运维大会发起人,复旦大学特聘讲师。2004 年硕士毕业于北京科技大学,先后就职于联想集团、搜狐畅游、 触控科技等。十余年互联网运维从业经验,运维自媒体。
主题简介:结合我在AT&T的工作经验,以及百度、阿里、腾讯、滴滴、搜狗的合作经验,我总结智能运维科研还没有做到普世化,有条件智能运维科研的人很少。这是因为:工业界有数据、有应用,但是欠缺定义科研问题的经验和算法经验; 学术界不了解智能运维的应用场景,也很难获得训练算法必需的数据;工业界与学术界的一对一交流效率低、见效慢。在这次分享中, 我将提出普世化智能运维科研的一个思路。 首先,我将系统地把运维生产环境中的应用难题***成若干切实可行的科研问题,并公布在我们实验室即将启动的一个智能运维算法大赛网站。 在这个网站上,各个企业可以为自己关心的、已经***好的具体科研问题上传可供公开访问的脱敏数据;学术界基于公开的科研问题和数据,贡献算法,并与其他科研工作者的算法进行性能比较。就像ImageNet网站对图像识别机器学习算法的大力推进一样, 我相信这个智能运维算法大赛网站也将成为智能运维算法高速发展的一个有力催化剂,有效推进智能运维科研的普世化。
个人简介:裴丹博士是清华大学计算机系长聘副教授,特别研究员,青年千人。目前的主要研究方向是基于机器学习的智能运维。目前与百度、阿里、腾讯、滴滴、搜狗在智能运维领域都有合作。 在美国UCLA获得了博士学位,之后加入美国AT&T研究院担任资深研究员、主任研究员。 在智能运维领域发表了90余篇学术论文,20多项美国专利授权。他是ACM和IEEE的Senior Member。
系统架构云化之后,网元海量化、技术栈多样化、部署架构复杂化是云平台的特点,新形式下系统整体稳定性、故障快速定界、运维管理效率都面临着挑战,传统的人肉运维和自动化运维已经不能满足要求。基于AIOps的智慧化运维是运维的发展必然,是自动化运维的下一个发展阶段。王晓征带队的浙江移动云运维团队在智慧化运维方面创新性地提出“双L2”演进路线,为浙江移动AIOps发展和实践奠定坚实基础。借助于浙江移动智慧运维平台——“神舟”,对AIOps的智慧化相关场景进行探索落地。
个人简介: 在浙江移动IT战线工作多年,曾从事浙江移动业务系统开发、核心数据库运维,云计算平台建设及管理等重要工作。于2003年获得Oracle 9I OCM,是中国移动首批前3个OCM之一;1997年中国足球乙级联赛注册球员。在云计算中心任职期间,创造性地以ITIL为基础框架,融入DevOps的敏捷血液,构建了具有浙江移动特色的云运维体系。当前正在投身建设基于AIOPS的智慧运维平台,取得了值得传统行业借鉴的理论和技术成果。
主题简介: 三讲是指:讲观点、讲数据、讲案例。
在中国,程序员把自己称做“码农”,说自己是编程的农民工,干的都是体力活,加班很严重,但正是这群码农创造了中国现在互联网的成就。如何在程序员这个群体中能突颖而出,那就是正确高效地做好每一件事。如何让技术发挥更大的价值,那就是找准业务场景进行技术赋能。讲观点就是要抓住事物的本质,考验你发现问题的能力,讲数据就是确保问题的客观性和真实性,而不是自己的臆想,讲案例就是对成果具象化的检验。
三指数是指:体验指数、能效指数、弹性指数。
规模以上的大中型企业的信息化,往往呈现出“业务系统多元、基础架构老化、接口调用散乱、语言工具庞杂”等特征,CTO经常处于救火的状态。如何在繁杂的工作中理出头绪,找到工作主线,我的老板教导我要善于抓住主要矛盾和矛盾的主要方面。我把老板的教导拆解为体验指数、能效指数、弹性指数等三个指数,以这三个指数为主线目标进行资源配置和系统优化改造,宏观地推进整体技术为企业战略服务。
个人简介: 盛国军 花名毛尖,现任海尔电器集团CTO。第一代互联网和电子商务开发者,历任8848系统架构师、麦考林首席架构师、麦包包首席架构师。2012年加入海尔集团,致力于打造以用户为中心的交互、交易、交付等企业级电子商务技术平台。
智能安全运营中心建设实践
个人简介: 2017年度十佳首席安全官CSO,长期从事信息与网络安全技术与管理体系建设、信息系统安全审计工作,目前致力于在中国银行建设以纵深防御为基础,主动防御为目标的一体化网络安全保障体系。 拥有CISSP、TOGAF、CISA、CBCP、Cobit、ISO 27001、ITIL、PMP、CCNP等网络安全、企业架构、信息系统审计、IT治理、业务连续性、信息安全管理体系、项目管理等相关领域的国际权威认证。
主题简介: 随着银行业务的快速发展,以及银行业迈入转型创新关键期的形势下,银行信息系统运行的压力也在持续增加,给数据中心运维工作带来全新挑战。如何改变大型主机传统的运维模式,结合分布式、大数据、人工智能等新兴技术的应用,提升主机运维的自动化、智能化水平,是大型主机运维人员的着重发力点。
近几年,工行数据中心(上海)大型主机运维团队在运维自动化、智能化方面做了一些尝试。希望借助新技术逐步夯实运维基础,提升运维的自主可控水平,寻找保障业务安全稳定的有效路径。本次主要介绍下工行在大型主机智能化运维的探索和实践。
个人简介: 一直在工行科技条线,主要从事大型主机技术研发、运维管理工作,承担过主机系统一线运维,有主机运维的一手经验;负责主机架构优化设计、系统软件产品测试验收,负责工行“两地三中心”工程建设,有主机大型项目的实施经验。这几年也在积极投入到智能运维体系建设的探索中,致力于通过新技术的整合应用来提升大型主机的运行效率和稳定性。
阿里巴巴集团在业务规模不断扩大、业务形态不断变化的背景下,为了保证业务的稳定运行和故障的快速恢复,我们需要通过更加智能化的手段来支持和管理故障发现、故障分析、故障恢复等一系列故障处理过程。同时,在“新零售”等互联网新业态的驱动下,我们也积极探索了一些有别于传统监控的新场景,通过新的技术手段来提升业务监控的质量和效率,拓展了传统监控的应用场景。在本次分享中,我们希望能够从增强版的时间序列异常检测、多指标异常的智能判断、故障影响面和可疑原因的智能分析等几个层面来介绍我们在智能监控领域的新场景探索,希望能够给听众在智能运维理念在实际业务落地的过程中以指引和帮助。
个人简介: 王肇刚(花名:梓弋) 阿里巴巴集团 基础设施事业群-全球运行指挥中心(GOC) 高级技术专家。负责阿里巴巴集团业务指标监控、业务故障分析及监控中心团队的管理工作。在时间序列异常检测、业务故障定位及影响面分析、运维数据仓库和其它相关的智能运维相关领域有丰富的技术经验积累和成果产出。其中,业务指标异常检测算法,成功地将阿里巴巴集团核心业务指标监控的正确率提从40%提升到80%,极大地提升了集团业务故障发现的效率和自动化水平。
2017年5月,受邀代表阿里巴巴集团参加国际运维领域顶级会议SREcon17,并发表主题演讲,向国际同行介绍阿里巴巴集团在业务指标异常检测算法方面的实践和成果。
在加入阿里巴巴之前,作为百度智能运维团队的架构师及核心项目负责人,主导了服务于百度商业广告系统异常发现和故障定位的智能运维产品的设计和研发,并对主导了百度运维数据仓库及百度智能运维平台的设计和研发工作。参与过百度运维平台和运维基础组件(中间件)的研发工作。也曾经担任百度贴吧产品线的运维负责人,积累了大量一线应用运维的业务和技术经验。
汇丰银行30年恐龙级IT系统DevOps成功改造
主体简介:30多年前,汇丰银行聚集了一批当时的IT精英,花了几年时间,在IBM AS400中型机平台上,开发了一个当时非常前沿领先的国际财富交易系统。这个传奇系统第一个版本在香港正式上线运作,是1987年。 由于优秀且卓有远见的设计和高质量的开发维护,30多年间,这个系统经历了风风雨雨,依然兢兢业业,为汇丰环球银行与资本市场部门提供稳健的覆盖全球的巨量外汇与资本财富交易服务。 但当今需求瞬息万变,传统的瀑布式开发已经严重影响了系统对需求反应的时效性。传奇也慢慢变成了巨大而笨重的恐龙。当2016年,我们汇丰决定全面引入DevOps的时候,基本没人会认为这个系统能DevOps 起来。 但我们相信,没有绝对落后的系统,挡道的只是不思进取的思维模式。凭着我们团队的精诚协作,锐意创新,不懈努力,7个月多后,这只恐龙,成功地在DevOps的舞台上翩翩舞动起来。做到了很多新系统都难以完成的高难度动作。 想知道其中的魔法和奇迹?这次讲演将为您拨开云雾看青天。希望能对DevOps 改造中的你有所启发。 我们的巨型恐龙都能舞动起来,你的系统一定也可以!
个人简介:15年前,作为一个毕业生,非常荣幸能在将近十选一的竞争中脱颖而出,在激动与兴奋中开始了这一段与汇丰银行一起成长的惊叹旅程。 感恩并得益于公司开放的环境和文化,本人多年的学习工作得以横跨汇丰多个部门,在环球银行资本市场到个人银行和财富管理等部门都能有所历练。不同的系统和丰富的学习成长机会,加上充足的内部资源支持,让我从一个程序员逐步成长为全球功能团队的负责人。同时, 在香港、伦敦、多伦多、新加坡、吉隆坡、海得拉巴、浦那等国际及地区的商务旅行和海外工作经验,极大拓展了我的全球化视野,提高了我对全球化协作的理解和相关事件的处理能力。也令我能成功建立跨区域团队,并让团队拥有高性能高效率同时,保持非常良好的士气与氛围。 15年转瞬而逝,但我砥砺前行的激情并没淡去。我依旧相信,不断努力学习,思考,改进和创新,我一定能带领团队,继续为部门,为公司,乃至为整个行业做出更多贡献,带来更好的变化。
主题简介: 本次演讲内容是对数据中心服务台的智能化手段进行了研究,重点研究语音识别、自然语言处理、人机交互、知识图谱、用户体验数据获取、非故障问题发现等技术,并对知识库的大数据分析和机器学习进行探讨,对端到端的事件发现能力进行描述,最终形成对智能化服务台的支撑。
个人简介: 郝丽萍是建设银行北京数据中心生产调度处处长,在建设银行从事信息技术领域工作30年,在运维管理方面积累了大量的经验,曾组织完成了北京数据中心大运行、一体化运维等相关工作,目前负责建设银行数据中心运维工具智能化的规划、建设等工作,对数据中心智能运维有比较深入的理解,尤其是对数据中心智能服务台进行了专门的研究。
太平洋保险
应用运行支持部副总经理
DevOps 标准核心专家
个人简介:现担任中国太平洋保险集团股份有限公司信息技术中心应用运行支持部副总经理。长期从事保险行业信息化建设,曾多次主持大型保险信息系统建设和推广工作,参与和实施保险核心系统数据大集中和重构工作,参与大型数据中心建设和系统搬迁,参与智能移动保险平台建设。目前主要从事云计算和大数据相关技术研究和应用,面对移动互联浪潮的挑战和机遇,积极探索和实践传统行业IT运维模式的转型升级。
个人简介: 来炜,滴滴出行技术总监,CCF TF 系统运维 SIG 执行主席,滴滴工程委员会、开源委员会委员,国内最流行的开源企业级监控系统Open-Falcon的创始人和社区负责人,致力于推动建设开源软件生态,专注于高可用架构、稳定性保障、运维自动化、云服务、容器化等方向。
银行对系统可用性的要求非常的高,对每个故障的处理时效也是严格限制。随着银行互联网业务的不断增长,相关业务的代码更新速度也越来越快,系统和子系统的数量的关系越来越复杂,导致当故障发生时定位问题的时间越来越长。那么如何系统得提升故障处理领域得效率和效果,通过建立和运行银行SWAT团队,我们通过两个维度对业务和系统进行了梳理,建立了故障处理得相关机制,通过一段时间得运行,取得了明显得进步。
个人简介: 在互联网以及电商行业深耕多年,曾服务于HP、 ebay、携程等知名互联网公司,具备很强的技术背景以及深厚的Devops实践功底,是国内Devops践行者,通过持续实践,实施了第一批的敏捷运维项目,积累了丰富的Devops转型、管理、落地执行等实践经验。
演讲议题:Github 高星开源:基于 Python 的企业级运维自动化平台 个人简介:12年IT行业经验,曾任职于易车网,中国电信,跟谁学等公司,现任HPE顾问讲师。擅长超大规模路由交换网络设计与运维,大规模Linux集群运维管理,Mysql集群解决方案。目前专注于私有云、Devops、数据库领域。
Fintech(科技金融)、区块链等越来越多的概念喷涌而出,面对日益增长、变幻莫测的业务需求,IT基础架构的稳定性正在不断接受着挑战,,如何在IT交付流程中寻找稳态和敏态间的平衡点,成为了很多企业困扰的焦点之一。Shawn将以多年在金融行业IT基础架构的经验分享,向大家展现如何通过Zabbix实现全栈自动化监控,确保及时、有效的进行全栈级监控,实现快速定位故障或者潜在的问题。
个人简介: 蔡翔华(Shawn):GOPS金牌讲师。国内首批ZCP,Zabbix中文手册官方译者,Zabbix社区签约作者。EXIN Devops Handbook官方译者。积极投入Zabbix社区建设,在多个技术大会上进行技术分享,同行业内首次引入Zabbix开源监控平台,实现统一的全栈式监控。拥有DevOps
比特大陆 高级技术专家
SkyWalking 发起人
主题简介: Zipkin作为全球化运用最广泛的分布式追踪库,涵盖了几乎所有主流语言,拥有强大的社区基础。大量的中间件、类库都已经在发布版中就完成了对Zipkin的集成。Apache SkyWalking作为中国首个起源于个人项目的Apache项目,也是首个中国OSS领域的Apache项目,提供了强大的分析和展现能力,目前提供Java、.NET以及Node.js的自动探针。支持Zipkin数据格式,对非自动探针语言分布式追踪生态,提供了强大的支持。这次SkyWalking主导的OSS开源系统数据兼容,为大家提供了更多的选择,更大的想象空间。追踪系统完全可以打破项目边界,沟通构建具有交互性的生态。
同时,在本次演讲中,我们将分享更多Apache SkyWalking的最新进度,里程碑。
华为 消费者BG云运维部
AIOps 负责人
AIOps 白皮书核心编写专家
主题简介: 消费者BG云服务业务飞速发展,如何支撑起业务海量运维数据的实时存储与分析,如何支撑起运维问题场景的分析,大量指标涌来后如何在故障检测、故障诊断上提升运维团队的问题处理效率,本次将与大家继续分享下消费者BG云运维团队在AIOps的技术实践。
个人简介: 华为 消费者BG云运维部 AIOps 负责人,AIOps 白皮书核心编写专家,2018年GOPS 大会(深圳站)金牌讲师;07年加入华为,分别参与并负责传统智能网、中间件平台、运维工具等产品的研发与规划,在分布式系统、大数据分析处理、高并发连接、运维工具等场景有丰富的实践经验;15年初起负责运营商领域的软件运维工具平台、17年初起加入消费者领域,负责云运维部运维大数据的研发与规划,倡导数据化精准化智能化运维理念,目前着力于AIOps 能力的运维实践提升。
《智能运维:从0搭建大规模分布式AIOps系统》作者 新浪微博 技术专家
微博作为拥有超过1.8亿DAU的社交产品,其商业化近年来也发展迅速,计算规模日益庞大,在商业广告及微博复杂社交的特定场景下,整个商业化技术架构面临前所未有的挑战。强大的运维基础设施是保障商业变现业务至关重要的支撑,然而,我们离AIOps的理想王国到底还有多远?本次分享将全面完整地呈现微博广告智能运维技术体系整体架构、核心系统的设计思路、微博复杂场景下智能运维技术的典型案例,让我们一起探索AIOps的这座运维技术的王国。
个人简介:微博广告基础架构团队负责人、技术专家,目前负责广告核心引擎基础架构、智能运维系统、商业基础数据平台(D+)等基础设施建设。关注计算广告、大数据、人工智能、高可用系统架构设计、区块链等方向。在微博之前,曾就职于百度负责大数据平台建设,曾担任趣点科技联合创始人兼CTO等职位。毕业于西北工业大学,曾在国内外知名期刊发表多篇学术论文,拥有9项发明专利。著有《智能运维:从0搭建大规模分布式AIOps系统》一书。
主题简介: 1、腾讯运维监控体系的几个核心实践
2、玩转运维数据,数据导向的运维规划
3、AIOps 探索与实践:预测、根源、根因
个人简介: 从开发到运维,伴随腾讯社交网络运营部成长的十年,负责过腾讯社交产品所有业务运维工作。目前主要负责 QQ、空间等产品运维团队管理工作。经历多个业务产品的诞生到蓬勃,伴随着运维团队的成长和成熟,见证着腾讯一代代运营技术的创新和发展。作为运维界老兵有好多故事想和大家讲,也特别愿意听听各位经历的酸甜苦辣。
腾讯内部业务规模和数量逐年迅猛增长,节假日、周年庆等大促活动日趋常态化,特别是在节假日期间包括公司头部应用的大批量业务同时段开展大促营销活动,动辄几十倍的活动峰值在容量预判、资源隔离、自动化调度、运营可用度等方面对公司计费平台提出了巨大的挑战。对此,腾讯计费构建了一套集现网压测、播测监控、自动化扩缩容、鹰眼扫描、智能调度于一体的大促保障体系,确保公司收入大盘万无一失。
个人简介: 黄宇,腾讯计费平台部运营质量中心负责人,主要负责公司计费收入大盘的整体运营及管理工作,在虚拟支付、多终端移动支付、海量账户存储等领域长期耕耘,拥有十多年丰富的运营开发和运维规划经验,目前专注于devops、私有化运营平台、智能监控等能力建设。
主题简介: 1、腾讯运维体系实施路径与关键技术
2、夯实根基,非功能运维规范与技术实践
3、聚焦场景,面向业务价值的自动化运维
个人简介:梁定安,腾讯运维总监、腾讯织云负责人、腾讯学院讲师、腾讯云布道师、DevOps专家、高效运维社区金牌讲师、复旦大学客座讲师、《DevOps三十六计》主编之一。运维体系化建设的经验丰富,在腾讯SNG负责运维自动化、立体化监控、智能化的运营规划与团队管理工作。在腾讯云toB业务,负责运维解决方案织云产品输出,客户包括:中国银行、迈瑞科技、云南电网、安心保险、港交所、上汽集团、广汽集团、车轮互联、金谷银行、华通银行等大客户的运维一体化项目。
分享网易系统运维团队多年的运维工具演变历程和对运维工具的思考。网易复杂的产品线,核心产品突发式的扩展,对系统运维提出了非常高的要求。业务增长在大部分时间内是提前于运维团队的,这个就要求运维团队不断提升人均服务器运维能力。讲座将重点介绍系统运维团队在面临考拉,云音乐等众多业务快速增长的压力下,如何通过将日常系统运维能力封装成标准化服务,对外暴露RESTful接口,方便内部平台集成能力。在实践中,运维能力的服务化成功的降低了运维成本,提升运维效率。
毕业前就在网易工作,做了12年的运维,一直从事系统运维工作。主导过网易几乎所有产品的运维工作,包括网易社交产品,IM产品,金融产品,电商产品等,基本上除了游戏,邮箱和有道产品外。对互联网产品运维技术,流程和架构均有深刻的认识和实践。对监控系统,DDoS防御,运维自动化均有实践。当前主要负责网易考拉,网易云音乐等核心产品的运维工作,聚焦于运维自动化,系统自愈相关的技术研究和实践工作。
大型DCI互联网络规模宏大、技术复杂度高,如何在出现DCI网络故障时,快速发现异常、定位并恢复受损业务,是诸多网络管理人员面临的首要挑战。传统的网工们往往需要花大量的时间总结经验,遍历故障路径进行排查,效率较低;或引入自动化,对分析逻辑进行自动化封装,但仍然存在通用性瓶颈和覆盖盲区;为此,腾讯针对DCI网络引入智能化的监控、定位系统,实现最快10分钟内快速发现网络异常并恢复业务。
个人简介: 何维兵,腾讯网络平台部基础架构运营负责人;资深运维老兵,拥有10年运营商网络、6年互联网基础设施运营经验,擅长大型骨干网络、数据中心网络维护管理和运营支撑系统规划建设,目前专注于网络自动化运营、DevOps以及网络智能运营的实践探索。
主题简介: 介绍阿里大数据大规模集群运维的演进之路及积累的一些经验,同时探讨大规模集群运维的发展方向。
个人简介: 在运维领域工作超过10年,在阿里巴巴带领团队主要关注在大数据大规模计算平台的运维工作,先后负责过阿里MaxCompute、AnalyticDB、PAI、等大数据产品运维工作。目前主要专注于实时计算平台StreamCompute的运维工作。
eBay作为一个20多年历史的老牌电商,为了适应指数级增长的用户规模,前后经历了5代架构演进。虽然一些架构已经淘汰了,但目前仍然有2代架构并存,具体到不同架构下的子系统就更多了。在这样复杂的平台下,我们SRE的怎么保障站点的可用性,可靠性和性能?具体到监控领域,我们遵循怎样的监控原则,才能求同存异,抽丝剥茧,帮助我们快速地定位问题?一套完整的监控必须做到实时性,全面性,精准性,同时又不能草木皆兵,告警满天飞。应用程序Application提供了eBay站点的所有功能,我们以应用为中心,围绕应用的外围和应用本身收集指标数据。SRE通过收集4个黄金指标LETS,就能全方位地掌握应用系统的健康状况。如何落地这4个抽象指标,在实践中化抽象为具体?正向思维的监测就是收集所有从前端到后端的LETS,如LB、Server、Container、Web application、DB、network、middleware,但其困境就是数据量太大,不利于快速定位根本原因。以LB connection stacking为例,运用反向思维,通过现象来反观LETS,达到以少量的数据得到全局的健康情况。设立domain SRE,跨业务应用部门合作,了解业务应用的核心组建,创建白盒监控。从用户体验的角度来观测站点的健康值,创建黑盒监控。以service client markdown为例,阐述如何有机地结合检测、自动调优、预防和恢复机制。监控的结果要简单且具体,把故障定位在具体的位置,对异常指标的描述要简单明了,只有这样故障恢复的措施才会具体明了,才能快速地恢复业务,让智能排查和智能恢复变得可能。
个人简介: 2008年毕业于东南大学,毕业后加入摩根士丹利,负责全球证券和外汇内部数据仓库的容量规划和ETL,提升可用性和可靠性。2014年加入eBay,加入全球网站监控平台团队,负责监控平台和自研Agents的改进和开发。后加入SRE团队担任主管工程师,用工程化方法维护站点的可用性,稳定性和性能,专注于研发、运维、安全、监控、自动化领域。
演讲主题:基于 CMDB 打造一体化运维平台体系 主题简介:CMDB 在 DevOps 时代下,显得越来越重要,已经成为核心的基础元数据平台。个人坚持把整个 DevOps 平台构建在 CMDB 之上的,因为个人经验CMDB对于一个数字化企业的价值,能够提供平台整合的支点。我们深刻的认识到,过去 CMDB建设的失败经验教训,而今我们需要从理念、方法、技术、组织架构等多个维度重构CMDB体系。我们把新一代CMDB称之为强CMDB,是以IT对象为中心,从业务/应用视角构建起IT资源的生命周期管理,从而支撑今天复杂的IT过程,如DevOps、ITOM等等,这个强是指支撑的过程更强了,更多了,自动化要求更高了。本次分享是从多个角度分析如何基于CMDB构建一个完整的平台体系。 个人简介:15年出来运维创业,优维科技CEO,聚焦在DevOps方向,提供一站式DevOps及运维解决方案。07年进入腾讯公司接触运维,经历服务器从百到万的运维历程,先后在YY和UC参与不同业务形态的运维,期间带过前端运维、数据存储运维、YY语音、游戏运维、运维研发等多种运维团队,对运维有着全面的理解。极力倡导互联网价值运维理念,即面向用户的价值是由自动化平台交付传递,同时由数据化来提炼和衡量。创办优维科技公司的目的,旨在缩短企业到达互联网运维的路径。
主题简介: 随着公司业务的成长,Micro Service的应用,遇到了基础库升级频繁,代码review流程不统一,代码整体质量偏低,版本管理复杂,代码复用率低,开发效率不高等一系列问题。B站引入Mono-Repo大仓库的理念,对基础库进行一致的版本管理,简化了依赖管理,实现了极致的代码共享和复用,加强了团队间的紧密协作。与此同时,通过CodeOwner机制增加了对代码写权限的分布式控制,以及精准的事件通知。整合和优化CI工具和流程,结合Gitlab
个人简介: 目前负责B站Mono-Repo大仓库的推动,大仓库下自动构建和部署平台,持续集成及自动化测试平台等工程效率平台的研发。
主题简介: 随着人工智能时代的到来,携程生产环境运维进入了新的运维时代—AIOps。通过两年多时间的技术投入与积累,AIOps 在效率提升、可用性保障、成本优化等运维场景取得了显著的成果。本次GOPS全球运维大会将和大家分享携程AIOps的实践之路以及几种典型实践案例。
个人简介: 携程技术保障中心资深运维AI工程师,毕业于复旦大学信号处理专业,硕士学位。负责携程多个AIOps项目的设计与研发,对人工智能、机器学习、神经网络及数学有浓厚的兴趣,对人工智能技术结合运维场景的实践有深入研究。