首页 科技 电脑 手机 安卓 苹果 VR 站长 游戏

您的位置:咪哚网 > 科技 > 人物观点 >

裴丹:智能运维算法需要工业界和学术界密切合作实现技术突破

咪哚网(www.midoo.cc)时间:2018-09-21 09:06 稿源:华夏时报 手机扫描分享

  清华大学计算机系副教授裴丹博士,曾在美国AT&T研究院学习和工作,AT&T研究院前身是贝尔实验室的一部分,大概有200个博士,有C++发明者、防火墙之父,裴教授在此发表了23项运维相关的专利。之后他回到清华继续从事运维科研。

  裴教授所在的清华大学NetMan实验室,做的科研基本上都是跟运维相关。他认为,工业界、学术界应该在运维领域里面能够密切合作,各取所需。工业界有很多实际问题,有很多经验,也有实际的数据,学术界有时间,有算法,有学生,大家一起结合,这样就会产生很好的效果。

  作为一位运维专家,裴教授曾在美国一个30万人的大公司里面主要通过大数据分析的方法做运维,是基于大数据技术管理网络和应用的性能,各种网络协议、IPTV、Video等等;回到清华做科研后,开设的也是网络性能管理/应用性能管理相关的课程,所有的科研都是跟运维相关的,在国内工业界的合作伙伴包括百度、阿里、腾讯、滴滴、搜狗、微众银行、华为等。

  智能运维现在已呈现一个很清晰的趋势:从基于规则的智能运维自动化逐渐转为基于机器学习。那么,智能运维在中国落地和发展所必须面对的挑战是什么?思路是什么?要解决哪些关键问题?

  智能运维今后几年将有长足发展

  裴丹说,智能运维是指在互联网中的大型分布式系统不断处理海量用户体验、性能、稳定性、安全事件,从而达到如下效果:

  能够准确的复现并诊断过去发生的事件;

  能够及时准确的检测、诊断当前正在发生的事件,并确定最适合的应对方案;

  能够相对准确地规划和预测将来可能发生的事件。

  由此可以看出,智能运维是人工智能(机器学习)、互联网运维领域知识、工程开发的交叉领域,三者缺一不可。

  裴丹介绍:智能运维常用到的机器学习技术包括相关性分析、回归、关联分析、聚类、决策树、随机森林、支持向量机、隐氏马尔科夫、卷积神经网络、LSTM(Long Short Term Memory)等等。这些算法在各种(开源或闭源的)工具集中都有现成的代码实现。智能运维的一个主要挑战是根据具体需求评判应用哪些机器学习算法,并适配或改造。

  基于如上机器学习技术的具体智能运维技术包括:

  1.面向历史事件的:批量根因分析、瓶颈分析、热点分析等;

  2.面向实时事件的:KPI异常检测、日志异常监测、事件关联关系挖掘、报警聚合、快速止损、故障根因分析、止损建议分析;

  3.面向未来的:配置管理、容量预测、趋势预测、故障预测、热点预测等。

  智能运维呈现怎样的的发展趋势?其与APM(应用性能监控),操作系统性能监控,数据库监控,网络监控等技术是怎样的关系?裴丹称,智能运维正在经历由“基于人为指定规则”到“基于机器学习”的转变,我们将来会看到越来越多的科研成果和实际系统采用机器学习算法做为基础工具。目前机器学习在一个领域取得广泛成功有几个要素:可用的开源机器学习系统、实际应用场景、大量数据、大量标注,而智能运维恰好具备这几类要素。所以,他觉得基于机器学习的智能运维在今后几年会取得长足的进展。他强调,这些基于机器学习的智能运维技术是APM(应用性能监控),操作系统性能监控,数据库监控,网络监控等技术的底层基础技术,因此智能运维的发展会大大促使上述领域的发展。

  自2016年以来运维行业蓬勃发展,新技术大规模推广,如容器与微服务,配置管理工具,DevOps,SRE这样的概念和思想的落地,还有很多运维方向的公司都拿到了大手笔的融资,怎样看当前运维行业的发展?

  裴丹说:首先,上述新概念和思想的落地是运维行业的大好事儿,这标志着运维行业已经逐渐脱离了人工和经验(dark arts),而转向一个真正基于技术的行业。容器和微服务的不断落地,会使得一些过去可行的技术(比如基于人工置顶规则的根因分析)遇到瓶颈,需要新的智能运维技术来适应容器和微服务等底层技术的更新。同时,不少运维方向的公司都拿到大额融资,把大公司的运维系统及技术提供给中小企业使用,这也是一件大好事。更多的企业在应用运维技术的生产实践中,会不断的产生新的挑战,相应地会有新的技术和解决方案提出来,会对整个智能运维行业的发展产生强烈的促进作用。

  他认为,用发展的眼光看,未来SRE这一职位除了目前强调的互联网运维领域知识、工程开发的结合以外,也会逐渐强调机器学习技术的应用。

  裴丹还向笔者介绍了智能运维中,运维工作人员与机器的分工。他说,机器将成为运维人员的高效可靠助手,逐渐替代人力完成基础性和重复性的基层运维工作。对于较为复杂的运维问题,通过不断向运维专家学习,从而向运维人员自动提供决策建议。

  他认为,将来的智能运维人员可能主要有三种:经验丰富的运维专家;熟悉运维场景的机器学习专家;智能运维系统开发者。

  运维专家有三项职责:人工处理那些机器还不能处理好的运维难题,基于经验根据机器给出的决策建议作出最终决策,不断训练机器。算法专家不断应用最新的机器学习技术设计智能运维算法。系统开发者不断实现和集成算法、数据采集和自动化执行脚本。

  裴丹曾在在美国做过很长时间的运维工作,对于中美运维行业发展的差别,他的看法是,总体来说,美国运维行业在运维理念和智能运维技术的创新比国内要多一些。

  首先,美国的运维行业工作历史悠久,AT&T电信网络的运维在几十年前就开始了,并且依赖AT&T的科学家们,发明了很多智能运维算法,发表在计算机网络领域的顶级会议(如ACM SIGCOMM)和期刊(如IEEE/ACM Transactions on Networking)中,并引发了学术界的深度参与,这些算法的核心思想有不少在现代互联网中仍然适用。

  互联网兴起后,大型互联网公司在生产实践中不断深挖运维问题的根源,提出或深入实践了微服务、容器、DevOps等先进理念。国内运维业总体上来说还处于应用已有先进技术的阶段,但是在一些局部的技术点上(比如普适异常检测技术)也走在了世界的前列。

  他表示相信国内的运维行业在国内互联网行业不断高速发展的促进下,在不断增多的国际交流的帮助下,一定能够逐渐自主提出并实践原创的理念和技术。

  工业界和学术界应密切合作实现技术突破

  展望未来几年的运维领域的技术发展,裴丹认为:在国际范围内,越来越多的先进机器学习技术会被应用到运维领域。一些智能运维的关键技术,会逐渐通过工业界和学术界的密切合作被突破,比如异常检测、异常定位、异常事件关联等。更多的预测型的智能运维技术会被提出并实际应用,比如故障预测、热点预测、容量预测等。

编辑:未知

声明:
1、咪哚网所转载的稿件都会明确标注作者和来源,如您不希望被转载请及时与我们联系删除。
2、咪哚网的原创文章,请转载时务必注明文章作者和"来源:咪哚网",不尊重原创的行为咪哚网或将追究责任。
标签
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:看不清?点击更换
最新评论

科技 娱乐 健康 国内 生命 天文 自然 科学

微软善于听取来自用户、IT人员和开发者的各种想法

据外媒报道,微软CEO萨蒂亚·纳德拉日前在

乐视危局 张艺谋王宝强等上亿投资或遭变故

在深陷欠款危机,贾跃亭自曝乐视资金链紧张

霜降天气渐冷 推荐4款最佳食疗

我国古代将霜降分为三候:“一候豺乃祭兽;

外媒:大陆博物馆文物众多 但最好的宝贝在台湾

新西兰stuff网站11月20日文章,原题:对首

为您推荐RECOMMEND

  • 返回
    顶部
     关于本站| 友情链接| 版权声明| 意见反馈| 不良信息举报| 联系我们| 网站导航

Copyright © 2016 咪哚网 版权所有.

MIDOO.CC, All Rights Reserved. 备案号:豫ICP备15012166号-2