IBM王博:智慧运维:AI引领运维新时代 | 智见

 “IBM技术服务部通过IBM自有品牌及多品牌软硬件支持服务、AI赋能的主动支持洞察和基础架构服务三个方面,为客户提供全生命周期的技术服务。”

王博

IBM技术服务高级解决方案经理


在北京举办的以“数据×AI 万象新生”为主题,第四届中国数据要素高峰论坛暨数据×AI 行业场景应用研讨会上,IBM技术服务高级解决方案经理王博发表了《智慧运维:AI引领运维新时代》的主题演讲。


以下为精彩演讲视频:




以下为DTinsight整理的演讲内容精炼:


 IBM技术服务内容


运维管理工作经历了几个发展阶段:第一阶段,依靠系统管理员个人技能进行系统运维;第二阶段,随着IT系统越来越多、重要性增强,保证系统稳定运行变成非常重要的工作,以ITIL等最佳实践为指导建立各种各样标准流程和技术规范,保证系统可靠性,帮助实现更好的系统运维;第三阶段,信息爆炸时代,系统数量成指数级增长,采用自动化工具成为运维的主要方式;第四阶段,自动化运维呈现出局限性,而伴随着AI技术的发展,通过AI认知识别、大语言模型引入,不断应用于运维工作中。


IBM作为全球领先的IT服务提供商,不断探索运维技术支持工作技术发展,更好运用AI技术为客户提供服务。IBM技术服务部作为全球性组织,覆盖 130 个国家,可支持超 40种语言,拥有 230 +种技术认证,涵盖22000万余种产品。为客户提供从系统规划到系统下线的全生命周期技术支持服务,其服务范围不仅限于 IBM产品的技术支持,还涵盖市面上几乎所有 IT 软硬件服务。


根据去年数据统计,技术服务部大约处理 640 万项问题,其中 AI 技术解决约 190 万项,人工解决约 450 万项,通过 AI 自动巡检技术,主动识别出约 180 万项系统技术漏洞并提前规避风险。基于此,IBM技术服务部被 IDC MarketScape 评为技术支持服务的领导者。

IBM技术服务的内容主要有三个方面:一是针对IBM自有品牌及多品牌软硬件提供技术支持服务,这也是技术服务部的基础;二是随着AI技术发展,IBM提供AI-enabled 主动支持洞察服务,通过AI技术实现主动故障检测、处理,为系统管理员提供服务,帮助其更好进行系统运维;三是提供基础架构服务,帮助客户解决从技术架构的规划设计到建设、运维,再到下线迁移的整个生命周期的各种问题。


从服务器到存储、网络,再从安全到软件,IBM产品覆盖领域广泛,除了本身产品外,也对市场主流软硬件产品,甚至一些开源产品,IBM都提供相应技术支持服务。


 IBM AI 应用技术支持探索


随着AI技术快速发展应用,IBM也对AI技术应用在运维和技术支持方面进行尝试和探索,主要是通过AI提升客户技术支持服务体验和提高系统运行稳定性。一方面通过AI技术应用改善客户技术支持交互体验,提升支持效率;另一方面通过AI和自动化保证系统稳定运行。


改善客户技术支持交互体验,提升支持效率分为三个方向:第一,通过虚拟知识助手提供客户自助服务,智能知识助手对话模式,根据客户提出基础知识问题的理解,检索知识库中的相应知识、信息,为客户提供帮助;第二,使用生成式AI提供技术支持记录总结和建议,通过AI技术对客户过去一年各种途径遇到的问题,进行记录总结并生成报告,为客户提供系统运维洞察支持;第三,追踪问题解决路径,丰富知识库,在技术支持工作中,运维人员经常记录问题、查找解决方案、尝试反馈并最终形成完整处理记录的流程。而反馈过程中还可能经历多次失败,重复新的流程。通过AI技术自动记录每一次问题,并进行总结,不断丰富知识库,有效节省了运维人员的时间,提升了运维效率。


通过AI和自动化保证系统稳定运行,目的是主动的风险评估与洞察,消除隐患。在主动问题识别和解决方案建议方面主要进行了两个方面探索:一方面是针对运维系统软硬件需要频繁升级补丁,影响运行时间等情况,IBM 推出了IBM Support Insights Pro 工具,可以对多品牌软硬件提供可执行级别的补丁升级建议;另一方面,通过Call Home/Enterprise Service Agent,对已部署在客户系统上的产品进行监测,对系统运行出现的问题进行自动诊断和派单。在健康检查和评估层面,通过IBM Network Health Check 工具针对企业网络完成健康评估、问题发现及诊断;IBM IT基础设施可以自动监测系统资源运行状况,实时采集 CPU 使用率、IO 使用率、网络使用率等数据,基于数据提供资源优化建议,适当减少整体的数据中心设备量,助力企业降低能耗和运营成本,也契合绿色发展理念。


 AI 应用场景


随着AI技术快速发展,其应用场景越来越广泛,IBM在多个场景应用AI技术,提升业务和运维效率。


在IBM内部桌面运维支持场景中,通过 Ask IT工具,智能化处理问题。所有用户问题通过Ask IT工具提问,Ask IT机器人尝试向用户提供常见解决方案、推理回答,针对复杂性、难以解决的问题自动转接人工解决模式。无论是从运维效率上,还是对于工程师团队的成本控制上,Ask IT都实现了很大提升。

此前,工程师提供技术支持,需要收集客户信息,根据相关描述收集系统运行日志或监控数据,在对此类信息进行知识库检索,还要对所有类似报告进行选择匹配,过程不仅耗时长,而且工作量非常大。而工程师AI辅助助手,可以为工程师在问题处理上提供辅助支持。AI助手根据所有问题描述转化成数字向量模型,寻找类似问题,进入watsonx LLM模型之后,从类似问题中进行提取和总结。并将所有总结出来的信息重新切入模型,通过Cluster模型对所有类似问题或解决方案进行汇总,为工程师提供相关性最高的解决方案。其意义在于 AI机器人为工程师节省了大量的检索问题、分析问题时间,还能够更快速的给到相关解决方案建议。


除了以上两大场景外,IBM通过AI技术工具帮助支持技术服务工作。Virtual Assistant - Self Service工具提供交互功能,客户可快速检索后台知识库与工具的匹配度;Remote Technical Support (RTS ) Agent Assist 会部署到客户设备终端上面,自动对设备进行巡检、运行状态监控、历史跟踪数据分析,提供系统运行状态报告;Case Summarization 能够帮助我们把所有历史记录的关键信息提取出来,丰富到知识库中;RFP Advisor 工具上线后,能够为客户提供更复杂的解决方案和建议;Control Center   Agent Assistant   Service 工具主要用在技术支撑中心内部,帮助监控整个客服中心、运行流程,对重复高的任务进行处理;Control Center Entitlement Operations 帮助客户进行权限检查、快速调控工作;Client Value Reports 工具主要帮助客户自动抓取所有服务记录,为客户生成报告;Sales Lead Generation工具用来了解服务客户接入情况自动产生销售机会。


IBM基于国内开源大模型开发 IT 支持问答系统,可部署在客户自有系统中。其运作流程为:先上传技术文档,系统解析文档数据并录入后台知识库,随后用户可在对话中提问相关技术问题,系统基于已录入的知识库信息进行回答。目前该系统支持多种大语言模型。




 2025年6月14日,由DTinsight中国数智发展研究中心主办,以“数据×AI 万象新生”为主题的第四届中国数据要素高峰论坛暨数据×AI 行业场景应用研讨会,在北京圆满闭幕。本届大会特邀来自金融、制造、互联网、消费及央国企各领域的专家、数智化领军者等200余位学者大咖汇聚一堂,通过全方位、多视角的深度交流,带来数智化转型不一样的思考。





END