近日,2025中国生成式AI大会在北京举办,来自学术界与产业界的50+位嘉宾围绕GenAI应用、大模型、AI智能体、具身智能、DeepSeek R1与推理模型等话题,进行热烈分享与讨论。云轴科技ZStack CTO王为受邀在“大模型”峰会上发表主题为《AI原生实践:企业实际场景的AI赋能与Infra实践探索》演讲。
王为认为,在AI原生实践中,企业自身即为最好的练兵场,只有亲自下场才能更理解企业客户痛点和需求,进而更好地对外服务。为此ZStack的AI原生实践从2022年就已经开始,围绕企业级用户常用的几个场景持续迭代,并通过不同模型和应用发掘AI Infra新需求,不断沉淀出场景化的解决方案。
同时,他还提到,DeepSeek x AI Infra平台私有化技术方案如今已被云计算技术圈认可,成为行业用户进行私有AI应用创新的默认选项,被金融、教育、科研、传媒等行业用户部署在生产业务中。
以下内容基于王为演讲全文整理:
AI原生实践就像自动驾驶的L1~L4层级
类比汽车自动驾驶,将企业AI原生实践划分为四个递进层级,分别为:AI作为工具、AI作为参考建议、AI主导、AI端到端完成,来对应自动驾驶的L1~L4级别。最初级别的汽车只具备报警提醒,随后发展出车道保持能力,进而实现部分自动驾驶,最终达到输入目的地即可端到端抵达的能力。
在这次的演讲中,以ZStack Support AI作为例子介绍ZStackAI原生实践之路,展示了AI辅助售后(客服场景)、AI辅助代码(AI代码助手)、AI帮助文档(翻译场景)、AI辅助测试、AI辅助销售实践5个工作环节,并着重对辅助售后与帮助文档两个实践展开详细介绍。
ZStack Support AI是ZStack在客户服务领域的创新,在公司内部和外部客户中得到广泛使用,目前已经成功投入运行2年以上的时间。
ZStack Support AI 主要能力包括:
数据提炼:提炼内部数据(官网、工单、论坛、Jira、Confluence等系统)以强化RAG知识库
流程编排:支持应用编排,通过拖拉拽的方式构建知识库和Agent,满足各种业务需求
系统对接:能够无缝对接钉钉、企业微信、微信客服等通讯软件和系统
用户接入:为客户、销售、售前、技术团队提供卓越支持
完善API:通过完善且兼容OpenAI格式的API打通Support AI知识库和ChatRobot确保信息流通无阻,协作高效流畅。
AI知识库实践:AI 辅助售后(客服场景)
在知识库实践方面对应的场景是AI辅助售后(客服场景)。ZStack从2022年进行技术探索,技术方案已迭代4次,包括ChatGPT3.5、RAG系统、开源知识库+多数据源整合、AIOS算力调度+开源知识库+多场景业务渗透。问题回复准确率从最初的60%到大于85%,类比自动驾驶已经具备了L1~L2的能力。
ZStack AI知识库实践遇到的核心挑战和处理方案
期间面临数据孤岛、异构数据、数据噪声等核心挑战,ZStack通过Support AI智能处理方案,从全域数据自动采集、智能格式标准化、AI深度清洗引擎等维度应对上述挑战。
在此过程中发现,客服场景下AI Infra存在多样性需求,包括通过显存切割将大卡切割成小卡,让小模型运行更有效率;支持结构化输出JSON方便开发者处理;能够根据业务负载进行弹性伸缩,在大量处理数据时可以启动多实例并发;满足超大参数模型的并行推理、高效推理等需求。
AI 辅助文档(翻译场景)实践
目前ZStack Cloud产品支持10种文字,累计发布正式版本84个,每个版本包含至少几十篇文档,数万个 DITA 文件、几百万汉字、千万+单词,ZStack希望通过AI提升翻译效率,但是文档数据汉字总量达数百万,而且是XML格式,实施时存在多重难题。
为了实现事半功倍的效果,前期做好了文档规范工作,包括标点符号、术语、大小写、有/无序列表、产品名称的统一等,早期将这些产品文档规范标准化,后期会事半功倍。
在AI辅助文档(翻译场景)实践中,ZStack整理了几千条术语,最初想通过prompt工程去实现需求,但也遇到几个问题,主要体现在几千个术语导致prompt很长,有几万甚至几十万token带来成本、延迟、输出质量降低等问题;语言风格(如正式/口语化、简略/冗长、抽象/具体等)会使得prompt输出结果偏离预期等。
最后ZStack微调了一个7B的模型去解决上述问题。经BLEU的评分测试,该模型表现优于直接使用DeepSeek、Qwen的671B、72B模型,另外在本地的微调模型也比公有云调用prompt模型速度快很多。类比自动驾驶已经具备了L1~L3的能力。
ZStack AI翻译实践微调7B模型BLEU评分测试结果对比图
ZStack全栈AI基础设施构建路径详解
ZStack的业务是从私有云、虚拟化服务开始的,然后扩展到容器、多云管理,在基础设施领域有非常扎实的积累,所以当这波AI浪潮来到时,推出AI Infra平台服务并重构技术架构。
ZStack AI 基础设施构建技术架构图
以往企业常以CPU为中心进行技术架构设计,挖掘CPU算力,随着AI新浪潮来到,企业对AI赋能业务需求迫切,需重视GPU管理,重构技术架构已经是必做项。
为助力企业私有化AI部署,ZStack推出了新一代AI Infra平台ZStack AIOS智塔,实现从智算层、模型层、运营与应用层帮助企业用户构建AI基础设施。
ZStack AI 基础设施构建——资源层构建技术架构
智算资源层,ZStack AIOS平台智塔通过容器化、虚拟化以及裸金属方式,实现对算力资源的统一灵活调度。与海光、昇腾、英伟达、英特尔等多种CPU/GPU等深度适配,通过vGPU动态精分,实现算力智能调度。借助分布式存储、全闪存储以及支持IB网卡等能力,来满足训推环境下的技术需求。同时保留虚拟机模式,顺应部分用户使用习惯。
模型层构建,一方面是模型使用,主要承担管理员角色,观测底层资源使用情况,对CPU、GPU、存储等资源管理;另一方面是模型服务,开发者拥有底层资源后,可以从本地浏览器或者URL上传、从HuggingFace/魔搭社区直接下载后快速导入主流AI模型,进行推理、精调、评测等操作,实现模型应用开发部署需求。
ZStack AI 基础设施构建——模型层构建技术架构
ZStack AIOS平台智塔支持从轻量到超大规模的全量模型部署,满足不同场景需求;深度集成开源模型平台,支持模型敏捷迭代与版本热切换;提供可视化精调工作台和多维度模型评估体系,方便企业打造专属AI引擎。针对市场中新出现,或者客户感兴趣的模型能够进行快速搭建、测试,从而提升整体的部署效率。
运营与应用层,ZStack AIOS平台智塔支持低代码开发的AI应用工厂,实现从模型到业务的无缝衔接。
此外,在企业私有化AI上最为关心的数据安全方面,ZStack AIOS平台智塔在数据、访问和审计三大维度保障企业级数据安全,部门级数据沙箱机制,实现模型服务、应用数据双重隔离。
在服务客户进行私有化部署大模型后,ZStack发现4个主要技术难点/趋势:
模型从70B向671B甚至更大发展,越来越大的模型对部署架构、PD分离、多机推理都带来了更大的挑战和难度。
越来越大的上下文,会出现KVcache占用大量显存,显存资源很快耗尽、内存带宽成为瓶颈、通信耗时增加直接影响计算本身等问题,需要在显存压缩、计算优化、动态资源调度层面进行深度优化,才能突破长上下文场景下显存和算力瓶颈。
全模态支持,市场正在快速从文生文、图生文向原生语音模型、图文生图模型发展。
多品牌算力需持续支撑上层应用,国内算力品牌多且生态各异,消耗服务商大量精力,因此需要不同的CPU、GPU厂商组合,CUDA体系与非CUDA体系针对不同结构的模型进行优化。
在2024年2月2日ZStack AIOS平台智塔首发支持DeepSeek V3/R1/ Janus Pro三种模型后,3 月 3 日ZStack基于ZStack AIOS平台智塔发布智塔AI一体机DeepSeek版,可基于海光、昇腾、英伟达、英特尔等多种国内外CPU/GPU私有化部署,满足企业进行DeepSeek本地私有化部署需求。
AI Infra平台是企业加速释放AI生产力的关键引擎平台,它聚焦企业级AI应用的私有化部署场景(Private AI),是支撑人工智能应用开发、部署、运行和管理的一系列基础工具和软件平台,具备算力管理层、模型管理层、应用管理层三大能力模型。赛迪顾问认为,2025年是中国AI Infra平台应用元年,新一代企业数智化转型底座AI Infra 平台呈现飞速发展趋势。