ZStack：AI原生实践需要自己下场，详解全栈AI Infra平台构建路径

2025-04-14 17:58

近日，2025中国生成式AI大会在北京举办，来自学术界与产业界的50+位嘉宾围绕GenAI应用、大模型、AI智能体、具身智能、DeepSeek R1与推理模型等话题，进行热烈分享与讨论。云轴科技ZStack CTO王为受邀在“大模型”峰会上发表主题为《AI原生实践：企业实际场景的AI赋能与Infra实践探索》演讲。

王为认为，在AI原生实践中，企业自身即为最好的练兵场，只有亲自下场才能更理解企业客户痛点和需求，进而更好地对外服务。为此ZStack的AI原生实践从2022年就已经开始，围绕企业级用户常用的几个场景持续迭代，并通过不同模型和应用发掘AI Infra新需求，不断沉淀出场景化的解决方案。

同时，他还提到，DeepSeek x AI Infra平台私有化技术方案如今已被云计算技术圈认可，成为行业用户进行私有AI应用创新的默认选项，被金融、教育、科研、传媒等行业用户部署在生产业务中。

以下内容基于王为演讲全文整理：

AI原生实践就像自动驾驶的L1~L4层级

类比汽车自动驾驶，将企业AI原生实践划分为四个递进层级，分别为：AI作为工具、AI作为参考建议、AI主导、AI端到端完成，来对应自动驾驶的L1~L4级别。最初级别的汽车只具备报警提醒，随后发展出车道保持能力，进而实现部分自动驾驶，最终达到输入目的地即可端到端抵达的能力。

在这次的演讲中，以ZStack Support AI作为例子介绍ZStackAI原生实践之路，展示了AI辅助售后（客服场景）、AI辅助代码（AI代码助手）、AI帮助文档（翻译场景）、AI辅助测试、AI辅助销售实践5个工作环节，并着重对辅助售后与帮助文档两个实践展开详细介绍。

ZStack Support AI是ZStack在客户服务领域的创新，在公司内部和外部客户中得到广泛使用，目前已经成功投入运行2年以上的时间。

ZStack Support AI 主要能力包括：

数据提炼：提炼内部数据（官网、工单、论坛、Jira、Confluence等系统）以强化RAG知识库
流程编排：支持应用编排，通过拖拉拽的方式构建知识库和Agent，满足各种业务需求
系统对接：能够无缝对接钉钉、企业微信、微信客服等通讯软件和系统
用户接入：为客户、销售、售前、技术团队提供卓越支持
完善API：通过完善且兼容OpenAI格式的API打通Support AI知识库和ChatRobot确保信息流通无阻，协作高效流畅。

AI知识库实践：AI 辅助售后（客服场景）

在知识库实践方面对应的场景是AI辅助售后（客服场景）。ZStack从2022年进行技术探索，技术方案已迭代4次，包括ChatGPT3.5、RAG系统、开源知识库+多数据源整合、AIOS算力调度+开源知识库+多场景业务渗透。问题回复准确率从最初的60%到大于85%，类比自动驾驶已经具备了L1~L2的能力。

ZStack AI知识库实践遇到的核心挑战和处理方案

期间面临数据孤岛、异构数据、数据噪声等核心挑战，ZStack通过Support AI智能处理方案，从全域数据自动采集、智能格式标准化、AI深度清洗引擎等维度应对上述挑战。

在此过程中发现，客服场景下AI Infra存在多样性需求，包括通过显存切割将大卡切割成小卡，让小模型运行更有效率；支持结构化输出JSON方便开发者处理；能够根据业务负载进行弹性伸缩，在大量处理数据时可以启动多实例并发；满足超大参数模型的并行推理、高效推理等需求。

AI 辅助文档（翻译场景）实践

目前ZStack Cloud产品支持10种文字，累计发布正式版本84个，每个版本包含至少几十篇文档，数万个 DITA 文件、几百万汉字、千万+单词，ZStack希望通过AI提升翻译效率，但是文档数据汉字总量达数百万，而且是XML格式，实施时存在多重难题。

为了实现事半功倍的效果，前期做好了文档规范工作，包括标点符号、术语、大小写、有/无序列表、产品名称的统一等，早期将这些产品文档规范标准化，后期会事半功倍。

在AI辅助文档（翻译场景）实践中，ZStack整理了几千条术语，最初想通过prompt工程去实现需求，但也遇到几个问题，主要体现在几千个术语导致prompt很长，有几万甚至几十万token带来成本、延迟、输出质量降低等问题；语言风格（如正式/口语化、简略/冗长、抽象/具体等）会使得prompt输出结果偏离预期等。

最后ZStack微调了一个7B的模型去解决上述问题。经BLEU的评分测试，该模型表现优于直接使用DeepSeek、Qwen的671B、72B模型，另外在本地的微调模型也比公有云调用prompt模型速度快很多。类比自动驾驶已经具备了L1~L3的能力。

ZStack AI翻译实践微调7B模型BLEU评分测试结果对比图

ZStack全栈AI基础设施构建路径详解

ZStack的业务是从私有云、虚拟化服务开始的，然后扩展到容器、多云管理，在基础设施领域有非常扎实的积累，所以当这波AI浪潮来到时，推出AI Infra平台服务并重构技术架构。

ZStack AI 基础设施构建技术架构图

以往企业常以CPU为中心进行技术架构设计，挖掘CPU算力，随着AI新浪潮来到，企业对AI赋能业务需求迫切，需重视GPU管理，重构技术架构已经是必做项。

为助力企业私有化AI部署，ZStack推出了新一代AI Infra平台ZStack AIOS智塔，实现从智算层、模型层、运营与应用层帮助企业用户构建AI基础设施。

ZStack AI 基础设施构建——资源层构建技术架构

智算资源层，ZStack AIOS平台智塔通过容器化、虚拟化以及裸金属方式，实现对算力资源的统一灵活调度。与海光、昇腾、英伟达、英特尔等多种CPU/GPU等深度适配，通过vGPU动态精分，实现算力智能调度。借助分布式存储、全闪存储以及支持IB网卡等能力，来满足训推环境下的技术需求。同时保留虚拟机模式，顺应部分用户使用习惯。

模型层构建，一方面是模型使用，主要承担管理员角色，观测底层资源使用情况，对CPU、GPU、存储等资源管理；另一方面是模型服务，开发者拥有底层资源后，可以从本地浏览器或者URL上传、从HuggingFace/魔搭社区直接下载后快速导入主流AI模型，进行推理、精调、评测等操作，实现模型应用开发部署需求。

ZStack AI 基础设施构建——模型层构建技术架构

ZStack AIOS平台智塔支持从轻量到超大规模的全量模型部署，满足不同场景需求；深度集成开源模型平台，支持模型敏捷迭代与版本热切换；提供可视化精调工作台和多维度模型评估体系，方便企业打造专属AI引擎。针对市场中新出现，或者客户感兴趣的模型能够进行快速搭建、测试，从而提升整体的部署效率。

运营与应用层，ZStack AIOS平台智塔支持低代码开发的AI应用工厂，实现从模型到业务的无缝衔接。

此外，在企业私有化AI上最为关心的数据安全方面，ZStack AIOS平台智塔在数据、访问和审计三大维度保障企业级数据安全，部门级数据沙箱机制，实现模型服务、应用数据双重隔离。

在服务客户进行私有化部署大模型后，ZStack发现4个主要技术难点/趋势：

模型从70B向671B甚至更大发展，越来越大的模型对部署架构、PD分离、多机推理都带来了更大的挑战和难度。
越来越大的上下文，会出现KVcache占用大量显存，显存资源很快耗尽、内存带宽成为瓶颈、通信耗时增加直接影响计算本身等问题，需要在显存压缩、计算优化、动态资源调度层面进行深度优化，才能突破长上下文场景下显存和算力瓶颈。
全模态支持，市场正在快速从文生文、图生文向原生语音模型、图文生图模型发展。
多品牌算力需持续支撑上层应用，国内算力品牌多且生态各异，消耗服务商大量精力，因此需要不同的CPU、GPU厂商组合，CUDA体系与非CUDA体系针对不同结构的模型进行优化。

在2024年2月2日ZStack AIOS平台智塔首发支持DeepSeek V3/R1/ Janus Pro三种模型后，3 月 3 日ZStack基于ZStack AIOS平台智塔发布智塔AI一体机DeepSeek版，可基于海光、昇腾、英伟达、英特尔等多种国内外CPU/GPU私有化部署，满足企业进行DeepSeek本地私有化部署需求。

AI Infra平台是企业加速释放AI生产力的关键引擎平台，它聚焦企业级AI应用的私有化部署场景(Private AI)，是支撑人工智能应用开发、部署、运行和管理的一系列基础工具和软件平台，具备算力管理层、模型管理层、应用管理层三大能力模型。赛迪顾问认为，2025年是中国AI Infra平台应用元年，新一代企业数智化转型底座AI Infra 平台呈现飞速发展趋势。

产品

解决方案

支持

联系