大模型应用开发,AI 厂商开启新一轮“群雄逐鹿”?
声明:本文来自于微信公众号 InfoQ,作者:Rilke,授权站长之家转载发布。
价格战的硝烟似乎还没有平息,但 AI 厂商们的又一场战争已经开始。
这一次的竞争核心是大模型应用开发。根据 IDC 报告,2023年中国大模型平台及相关应用市场规模约还仅有区区17.65亿元人民币,但伴随着行业的巨变,2024年,模型应用开发相关的产业规模预计将会上涨至百亿级别,各行各业对于 AI 技术、模型应用的重视前所未有。
“今天我们接触到的所有客户、所有开发者、所有 CTO,几乎都在用 AI 重构自己的产品。”在2024云栖大会上,阿里巴巴集团 CEO、阿里云智能集团董事长兼 CEO 吴泳铭也在主题演讲中印证了这一事实。在更垂直的一些领域,包括汽车制造、生物医药、工业仿真、气象预测、等行业,AI 大模型都在加速渗透。一场新产业革命正在轰轰烈烈却又默不作声地演进着。
而对于百度智能云、火山引擎、阿里云等厂商来说,大模型上游侧对于算力、底座大模型开发的攻城略地已经进入白热化,囤好了“粮”,一场产业下游的“跑马圈地”也即将开始。AI Agent、RAG、模型训推、工作流编排..... 新的技术革新故事正被传颂着,对于厂商们来说,大模型等技术终于来到了实践验证的阶段。这将是一场刺刀见红的“厮杀”,养兵千日,用兵一时,针对爆炸式增长的需求,谁能推出更好用的平台产品,谁似乎就抓住了 AI 技术发展的下一个机会。
如同 IOS 与安卓的竞争一样,生态即是关键,在规模法则愈加应验的今天,抓住更多行业的数智化浪潮,为自身垒砌护城河,已经成为关键。但许多问题仍萦绕在人们心中:市场对于大模型应用开发的核心需求是什么?对于厂商来说,怎样才能打赢这场“战争”,站在“紫禁之巅”?
1抢占先机!谁抓住了大模型应用开发,谁就抓住了未来?
大模型技术何以应用?关键在于对数据要素价值的进一步挖掘,借助大模型强大的数据处理能力和深度学习能力,数据信息等生产要素的使用效率进一步提高,并借助新的生成方式作用于企业生产业务与经营决策中,通过更深层次的“数智化”,赋能不同的生产场景。
根据前瞻产业研究院发布的《2024中国 AI 大模型场景探索及应用报告》,大模型技术在金融、政务、教育等领域的渗透率均超过50%,借助生成式 AI 等能力,智能客服、智能营销、智能搜索等通用场景的应用成熟度逐渐增高,在医疗、制造、电商等领域,改变也在同步发生,包括英特尔、百度在内的软硬件厂商们正在不断布局这些行业领域,希望将大模型能力进一步融入进相关场景业务中,通过针对性的垂直应用产品提升业务效率。
“风口”已经到来,但对于许多企业来说,想要自如的运用大模型的能力,却并没那么简单。首先是算力瓶颈问题,高性能硬件资源的高昂成本和专业管理需求对许多企业构成了压力。其次,不同系统和框架之间的兼容性问题也增加了额外的开发工作和技术支持需求,人才紧缺也制约了企业大模型应用开发的脚步。此外,企业还需要关注模型的构建、训练、优化、部署和维护等多个层面的需求,这又在无形中增加了成本。
所有行业,都需要性能更强、规模更大、更适应 AI 需求的基础设施,并将其作用于应用开发之中,于是 AI 独角兽、云厂商们开始持续发力。
目前,国内外主要的 AI 大模型厂商均推出了大模型应用开发平台或相应的产品矩阵,在国外,OpenAI 开发者平台、亚马逊云科技的 Bedrock,Azure AI Studio 风头正劲,在国内,百度智能云的千帆生态、字节跳动的火山方舟等也备受关注,而最近阿里云也同样在大模型应用开发领域作出了新的部署,这也进一步引起了全行业的关注。
2024云栖大会上,阿里云宣布其主攻大模型应用开发的两大产品——大模型服务平台百炼和人工智能平台 PAI 也迎来了新的升级:阿里云百炼进一步增强⼯作流与智能体的流程编排能⼒,同时也发布了百炼2.0专属版本,专⻔针对政企客户做了使⽤优化;⼈⼯智能平台 PAI,已实现万卡级别的训练推理⼀体化弹性调度,AI 算⼒有效利⽤率超90%,进一步提升了大模型工程开发能力。这无疑是阿里云为建立 AI 开发和应用落地全栈能力的又一个重要布局。
对于许多企业来说,在数智化升级的前期,相关需求并不明晰,其使用的产品就需要覆盖更多元的功能与调用能力,而百炼和 PAI 即可满足企业在大模型应用开发中的多样化需求。
百炼依托阿里云的 AI 基础设施,提供全面的模型应用开发工具,支持企业通过 prompt 构建 Agent 和 RAG 系统,实现模型功能的快速接入与应用构建。PAI 则提供构建和定制大模型的能力,满足企业从0到1构建大模型或深度定制模型的需求。无论是模型调用、应用开发还是模型开发,借助百炼和 PAI 的产品能力,企业基本能够实现模型功能在大模型领域的全栈落地。
百炼与 PAI 的能力就在于,其真正将“应用开发”的全部能力整合进产品中,并通过逻辑清晰的封装与灵活易用的特性增强其开发能力。这也有针对性地解决了诸多大模型应用开发平台所面临的问题:单个工具的使用门槛并不高,但整体构建的框架与工作流并不清晰,致使大模型应用开发陷入困顿。真正的模型应用开发,不是简单的开发一个 Agent,或是孤立的 RAG 系统,而是能够由浅入深,真正构建出一款大模型应用,从而“一站式”地满足企业的数智化升级需要,以及多元的业务需求。
2破解成本与效率的迷局:如何让模型应用开发物有所值?
AI 的尽头是算力,尽管这是一句老生常谈,但在市场数据的支持下,我们不得不承认这一点。
随着 AI 大模型技术的迅猛发展,算力市场也在经历剧烈的变化。企业对大模型应用的需求不断增加,推动了对高性能计算资源的需求,尤其是 GPU 的需求,供不应求一度成为常态。时间来到2024年,AI 算力市场的供需关系逐渐平衡,部分 GPU 和 AI 服务器价格有所回调,NVIDIA H100和 RTX4090的租赁价格在10个月内下降了50%,H100的8卡节点年租赁价格从12-18万元降至约7万元。尽管如此,高端 GPU 如 A100仍供不应求,价格较高。国产 AI 芯片逐步崛起,但短期内难以大幅缓解供应压力。
在2024AI Hardware Summit 上,微软云计算 AI 和高级系统副总裁 Zaid Kahn 在演讲中提到,目前模型训练的计算需求与关键基础设施之间存在日益扩大的差距,训练计算量每年增长4.2倍,而内存带宽增长1.26倍,互连带宽增长1.18倍,算力、传输等技术的解锁已经成为目前行业发展的绕不过的关隘,整个行业需要系统性的革新。2024云栖大会上,阿里云 CTO 周靖人也直言,算力供不应求的情况客观存在。
巨变仍需等待,算力资源等成本的居高不下,一直让大模型走向应用落地的步伐走得不是很畅快。这也为模型厂商的价格战提供了“土壤”,借助规模优势与技术创新,AI 服务背后的算力成本被进一步稀释,但对于很多企业来说,投入产出比仍旧是目前入局大模型应用开发的核心考虑因素,谁能用更低的价格提供更多的资源,帮助企业解决性价比问题,谁就能尽可能地占据更多的市场份额。
如何开源节流,技术创新为上策。对于云厂商们来说,首先就是充分利用自己的规模优势,Scaling Law 不仅在大模型的深度学习与训推中能够发挥作用,同样可以能够在大模型应用开发中发光发热。
纵观全球 AI 及云计算厂商,只有阿里云和 Google Cloud Platform(GCP)同时拥有云基础设施和自研大模型开发的能力,其中阿里云作为中国唯一提供 AI 全栈产品与服务的公司,不断升级其底层计算、存储、网络等基础设施,为 AI 计算业务提供了超大规模、超强性能的智能算力。其灵骏集群能够支持单集群十万卡级别的 AI 算力规模,万卡规模性能线性度超过96%,网络带宽利用率超过99%,并行存储吞吐达到20TB/s。这进一步为阿里云的大模型应用开发服务提供了深厚的算力基础。
另一方面,模型产品的多样性也在不断丰富,百炼能提供包括通义千问在内的主流大模型的调用服务,借助30万 + 企业客户的不断调用,调用成本不断降低,同时模型也借助生态的规模优势不断调优,让模型的能力更加精准,附加多模态、全尺寸等全面的产品功能,也让企业对于资源的利用率进一步提高,让算力资源能够更加有的放矢。
企业在使用云计算资源时,往往会选择比实际需求更大的实例规格,以应对潜在的高峰负载。这种做法虽然能确保在高峰期不出现资源不足的情况,但在大部分时间里,这些资源处于闲置状态,导致算力浪费。例如,根据调查,约40% 的组织云计算规模是实际需求的两倍。
与此同时,在目前万卡集群等境况下,异构计算技术的不完善会导致大规模的算力浪费;在异构计算环境中,不同规格、版本的芯片混用时,如何高效协同工作是一个挑战,如果处理不当,也会造成资源的浪费;在多租户的企业级深度学习场景中,不同用户会提交不同框架的深度学习作业,这些作业对资源的需求各不相同,如果没有有效的资源管理和调度系统,也会导致资源的浪费。
另一方面,对于模型训练来说,出现训练错误的情况时常发生,如果没有及时的纠偏补全,模型训练就有可能从头开始,此前训练使用的算力资源也就被白白浪费。
针对这些情况,以阿里云为代表的云厂商们都在探索如何将单卡的算力发挥到极致,如何让大规模集群的资源利用更加科学,不少厂商都喊出了“打造全新的 AI 基础设施”的口号。以人工智能平台 PAI 为例,其借助高性能的 AI 工程平台,能够全链路的支撑数据处理、开发、训练等各个环节,结合训推异构化的趋势,其能够实时根据业务负载、模型结构、资源类型的变化进行优化,实现万卡级别的训练推理一体化弹性调度,让异构计算下的不同芯片“捆成一股绳”,可以真正实现“指哪打哪”。
同时,通过云原生的统一调度引擎,统一管理,让多种异构算力、不同的卡型、厂商,动态的调度并且无感的切换任务,充分利用碎片化的算力资源,比如在大企业调用大规模卡群资源的同时,其中部分的碎片化的资源开放给开发者去使用,做小型任务的处理,让整个阿里云的算力资源能够充分被调动。据悉,目前阿里云 AI 有效算力已经实现了十倍以上的提升,有效算力利用率达到了百分之九十以上。
基于算力利用率的提升,基于百炼和 PAI 这样的平台,企业、开发者够轻松无负担的用上万卡、十万卡集群资源,但不用将精力放在资源的管理调度之上,让大模型应用开发不仅在性价比方面突破桎梏,还进一步的隐藏了其复杂性,让行业的数智化发展更专注,更聚焦。
3抛弃噱头,返璞归真,“好用、能用”才是模型应用开发平台的核心竞争力?
回归到市场本身,当准入门槛被时间抹平,成本难题被想方设法攻克,最终决定成败的“弹药”仍旧是产品本身,以往的优势固然重要,但只有真正让大模型技术作用于业务场景中,让应用开发真正切实可行,才是破局的关键。
总结当下的大模型应用开发平台及产品,基本都遵循了相同的技术架构,围绕模型供应,模型精调与训练、Agent 搭建,RAG 知识库、工作流编排、Prompt 指引等核心功能与关键环节展开,不同点主要在于产品框架的不同以及调用模型的不同。如何才能拉开差距?核心就在于实用性。
以阿里云百炼为例,作为供应模型数最多的平台之一,除了阿里云的通义千问主流模型之外,还有很多开源第三方模型以及行业大模型,在多样化模型的支持下,不同行业的企业可以从专业的行业大模型中调用服务,通义大模型则提供应用搭建的相关能力,辅以三方大模型的服务运维,可以结合实际情况,进行更深入的大模型能力调用。在模型本身的能力角度,在百炼服务升级后搭载了降价版本的通义千问 PLus 版本与 Turbo 版本,分别满足性能与性价比的需要。除此之外,百炼还提供多模态、全尺寸的模型服务,进一步扩展了模型应用的功能选择。
更重要的是,百炼还同步提供多样化的开发范式,“手把手”的帮助企业开发应用,结合细颗粒度、低门槛的工作流编排,通过 prompt 指引、案例参考、反馈优化等方式助力企业的开发进程,这对于缺乏 AI 团队与开发者的企业来说至关重要。在目前市场颇为关注的 RAG(检索增强)领域,相对于市面上其他的产品,百炼也进行了进一步的灵活优化,让 RAG 深度融入进了应用开发的各个环节中,进一步发挥企业自身的数据价值,让专业数据融入应用中,实现与模型能力的有机融合。
除此之外,模型幻觉问题对于应用的服务效果也有极大的影响,可监测的精细化运营或许是解决方法之一。针对这一问题,百炼的每个模块都将受到质量监控,通过多样化的实时指标持续优化应用。为此,阿里云还提供了一个支持全链路管理和分析的平台,其支持自动和人工评测,助力企业客户针对不同模块进行优化,无论是 SFT 数据还是应用效果,确保模型应用可观测、可分析、可评价,并可进行干预。
在模型开发层面,数据加工和处理在大模型发展中变得至关重要,模型能力提升往往源于数据差异。针对这一问题,人工智能平台 PAI 在基础模型方面,新增了系数模型、混合专家模型和多模态模型的 Diffusion Transformer 支持。模型训练上,强化了强化学习、DPO、模型蒸馏和小样本学习的支持,并集成了数据处理与效果评测,实现大模型开发端到端覆盖,进一步简化了传统复杂的大模型数据处理流程。
针对目前日益增大的模型规模与数据量,PAI 还提供多模态数据处理能力,包括视频理解、图像处理、关键帧提取、图像和视频压缩等。整个流程从预训练数据处理到预训练模型,再到微调和服务,清晰展示和追踪数据模型依赖关系,结合 PAI 的推理服务的升级以及灵活的资源调度模式,进一步减轻了模型开发人员负担。
这一切,归根到底是洞察了企业客户的需求,并在持续创新中完善相关能力,让产品更好用,更易用,进一步实现企业 - 数据 - 模型的良性循环。基于需求,持续创新,最终保持先进,这样的产品思路同时也融入进了阿里云的 AI 产品创新与业务运营之中。
以阿里云推出的系列产品推荐计划“飞天星品”为例,其旨在通过产品推荐让广大企业、开发者能够在多达数百款云产品中,根据自身业务问题,快速定位关键产品需求,轻松选到最好用、最高性价比、最适合自己的云产品。
深入业务,供需结合,才能真正让好的产品有的放矢,不仅在大模型应用开发领域,对于阿里云这样的头部 AI 厂商来说,真正结合生态,基于企业和开发者的真实需求帮助其解决问题,才是 AI 厂商长久发展的立足之本。
4结语
在当前阶段,我们对于 AGI 似乎触手可得,但又遥不可及。大模型应用开发,尤其是以阿里云百炼和 PAI 为代表的技术,为我们提供了一种可能的路径。通过深入分析行业趋势和未来,我们可以看到,深度结合实践需求、精细化、低门槛的产品方向,以及重视投入产出比,已经成为行业发展的核心要素。在这一背景下,单纯的技术进步已不再是唯一的驱动力,如何将技术转化为实际的业务价值,才是保持先进的关键。
同时,基于阿里云等头部厂商的实践,我们也能洞察到“AI 重构”的重要性。无论是云原生技术、算力、训推一体化,AI 都在引领一场全面的变革。这场变革从“计算”的“虚”出发,走向“业务”的“实”,意味着 AI 技术正在从单纯的计算能力转变为推动业务创新和转型的核心动力,助力企业打造面向 AI 时代的原生应用与服务,加速业务智能化升级,已经成为厂商们目前阶段的核心使命。
当然,这是一个风口,一个机会,也将开启厂商之间一场又一场的激烈竞争,大模型应用开发和 AI 重构不仅是技术层面的突破,更将是一场针对商业模式和产业实践的深刻变革。但无论如何,走上牌桌才是关键,正如吴泳铭在2024云栖大会上所说的那样:“我们认为生成式 AI 将逐渐渗透数字世界,并接管数字世界。”对于所有入局者来说,这是一场不容错过的技术革命。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;
3.作者投稿可能会经我们编辑修改或补充。