金融情报局网_中国金融门户网站 让金融财经离的更近

华为云CEO张平安:华为的盘古大模型不作诗,只做事

当前位置:金融情报局网_中国金融门户网站 让金融财经离的更近>本地 > 正文  2023-07-08 05:58:48 来源:中国经营网

大模型已经成为整个 AI(人工智能)产学界追逐的技术“宠儿”,“炼大模型”如火如荼,包括OpenAI、Google、微软、英伟达、百度、华为、阿里巴巴等企业巨头纷纷参与其中,各式各样参数不一、任务导向不同的“大模型”也陆续面市。一时间,“炼大模型”成为了当下AI产业发展的主旋律。日前,华为云也推出了盘古大模型3.0。

华为常务董事、华为云CEO张平安对《中国经营报》等媒体记者表示:“华为的盘古大模型不作诗,只做事。”据悉,盘古大模型3.0与市面上单一的通用大模型有所不同,其分为L0基础大模型、L1行业大模型、L2场景模型三层架构,重点面向政务、金融、制造、医药、矿山、铁路、气象等行业。

从通用到专用


(资料图片仅供参考)

ChatGPT推动的AI大模型风潮正愈演愈烈。3月份百度发布了“文心一言”,4月份阿里巴巴发布了“通义千问”,5月份科大讯飞发布了“星火认知”。但是,作为国内领军的ICT企业的华为却一直按兵不动,耐人寻味,以至于市场一时间也开始捕风捉影,华为的风吹草动都会引起市场的广泛讨论。

7月7日,华为正式发布了华为盘古大模型3.0。但是,张平安表示,当前AI技术从多分支发展,进入大模型时代,让AI变成了通用技术,OpenAI发布ChatGPT后,各种大模型层出不穷,全球已发布数百个大模型,中国已发布80多个大模型,to C类应用百花齐放。但这些大模型的共性是基本都会“对话作诗”,而华为大模型要在行业领域赋予价值。

实际上,目前大模型集中在语言大模型,并且大模型生成内容的前提是大规模的文本数据输入,并在海量通用数据上进行预训练。通过预训练不断调整和优化模型参数,使得模型的预测结果尽可能接近实际结果。预训练中使用的大量文本数据包括维基百科、网页文本、书籍、新闻文章等,用于训练模型的语言模型部分。

而此次,华为推出的盘古大模型3.0具有三层架构,分别是基础大模型、行业模型、场景模型。

华为轮值董事长胡厚崑表示:“第一层(L0层)基础大模型层我们形象地叫作‘读万卷书’,就是要做好海量的基础知识的学习。第二层(L1层)行业模型和第三层(L2层)场景模型叫作‘行万里路’。从‘读万卷书’到‘行万里路’还有很多困难要克服,很关键的一点就是要把各行各业的知识与大模型进行充分匹配和融合。”

具体来看,在L1层行业大模型,华为云既可以提供使用行业公开数据训练的行业通用大模型,包括政务、金融、制造、矿山、气象等,也可以基于企业的自有数据,在盘古大模型的L0和L1层上,为企业训练自己的专有大模型。

L2层为企业提供了更多细化场景的模型,更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供“开箱即用”的模型服务。

打造世界AI另一极

胡厚崑表示,华为现在主要考虑的是下一个阶段要全力推进人工智能“走深向实”,其中一个很重要的方面就是结合大模型,从通用大模型到行业大模型的研究创新,真正让人工智能服务好千行百业、科学研究。

但大模型的创新不仅仅是模型自身的创新,更依赖于AI的各项根技术创新。AI算力云平台、异构计算架构CANN、全场景AI框架、AI开发生产线ModelArts等在整个AI技术体系中都发挥着至关重要的作用。尤其是AI框架处于“承上启下”的位置,南向使能多样化算力,北向孵化各类创新算法模型,是人工智能应用创新的土壤和源泉。而基于华为的AI根技术,大模型训练效能可以调优到业界主流GPU的1.1倍。

除此之外,算力是训练大模型的基础。在本次大会上,张平安宣布单集群2000P Flops算力的昇腾AI云服务在华为云的乌兰察布和贵安AI算力中心同时上线。

据悉,昇腾AI云服务不仅支持国内全场景AI框架昇思MindSpore外,还支持海外的Pytorch、Tensorflow等主流AI框架。同时,这些框架中90%的算子,都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。

张平安表示,在大模型训练过程中经常会遇到GPU故障,研发人员不得不经常重启训练,时间长,代价大。昇腾AI云服务可以提供更长稳的AI算力服务,千卡训练30天长稳率达到90%,断点恢复时长不超过10分钟。

“为了帮助全球客户、伙伴、开发者训练和使用大模型,我们致力于为全球客户打造世界AI另一极,为所有AI开发者提供新的选择。”张平安表示。

(文章来源:中国经营网)

关键词: