观察｜大模型“幻觉”里的算力与数据，谁会先成为“赛点”？

发布日期：2023-07-09 22:17:45 来源：和讯网

全球大模型群雄逐鹿，算力最先告急。今年5月29日，英伟达创始人黄仁勋断言，“我们已经达到生成式AI引爆点，从此全世界的每个角落都会有算力需求”。一天后，英伟达市值突破万亿美元，屹立世界之巅。

英伟达将世界的目光聚焦在了风云变幻的算力、显卡江湖。2023世界人工智能大会期间，有人直言，没有大算力做大模型就是天方夜谭。但也有人认为，数据要素在人工智能大模型的发展中具有关键性作用，决定了模型的训练质量、性能表现和应用领域的广度与深度。

人们常把算力、算法、数据形容为人工智能的三驾马车，但这三驾马车之间可能也不是完全的并行关系。如果说算力是大模型的“根”，那数据或者说是高质量的语料库，或许就会成为算力的“根”。

(相关资料图)

一热一“冷”

大模型浪潮，率先将算力推至风口浪尖。2023世界人工智能大会上，算力成为大模型绝对的关键词之一。中国工程院院士、鹏城实验室主任高文把算力比作电力，认为没有大算力做大模型就是天方夜谭。华为轮值董事长胡厚崑也提到，大模型训练的效率或者是创新的速度，根本上取决于算力的大小。中国的算力已经成为一个越来越稀缺的资源。

大会期间，毕马威与联想集团联合发布《普慧算力开启新计算时代》报告。毕马威中国数字化赋能主管合伙人张庆杰在解读报告时提到，算力供给增速明显难以满足指数式爆发的需求，储备算力成为各行各业的必要举动。

据了解，深度学习出现之前，用于AI训练的算力增长大约每20个月翻一番；之后，用于AI训练的算力大约每6个月翻一番；2012年后，全球头部AI模型训练算力需求更是加速到每3个月至4个月翻一番，即平均每年算力增长幅度达到惊人的10倍；目前大模型发展如火如荼，训练算力需求有望扩张到原来的10-100倍，算力需求的指数级增长曲线将更加陡峭。

大模型对算力的需求是显而易见的，但更关键的点可能在于是否能把算力更高效地挖掘出来。一位芯片企业的技术人员对北京商报记者提到，一个模型上线需要用到很多硬件，如果只支撑了少量用户，就会因为太贵导致用户不买账，由此撑不起正向循环的情况，但太便宜又会出现亏本的问题。特别是到落地阶段，如何能够结合模型上的一些改进，把硬件的特性最大程度地发挥出来，就会变得非常重要。

“也就是说在训练阶段，大家对算力的追求可能是‘大’，这一方面能够做出更大的模型，另一方面也能够进行更快速的迭代。但到用户开始接受这个效果的时候，就要涉及到怎样做才能更划算的问题，也就是说在部署阶段，可能要更关注‘精’的问题，尽可能用相对少的算力实现最大程度的作用。”上述技术人员说道。

大会期间，比起对算力的探讨，数据就显得有些“冷清”了。“数据要素比大模型早好几年，大模型被‘炒’起来了，但数据要素却一直不温不火”，7月8日，在2023世界人工智能大会“大模型时代下的数据要素流通”论坛的主题演讲中，拓尔思(300229)总裁施水才开场便提出了这样一种现象，在他看来，这场论坛为人们认识数据要素流通提供了一个新的视角。

大模型“幻觉”

在上述论坛上，中国知网副总经理张宏伟表示，数据是人工智能的基石，数据的质量和数量最终决定人工智能水平高低，影响其安全性、可信性。施水才更是认为，高质量数据才是大模型价值跃迁的制胜法宝。

但当下的问题在于，数据并不都是高质量的。过去一段时间，一度出现“AI正在污染中文互联网”的讨论，而AI最让人诟病的就是“幻觉”问题，也就是人们常说的“一本正经地胡说八道”。

大模型“幻觉”也是人工智能大会期间被提到的高频词汇。施水才对北京商报记者提到，“幻觉”问题的出现，主要是因为大模型缺乏理论的支撑，因为其核心技术原理主要就是Transformer架构下的Next Token Prediction，即“下一个字符的预测”。另一方面大模型并不是越大越好，数据也不是越多越好，真正好的大模型是参数大小适中，数据高质量。

算力可以堆硬件，相比起来，优质数据的供给可能会复杂得多。上海数据交易所总经理汤奇峰认为，大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。

在接受北京商报记者采访时，上海数据交易所副总经理韦志林提到，从推动数字经济，推动数据作为生产要素的角度看，数据应该是最核心、最长远、最基础性的因素。“大模型的预训练对数据要求也特别高，必须在前期进行清洗、标注、标识，但围绕千行百业的数据训练，在数据供给方面也呈现出了许多问题和挑战。”

首要的就是头部厂商并不愿意开放数据。数据是生产要素，数据有价值，这些已经达成共识，但进行数据共享就一定会牵扯到安全问题，如何解决数据在共享过程中的安全机制至关重要。而数据的开放流通，也自然涉及收益分配，且数据流通过程中创造的新价值更多服务于企业内部，拿出去的动力还需进一步培育。

“所以从数据流通本身看，更多压力还存在供给侧这一方面，需要解决供给侧中产权制度问题、收益分配制度问题、安全问题、基础设施问题等，让数据流通更加便捷、更加合规。”韦志林表示，上海数据交易所作为国家战略的承接者，需要解决的就是这些问题。

据了解，7月8日，上海数据交易所启动语料数据生态创新合作伙伴计划，而在此前一天，上海数据交易所官网刚刚正式上线语料库，累计挂牌近30个语料数据产品，包含文本、音频、图像等多模态，覆盖金融、交通运输和医疗等领域。

汤奇峰称，语料库建设不是单一企业的责任，需要多方共同推进，如果每个企业都单独建设维护语料库，会拉低效率，也会增加企业成本，“数交所希望通过自己的努力加强数据要素建设提升语料库建设效率。”

北京商报记者杨月涵

标签：

上一篇:创新性探索高质量数据共建生态推动大模型应用落地 下一篇:创新性探索高质量数据共建生态推动大模型应用落地

观察｜大模型“幻觉”里的算力与数据，谁会先成为“赛点”？

观察｜大模型“幻觉”里的算力与数据，谁会先成为“赛点”？

全球大模型群雄逐鹿，算力最先告急。今年5月29日，英伟达创始人黄仁勋

创新性探索高质量数据 共建生态推动大模型应用落地

发展自主可控的大模型是我国抢占数据发展高地的必然选择，而数据要素则

洗碗机怎么加洗碗盐（洗碗机加洗碗盐的窍门）

来为大家解答以上问题。洗碗机怎么加洗碗盐，洗碗机加洗碗盐的窍门很多

那些年我们追过的9号！中锋？全能战士？你最喜欢的9号球员是谁？

岁月的痕迹，难忘的记忆老旧的相馆，不变的情感足坛的9号一般是各大球

OPPO官方服务中心检测（oppo官方服务中心）

OPPO客户服务中心可以为您提供产品维修、系统升级、检测换机、产品咨询

双色球23078期晒票，成功并非偶然降临，是通过努力和奋斗所得

想要过上美好的生活，只有靠自己努力脚踏实地的去工作。这句话表达了一

32城地铁账本出炉：谁在赚钱 谁在靠补助

不同城市的地铁“账单”陆续出炉，到底哪里的地铁最“吸金”？据时代周

《逆水寒》玩家必看细节攻略!兑换码礼包码大放送

大家好，今天为大家带来最新手游《逆水寒》的详细攻略以及礼包兑换码福

贵州黔西南州青少年足球队亮相工体，与国安梯队比赛＆观看中超

直播吧7月9日讯 据“平安北京”报道，由北京支教民警组建并执教的贵州

栓钉焊接机（栓钉焊接）

1、方法：通焊机焊枪电源，柱状栓钉套在焊枪上，防弧座圈，启动焊枪、

英国西班牙反对美向乌提供集束弹药 基本情况讲解

大家好，今日关于【英国西班牙反对美向乌提供集束弹药】迅速上了的热搜

青海门源：穿行在高原花海中的最美铁路

01:57央广网西宁7月9日消息（记者张海东）七月的青海迎来一年中最美好

“稳粮担”上线河南省再添稳粮增收新政策

免抵押、免担保费、财政贴息1%……近日，河南省推出“稳粮担”政策性金

汽车贷款违约金一般是多少

一、汽车贷款违约金一般是多少汽车贷款违约金一般是还款额度的2%--5%，

“光影中国”暑期影评征集启动！快来分享最触动你的银幕瞬间

盛夏来临，超70部电影于暑期档陆续上映。有没有哪一个镜头，突然打动了

娩的意思是什么（娩）

1、娩miǎn（动）妇女生孩子：分～｜～出。2、娩wǎn（形）〈书〉〔婉

2023年养老金上调最新方案公布!上海市养老金会怎么调整，能涨多少？

上海人社厅官网2023养老金上调方案细则今日还未公布。今年5月22日，人

让“十种鲜明导向”成为红河干部的鲜明特质

“推进云南现代化建设，首先要从干部的作风、能力抓起。”全省深化作风

智能化+出海”双主线，汽车行业迎来新机遇！

行业快讯

2023世界半导体大会7月19-21日南京举办 高通、台积电高管将出席

《科创板日报》8日讯，2023世界半导体大会将于7月19-21日在南京国际博

欧洲央行副行长：欧元区的价格压力开始“软化”

欧洲央行持续加息，但当前高通胀仍然是欧洲经济面临的最棘手难题。欧洲

自吸泵工作原理视频动画 自吸泵工作原理

1、不需在吸入管路内充满水就能自动地把水抽上来的离心泵称为自吸泵。2

沙特延长减产协议后 上调部分亚洲国家油价

据彭博社报道，作为欧佩克最大产油国—沙特阿拉伯在宣布延长自愿减产协

扬州印发指导意见 乡村治理推广运用“积分制”

扬州日前印发《关于在乡村治理中进一步推广运用积分制的指导意见》，列

理财有招║招商银行理财经理为你解说人生的六张保单

编者按——古话讲，老有所养、病有所医、急有所济、财有所承、幼有所护

最高级的心态：拿得起，放得下

2023 年 7 月最佳三星 Galaxy 平板电脑

郭珍霓：眼角眉梢皆风情，媚骨天成“剧抛脸”，为何不火

包饺子应该用什么火?

以“节能降碳，你我同行”为主题 节能宣传周活动下周启动

兆讯传媒（301102）：7月7日北向资金减持4.09万股

air jordan是啥（air jordan是什么意思）

水电九局荣获中国文化管理协会双料“特等奖”

离婚出轨抚养权怎么分配

V观财报｜ST中利收监管函：业绩预告披露不准确

汇宇制药：普乐沙福注射液在德国获批上市

华容供电：“小菜园”里品甘甜

厄尔尼诺，“烤热”新能源汽车市场？

微光股份(002801.SZ)：公司具备研发、生产空心杯电机的能力

海联大厦商业物业5亿元ABS债项更新至“已反馈”

致尚科技龙虎榜：机构包揽卖出前5 净卖出共1.06亿元

百行征信成立五周年 产品累计调用量超113.7亿笔

科力尔(002892)龙虎榜数据(07-07)

工业级消泡剂商品报价动态（2023-07-07）

日经股指下调

发动机节气门的作用是什么（发动机节气门在什么位置）

佳禾食品(605300.SH)：现在公司的全部产品都是零反产品

越强越谨慎越弱越嚣张日本对国足小心谨慎越南对国足虎视眈眈

郑州航空港区未来城规划任务出炉 定位为国际一流的商务中心区

快讯｜重庆梁平澳新村镇银行获批解散

新疆交建：控股股东变更，新疆国资委已将34%公司股份无偿划转至新疆交投并过户登记

科学家：地球正处12.5万年来最热时期

留学中国 实现梦想

足球的内核是一颗勇于面对挫折的灵魂

创新性探索高质量数据共建生态推动大模型应用落地

32城地铁账本出炉：谁在赚钱谁在靠补助

直播吧7月9日讯据“平安北京”报道，由北京支教民警组建并执教的贵州

英国西班牙反对美向乌提供集束弹药基本情况讲解

2023世界半导体大会7月19-21日南京举办高通、台积电高管将出席

自吸泵工作原理视频动画自吸泵工作原理

沙特延长减产协议后上调部分亚洲国家油价

扬州印发指导意见乡村治理推广运用“积分制”

以“节能降碳，你我同行”为主题节能宣传周活动下周启动

百行征信成立五周年产品累计调用量超113.7亿笔

郑州航空港区未来城规划任务出炉定位为国际一流的商务中心区

留学中国实现梦想

金属涨跌互现期铜下跌因全球增长前景疲弱【7月6日LME收盘】

Omdia：Q3中国电视厂商的面板采购计划会继续增长韩国电视整机采购量回升趋势将低于预测水平

盈盛控股乔迎宾：不显山露水潜心打造“智能办公”

中沃防火门马忠良：前半生守国门后半生护家门

打造零碳机场示范样板朔州机场工程要实现清洁低碳用能模式

打造零碳机场示范样板朔州机场工程要实现清洁低碳用能模式

天津：划定封控区全市开展全员核酸检测