您的位置:主页 > 公司动态 > 公司新闻 > 公司新闻

大模子炼丹指南:信则灵,不信则妄-国际原油

每一个大模子都是一台昂贵的“碎钞机”,这已经成为各路AI考察家们津津乐道的知识。

大模子训练成本有一个简朴的比例:训练用度跟参数目的平方成正比。好比OpenAI训练1750亿参数的GPT-3用度也许是1200万美元,训练5000亿参数(业界预估)的GPT-4成本就飙升至1亿美元。

成本多数来自GPU使用时长。Meta训练650亿个参数的LLaMA模子花费100万个GPU小时;HuggingFace(号称机械学习届的Github)训练Bloom模子花费了跨越两个半月的时间,使用的算力相当于一台装有500 个 GPU的超级盘算机。

Google在训练5400亿参数的PaLM模子时,在6144 块 TPU v4 芯片上训练了 1200 小时,然后又在在 3072 块 TPU v4 芯片上训练了336小时,总共消耗了2.56e24 FLOPs的算力,折合成Google云盘算的报价,也许在900~1700 万美元左右。

然则……几百上万万美金的训练用度和几亿美金的硬件投入,相比AIGC开启的浪潮,真的算贵吗?

微软2022年的净利润是727亿美金,Google是600亿美金,Meta则是230亿美金,在OpenAI破费460万美金训练GPT-3之前,这些巨头都投入了几十甚至上百亿美金用来寻找所谓的“新偏向”。

微软迄今为止向OpenAI投入了100多亿美金,这个数字看起来许多,但要知道微软昔时收购LinkedIn就花了262亿美金,而在更早的时刻收购诺基亚手机营业花了71.7亿美金,基本即是打了水漂。

Meta则花了更多“冤枉钱”来寻找第二曲线。2021年扎克伯格把Facebook的名字改成了“Meta”,投入巨资All in元宇宙,2022年元宇宙部门亏损137亿美元。在ChatGPT问世之前,Meta甚至一度准备把2023年的20%预算投入到元宇宙中去。

Google对AI一直重视,不仅收购了“前GPT时代”的明星DeepMind,照样Transformer这一革命性模子的提出者,但Google并没有像OpenAI那样孤注一掷地“死磕”大语言模子,而是在多个偏向上“撒胡椒面”——总投入并不少,但效果加起来都不如一个ChatGPT。

拉开视野来看,全球科技巨头——包罗海内的大型互联网企业在移动互联网渗透率见顶之后,睁开了惨烈的“存量博弈”,卷算法推荐、卷短视频、卷Web3、卷内陆生涯……投入的资金远远跨越OpenAI在ChatGPT降生前烧掉的10亿美金。

发现新大陆的用度,跟旧大陆的内讧向来不在一个数目级。欧洲人在哥伦布发现新大陆之前内卷了1000年,而发现新大陆只花了西班牙王室投资的200万马拉维迪(约莫14000美元)——跟新大陆给天下带来的转变相比,这点儿钱着实微不足道。

事实上,“资金”从来都不是启动本轮AI浪潮的焦点因素。真正焦点的因素是另外两个字:信仰。

蛮力的神迹

ChatGPT走红后,好事儿的媒体跑去采访了Google旗下的DeepMind首创人Demis Hassabis。

被OpenAI抢去了所有风头的Hassabis言辞有点儿不虚心:“面临自然语言这一挑战,ChatGPT的解决方案云云不优雅——仅仅是更多的盘算能力和数据的蛮力,我的研究灵魂对此倍感失望。”

这句话听起来很“酸”,然而他接着话锋一转:“但这简直是获得*效果的方式,以是我们(的大模子)也以此为基础。”意思就是虽然不太认同,但OpenAI的“蛮力”真的很香,我们也不得不去学。

Hassabis身段天真,但早期对“蛮力”这件事的态度,让Google和OpenAI有了致命的分野。

2017年,谷歌在论文中果然了革命性的Transformer模子,业界逐渐意识到这个模子对于构建AGI(通用人工智能)的意义。然而,基于同样的Transformer,谷歌与OpenAI却走上了两条差其余两条路。

OpenAI旌旗鲜明地从Transformer构建大语言模子,疯狂堆参数,2018年6月公布GPT-1,参数1.17亿;2019年2月公布GPT-2,参数15亿;2020年5月公布GPT-3,参数1750亿,在蛮力的蹊径上“一条路走到黑”。

而Google虽然也地祭出BERT(3亿参数)、T5(110亿参数)和Switch Transformer(1.6万亿参数),外面上跟OpenAI斗的有来有回,但光从模子的名字就能看出来:Google总在替换模子搭建的计谋,而OpenAI的计谋更单一更专注。

好比GPT-2和GPT-1相比,OpenAI没有重新设计底层结构,而是将Transformer堆叠的层数从12层增添到48层,并使用了更大的训练数据集,而GPT-3进一步把层数增添到了96层,使用比GPT-2还要大的数据集,但模子框架基本上没有改变。

另外,基于Transformer的大模子演化有三个分支:Encoder Only,Encode-Decoder,Decoder Only。OpenAI一直坚持只用Decoder Only方案,而Google则变来变去:BERT模子使用Encoder Only,T5模子又改成了Encode-Decoder。

等到OpenAI突破后,Google慌忙转向Decoder Only方案(PaLM模子),时间已经错失了至少一年半。

在跟OpenAI的军备竞赛中,Google却总陶醉在一些貌似炫酷,但实则对AI缺乏信心的产物上——好比2022年公布的Gato。Gato的思绪是先做一个大模子底座,然后再灌差其余数据,以此天生出大量小模子——每个小模子都有特定的能力。

这么做的目的是让单个AI具备尽可能多的功效,加倍通用。做一个简朴的类比:谷歌蹊径相当于让一个上完九年义务教育的12岁小孩儿,去加入钢琴、写作、编程、舞蹈等一系列专业技术培训班,靠着“1 1 1...”培育出一个多才多艺的“全才”。

Gato能执行604种差其余义务,包罗给图片配文、玩雅达利游戏、操作机械臂搭积木。不外,Gato虽做到了“通才”,但适用性却相当堪忧:其中近一半功效,还不如廉价小巧的“专才AI”好使,有媒体评价:一个平庸的人工智能。

“*”但又不那么*的Gato

相比之下,OpenA更热衷于让AI“做好一件事”,即像人类一样明晰自然语言——这是通向AGI的必经之路。

在所有站在Transformer模子肩膀上的团队中,OpenAI是把“蛮力”施展到最淋漓尽致的一个,算力不够就买算力,数据不够就找数据,别人的牛逼手艺我直接拿来用,横竖就是要把规模堆上去。终于,在“暴力美学”的指引下,事业泛起了。

从确立*天起,OpenAI就把缔造靠近甚至逾越人类的AGI(通用人工智能)作为险些*的目的。而且相比Google的迟疑不定,OpenAI提议人们(包罗马斯克)是真的信托AI可以成为一个18岁的成年人,而不是永远停留在12岁上打转。

黄仁勋在今年3月对谈OpenAI团结首创人Ilya Sutskever时,问了一个问题:“在这个(GPT研发的)历程中,你一直信托,扩大规模会改善这些模子的性能吗?” Ilya回覆道:“这是一个直觉。我有一个很强烈的信心,更大意味着更好。”

这是一场蛮力的胜利,但更是一种信仰的胜利。大模子回报给“信仰”的礼物,也远超想象——随着参数目的暴力提升,研究职员突然有一天发现大模子泛起了令人惊喜,但又难以注释的能力飙升。

他们找了一个老词来形容这种征象:Emergence(涌现)。

虔敬的回报

Emergence(涌现)这个词,常见于哲学、系统学、生物学等领域,其经典的界说是:当一个实体被考察到具有各个部门单独存在时不具备的属性和能力时,这种征象就被称之为“涌现”,早在古希腊时代,这种征象就被亚里士多德研究过。

厥后,英国哲学家George Lewes在1875年*次发现了Emergence这个词,用来专门形容上述征象。1972年,诺贝尔物理学奖得主Philip Anderson撰写了一篇名叫“More is Different”的文章,用一句经典的金句来给“涌现”做了注释:

当一个系统的量变导致质变时,就称之为“涌现”。

“涌现”被引入到大模子中,可以说是相当贴切:AI工程师们考察到一个征象,随着模子的参数目越来越大,当跨越某个阈值或者“临界点”的时刻——好比参数目到达100亿,模子会泛起一些闪开发者完全意想不到的庞大能力——好比类似人类的头脑和推理能力。

好比,Google大模子测试基准BIG-Bench里有一项义务:给出4个emoj神色符号,让模子回覆代表什么影戏。简朴和中等庞漂亮的模子都回覆错了,只有参数跨越100亿的大模子会告诉测试者[4]:这是影戏Finding Nemo(海底总发动)。

仰望与不惑:中国工业机器人四十年


2022年,来自Google、DeepMind、斯坦福和北卡莱罗纳大学的学者剖析了GPT-3、PaLM、LaMDA等多个大模子[3],发现随着训练时间(FLOPs)、参数目和训练数据规模的增添,模子的某些能力会“突然”泛起拐点,性能肉眼可见识蓦地提升。

这些“涌现”能力跨越了137多种[5],包罗多步算术、词义消歧、逻辑推导、观点组合、上下文明晰等。这项研究给大模子的“涌现”下了一个界说:若是一项能力只有在大模子中存在,在小模子中考察不到,这项能力就是“涌现”出来的。

微博博主tombkeeper做过这样一个测试:在ChatGPT刚降生时,他将揭晓于2018年的一篇充满隐喻的微博——“对微博上的佩奇来说,今天是漆黑的一天——她们的摩西杀死了她们的加百列”,交给ChatGPT明晰,但ChatGPT回覆失败了。

泉源:微博tombkeeper

而等到2023年3月OpenAI推出了GPT-4,tombkeeper再次将这个问题扔给AI,回覆基本靠近满分。

泉源:微博tombkeeper

Google在训练大模子PaLM时,也发现随着参数规模的增添,模子会不停“涌现”出新的能力。

当最终把PaLM的参数堆到5400亿时,模子就具备了区分因果关系、明晰上下文观点、注释冷笑话等能力。好比像前文一样凭证4个emoj神色符号来猜影戏名字。

对于大模子“涌现”的背后逻辑,现在险些没有科学家能彻底讲清晰。这让人想起了1950年阿兰·图灵在《盘算机械与智能》这篇论文中叙述过一个看法:“学习机械有一个主要的特征,即它的先生往往对机械内部运行情形一无所知。”

固然,有人对此欣喜若狂,有人则会以为毛骨悚然。不外无论是哪一派,都不得不认可那句老话:鼎力真的能出事业。“鼎力”背后就是信仰——人类一定可以用硅基来模拟大脑结构,最终实现逾越人类的智能。而“涌现”告诉我们:这一刻越来越近了。

信仰的充值

有信仰,就要对信仰充值。中世纪基督徒用的是赎罪券,新世纪AI信徒用的则是晶体管。

文心一言面世之后,李彦宏的一段采访曾冲上热搜——李厂长直言“中国基本不会再降生一家OpenAI”,这似乎有点儿不太给王慧文体面[9]。但这一看法确实有理有据:大模子军备竞赛,也许率会比曾经烧掉数十亿美金的网约车战争还要惨烈。

若是根据业界预估的成本,GPT-4训练成本约莫在1亿美金左右,GPT-3的训练用度也要1200万美元。先不说昂贵的人才团队用度,王慧文的5000万美元光是投入到GPU购置或租赁上,都显得左支右绌。

大模子生长的三要素:算法、算力、数据。其中算力是数字时代的“石油”,未来的缺口一定会越来越大。自2012年开启黄金时代后,AI对算力的需求最先出现指数级增进。从2012年的AlexNet,到2017年的AlphaGo Zero,算力消耗足足翻了30万倍。

训练大模子需要专门的GPU集群,传统数据中央的用场不大。微软为了“迎娶”OpenAI,曾专程配备了一台拥有数万块A100与H100 GPU的超级盘算机,光硬件入场费就花了近10亿美金[1]。

即便云云,据相关机构测算,由于ChatGPT与GPT-4的接见量仍在增进,10亿美金的超级盘算机马上又要不够用了。要么进一步扩大算力,要么只能全力控制成本,继续接纳限流等手段[12]。

对此,知心的卖铲人英伟达推出了AI超算云服务:租赁8块旗舰版A100,每月只需37000美元,童叟无欺。若要到达训练GPT-4的算力(一万块A100)月租金需4600万美元左右——每月净利润不足一个小目的的企业,简直可以洗洗睡了。

跟用神经网络来模拟大脑一样,AI算力的昂贵也跟人脑的属性保持一致。

一小我私人的大脑约莫有860亿个神经元,每个神经元平均跟其它7000个神经元相毗邻,以是约莫有6000万亿个毗邻。只管大脑的重量只占人体的2%左右,但当无数神经元毗邻事情的时刻,它们天天需要消耗人体总能量的20%~30%。

因此,纵然是碳基生物的“智能”,也是一种暴力堆砌神经元后的“涌现”,对能量的消耗伟大。而相比经由上亿年进化的碳基神经元,晶体管构建的神经网络离“低功耗”相距甚远——好比柯洁功率是20w,而跟他下棋的AlphaGo功耗是他的5万倍。

因此,人类要想做出真正的AGI,还需要继续给信仰来充值。

对全人类来说,这种充值显然是无比划算的。仔细算一算,OpenAI烧掉的10亿美金,不仅给全球的科技公司找到了一片“新大陆”,还给愈发内卷的全球经济点亮了增量逻辑。在美元泛滥的当下,尚有比这10亿美元性价比更高的项目吗?

当“新大陆”被发现后,全天下都市蜂拥而至。比尔·盖茨虽然现在是AI的狂热张扬者,但早在微软*次投资OpenAI时,他是强烈的嫌疑者,直到去年年底看到GPT-4的内部演示才对外示意:It’s a shock,this thing is amazing。

比尔·盖茨在未来可能拥有人工智能领域最雄伟大厦的冠名权,但OpenAI的首创人们、以及更多毗邻主义学派的人工智能先驱,值得人们在广场上树立雕像。大模子的炼丹之路,信则灵,不信则妄,跟风的投契主义者不配留下姓名。

最后,人类通往地狱或者天堂的蹊径,一定是由AI虔敬的信徒用一颗颗晶体管铺就的。

参考资料

[1] ChatGPT and generative AI are booming, but the costs can be extraordinary, CNBC

[2]Microsoft spent hundreds of millions of dollars on a ChatGPT supercomputer,The Verge

[3]Emergent Abilities of Large Language Models, Jason Wei等,TMLR

[4]The Unpredictable Abilities Emerging From Large AI Models

[5]137 emergent abilities of large language models, Jason Wei

[6]Harnessing the Power of LLMs in Practice

[7]Alphabet’s Google and DeepMind Pause Grudges, Join Forces to Chase OpenAI,The Information

上一篇:没有了

下一篇:没有了