您的位置:主页 > 公司动态 > 公司新闻 > 公司新闻

昆仑万维开源「天工」13B系列大模子,0门槛商用

10月30日,昆仑万维宣布开源百亿级大语言模子「天工」Skywork-13B系列,并罕有识配套开源了600GB150B Tokens的超大高质量开源中文数据集。

昆仑万维「天工」Skywork-13B系列现在包罗130亿参数的两大模子Skywork-13B-Base模子、Skywork-13B-Math模子,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了一致规模模子的*效果,其中文能力尤为精彩,在中文科技、金融、政务等领域显示均高于其他开源模子。

Skywork-13B下载地址(Model Scope):

Skywork-13B下载地址(Github):

除模子开源外,Skywork-13B系列大模子还将开源600GB150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B,这是现在*的开源中文数据集之一。

同时,昆仑万维「天工」Skywork-13B系列大模子即将周全开放商用——开发者无需申请,即可商用。

130亿参数、两大模子、*中文数据集之一、周全开放商用。昆仑万维「天工」Skywork-13B系列大模子堪称业内开源最彻底的百亿高质量商用模子。

Skywork-13B系列大模子的开源将为大模子的场景应用和开源社区生长提供*手艺支持,降低大模子商业门槛,推悦耳工智能手艺落地千行百业,为人工智能生态建设添砖加瓦,携手开源社区探索未知天下、缔造美妙未来。

两大模子领 先行业

昆仑万维「天工」Skywork-13B系列包罗两大模子及150B高质量中文数据集。

○         Skywork-13B-Base模子是Skywork-13B的基础模子,其经由3.2万亿个多语言高质量数据训练,在CEVAL,

CMMLU, MMLU, GSM8K等评测与基准测试上都展现了一致规模模子的*效果。

○         Skywork-13B-Math模子经由专门的数学能力强化训练,在GSM8K等数据集上取得了一致规模模子的*效果。

○         Skypile/Chinese-Web-Text-150B数据集。该数据集是凭证我们经由全心过滤的数据处置流程从中文网页中筛选出的高质量数据。本次开源的数据集巨细约为600GB,总token数目约为(1500亿),是现在*得开源中文数据集之一。

除此之外,Skywork-13B系列还公然了模子中使用的评估方式、数据配比研究和训练基础设施调优方案等。希望这些开源内容能够进一步启发社区对于大型模子预训练的认知,并推悦耳工智能通用智能(AGI)的实现。

五大特点周全逾越

昆仑万维「天工」Skywork-13B系列大模子在CEVAL, GSM8K等多个权威评测与基准测试上都展现了一致规模模子的*效果,其中文能力尤为精彩,在中文科技、金融、政务等领域显示均高于其他开源模子。

Skywork-13B系列模子的五大特点:

1.最强参数显示:周全逾越一致规模大模子

本次开源的Skywork-13B系列模子在CEVAL, CMMLU, MMLU, GSM8K等几大权威评估基准中周全逾越LLaMA2-13B等开源大模子,在一致规模大模子间取得*效果。(停止至10月25日数据)

2.最多训练数据:3.2T高质量的多语言训练数据

服务机器人公司「越凡创新」获数千万B轮融资, 天图投资领投

Skywork-13B系列大模子拥有130亿参数、3.2万亿高质量多语言训练数据。模子的天生能力、创作能力和数学推理能力提升显著。

3.最强中文语言建模能力:中文语言建模疑心度评测,逾越所有中文开源模子

Skywork-13B系列大模子在中文语言建模方面显示精彩,具有优异的中文文创能力。在中文文本创作领域的评测中,Skywork-13B系列大模子展现出了*的能力,尤其在科技、金融、政务、企业服务、文创、游戏等领域均显示高于业内其他开源模子。

上图为差异领域数据下评估模子的疑心度,越低代表模子在该领域建模能力越强。效果显示天工13B在手艺文章,影戏,政务讲述,游戏,金融,通用领域均显示精彩

4.*中文开源数据集之一:150BTokens高质量中文语料

Skywork-13B系列将配套开源600GB、150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B,这是现在*的开源中文数据集之一。开发者可以*水平地借鉴手艺讲述中大模子预训练的历程和履历,深度定制模子参数,有针对性的举行训练与优化。

5.最有诚意的开源商用:无需申请,即可实现商用

现在开源社区中的中文大模子多数并非是完全可商用,一样平常开源社区用户通常需要举行庞大的商用授权申请流程,在某些情形,甚至有对公司规模、所在行业、用户数等维度有明确划定不给予商业授权。

昆仑万维对Skywork-13B系列开源的开放性和可商用性高度重视,将授权流程做到极简,作废对行业、公司规模、用户等方面的限制,目的是辅助更多对中文大模子感兴趣的用户和企业在行业中不停探索和提高。

此次Skywork-13B系列大模子将周全开放商用允许,用户在下载模子并赞成并遵守《Skywork模子社区允许协议》后,无需再次申请授权即可将大模子举行商业用途。希望用户能够更便捷地探索Skywork-13B系列大模子手艺能力,探索在差异场景下的商业化应用。

推动开源生态繁荣,让更多开发者们介入到AIGC的手艺生长中,在共创和共享中推动手艺的提升。

面向AI的时代,蓬勃生长的开源生态建设是构建AI和应用融合的主要一环。降低模子的研发门槛,使用成本,*化的共享手艺能力和履历,让更多的企业和开发者们介入到此次AI引领的科技变化中去。昆仑万维董事长兼CEO方汉是最早介入到开源生态建设的开源老兵,也是中文Linux开源最早的推动者之一,开源的精神和AIGC手艺的生长将会在昆仑万维战略中*融合。

All in AGIAIGC

All in AGI与AIGC是昆仑万维的战略。

4月17日,昆仑万维宣布了中国第 一个真正实现智能涌现的国产大语言模子——「天工3.5」,并启动约请测试。

5月19日,北京市经济和信息化局宣布第 一批《北京市通用人工智能产业创新同伴设计成员名单》。昆仑万维依附在AIGC领域的前沿探索和投资结构,成为第 一批模子同伴和投资同伴。

8月23日,昆仑万维宣布海内第 一款AI搜索产物——天工AI搜索。

9月1日,盘算机视觉和机械学习领域的国际*专家颜水成教授正式加盟昆仑万维,与昆仑万维首创人周亚辉一起出任天工智能联席CEO,并兼任昆仑万维2050全球研究院院长,认真前沿手艺的研究。

9月5日,昆仑万维天工大模子在腾讯优图实验室团结厦门大学开展的多模态大语言模子测评中,综合得分排名第 一。

9月25日,昆仑万维正式控股艾捷科芯,结构AI芯片。

今天,天工Skywork-13B系列大模子的开源标志着昆仑万维连续投资AGI生态的刻意。