2021年浪潮做出来的大模型 组装厂应该做不出来这玩意吧?
来源:
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
“源 1.0“ vs GPT-3先说一下和GPT-3做比较的问题。GPT-3的里程碑意义毋庸置疑,它对于后续开发者的最大意义在于“欸?语言模型还能有这等规模?语言模型竟能做这等事!”GPT-3的诞生几乎直接印证了模型参数量的增长、数据集的增大对于模型本身的积极意义,从此之后更有无数的开发者踏着它的足迹一路前行,在扩展模型规模的路上越走越远。GPT-3的另一个重要意义在于样本内学能力,在它之前,预训练模型在处理下游任务时一般都需要再针对下游任务数据做微调,而GPT-3开拓了一条小样本/零样本学的道路。当预训练模型规模越来越大的时候,针对下游任务数据集微调会变得越来越“贵”,此时GPT站出来说“微调做什么,zeroshot直接来就好了!”,岂非业界福音?所以在做比较之前,我们还是想先向GPT-3致敬,GPT-3对于“源1.0”的开发无疑具有启示意义。因为这个里程碑式的存在,我们这些后续的开发者都得以站在巨人的肩膀上,而非平地起高楼。言归正传,源究竟在何处超越了GPT-3呢?最明显的一处,源是个中文模型,中文因其语言特点,会为开发者带来一些英文中不会遇到的困难,并且在语料部分也有所欠缺,这些都成为了我们重要的工作量——换言之,想做出一个和GPT-3效果同样优秀的中文语言模型,本身就需要付出更大的努力了。另外,GPT-3也非尽善尽美:体现在预训练这部分,就是它的训练对计算力的消耗还很大。巨量模型的预训练会消耗极大的计算资源,这是很自然的推断,但我们在开发过程中,通过对模型结构的精心调整以及训练方法的构建,相比同类型的其他模型,在很大程度上压缩了预训练过程中的计算力消耗——说直白点,是省钱;说伟大点,也是为全人类减少了碳排放。所以,以后再有任何人类想用预训练模型做进一步开发,这个碳排放就大可不必了。来来来,请戳这里!一键申请,模型我有。源之官网戳这里从模型release之日开始大家就在关注什么时候能真正用起来,那么,现在就真的开放API申请了,欢迎大家使用。在开放给大家使用之前,我们自然已经用过无数次了,所以也有勇气说,源1.0超越GPT-3的另一个方面,就在下游任务上。GPT-3惊艳世人的是它的文本生成能力,在传统的自然语言理解(NLU)任务上,它的效果只能说差强人意,从此以后就留给大家一个印象:“反正擅长做生成(NLG)的就不擅长做理解呗~”然而,源偏偏不是这样。有一说一,源1.0的”特长“也在于NLG,但NLU却并非其弱点。模型发布之时,我们在CLUEBenchmark上的小样本和零样本榜单冲到了榜首,这个benchmark算是现在中文NLU领域权威的榜单了,谁人有了语言模型,都会在上面跑一跑,毋庸置疑,里面有什么样的任务,论文以及各位大神的回答里说的也很清楚了,不再赘述。除此之外,近期我们还做了一些其他的理解类的测试,比如:在智能客服场景,模型是否能理解客人的意思、能否进一步确认客人要问的问题;模型是否能鉴定文本内是否有黄色信息;甚至,是否能处理一些身为人类都要拿出纸笔来写写画画的逻辑问题。源在这些任务上的成功率都是比较高的。不用客气,叫它“名侦探阿源”就可以了。话说到这里,一定有人好奇我们是怎么训练的,下游任务又是怎么搞的呢……我就知道。源之代码开源戳这里文本生成当然要单独拿出来讲在“源1.0”正式release之后,我们的一项重要工作其实就是进一步探索模型的生成能力。当拿出时间慢慢琢磨的时候,才真正发现,当初在做人机测试的时候,“源1.0“所展现的能力不过是九牛一毛,还有无比广阔的领域有待我们去探索。这件事并非一人或一个团队可为,期待着各位从业者和爱好者能和我们共同探索阿源的更多可能。所以,快去戳官网啊!你以为下载完API就完了嘛,当然要用起来。这里先展示一些我们开发团队做过的内容权当抛砖引玉了。诗词歌赋都是基本操作,先做个帮公司宣传的程序源。古风源这厢有礼,圣诞节快到了,送大家一棵圣诞树当作礼物吧。最爱读小说,名家大师的文体都想学一学的周树源。生活小常识什么的,不妨问问养生源?闲来无事,调戏一下可萌可御可傲娇的恋爱养成源?以上仅仅是我们对模型能力的很初步的探索,未来还有多大可能还未尝可知,也盼望着我们的API、训练代码、数据集全面开源开放之后,源1.0模型可以让更多人受益。
$浪潮信息(sz000977)$