全世界第一个专业知识提高千亿元大实体模型在深圳发布 主要参数经营规模达2600亿,
2600亿!全球最大中文单体模型在深圳发布
作为当前人工智能发展的重要方向,预训练大模型已成为AI领域的技术新高地。
12月8日,鹏城实验室与百度联合召开发布会,正式发布双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心(模型版本号:ERNIE 3.0 Titan)。
该模型参数规模达到2600亿,是目前全球最大中文单体模型,在60多项任务上取得最好效果。同时,百度产业级知识增强大模型“文心”全景图首次亮相,从技术自主创新和加速产业应用两方面,推动中国AI发展更进一步。
为促进产学研协“多轮驱动”,鹏城实验室与百度成立了鹏城-百度自然语言处理联合实验室,并以此为依托,资源共享、优势互补,在自然语言处理前沿研究和创新应用方面协同攻关,助力打造国家战略科技力量。
本次联合发布的鹏城-百度·文心,将进一步解决AI技术在产业应用中缺乏领域和场景化数据等关键难题。本着“开源开放”的理念,该模型代码近期会在OpenI启智社区开源,依托鹏城云脑Ⅱ对外开放,积极联合“产学研协”各方,充分挖掘AI大模型的赋能能力,助力科技创新,推动产业发展。
模型如何诞生?
鹏城-百度·文心基于百度知识增强大模型ERNIE3.0全新升级,模型参数规模达到2600亿,相对GPT-3的参数量提升50%。
在算法框架上,该模型沿袭了ERNIE3.0的海量无监督文本与大规模知识图谱的平行预训练算法,模型结构上使用兼顾语言理解与语言生成的统一预训练框架。为提升模型语言理解与生成能力,研究团队进一步设计了可控和可信学习算法。
在训练上,基于业界领先的“鹏城云脑Ⅱ”算力集群,通过我国首个自主研发、开源开放功能丰富的百度飞桨深度学习平台进行训练,解决了超大模型训练中的多个世界性难题。在应用上,首创大模型在线蒸馏框架,大幅降低了大模型落地成本。
模型致力于解决哪些问题?
中国工程院院士、鹏城实验室主任高文说,“预训练模型对整个科学的发展、社会的发展、创新的发展都是非常重要的工具。运用这个工具,可以帮助很多人工智能赋能,不局限于某个领域,这对人工智能的发展是一个福音。”
在不同的行业中,只要涉及到对自然语言的理解、处理、生成,鹏城-百度·文心模型都可以起到作用。
举例通俗来说,在媒体行业利用AI进行创作辅助,就需要对标题以及文章内容进行创作,甚至自动配图,而利用大模型就可以帮助人们对创作环节进行优化配置。
再举例来说,在金融领域,有大量的合同等专业的材料文献需要分析,此时就需要借助大模型对语义语境进行分析,基于百度文心实现了合同智能解析,能够在1分钟内完成对相关合同条款文本的解析识别,速度是之前的几十倍,大大提升了工作效率。
百度首席技术官、深度学习技术及应用国家工程实验室主任王海峰介绍,百度知识增强大模型从大规模知识和海量数据中融合学习,效率更高,效果更好,具有良好的可解释性。从2019年3月发布文心ERNIE1.0,到最新的产业级知识增强大模型文心全景图,既包含基础通用的大模型,也包含面向重点领域、重点任务的大模型,以及丰富的工具与平台,有助于促进技术创新和产业发展。
鹏城-百度·文心的可控和可信学习算法
在算法设计上,为进一步提升模型语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力,研究团队提出了可控学习和可信学习算法。
在可控学习方面,通过将模型预测出的文本属性和原始文本进行拼接,构造从指定属性生成对应文本的预训练数据,模型通过对该数据的学习,实现不同类型的零样本生成能力。用户可以将指定的体裁、情感、长度、主题、关键词等属性自由组合,无需标注任何样本,便可生成不同类型的文本。
在可信学习方面,针对模型生成结果与真实世界的事实一致性问题,鹏城-百度·文心通过自监督的对抗训练,让模型学习区分数据是真实的还是模型伪造的,使得模型对生成结果真实性具备判断能力,从而让模型可以从多个候选中选择最可靠的生成结果,显著提升了生成结果的可信度。
本次发布的鹏城-百度·文心,将进一步解决传统AI技术在推广中缺乏领域和场景化数据等关键难题,推动人工智能进入大规模、可复制的大工业落地阶段。
未来,鹏城-百度·文心大模型可以在通信、医疗、金融等多行业领域按照人类的思维模式进行语言处理。
记者 / 靳阳懿
-
全世界第一个专业知识提高千亿元大实体模型在深圳发布 主要参数经营规模达2600亿, 2023-10-07
-
全世界第6国:法国的总计新冠诊断病案超出1000万, 2023-10-07
-
全世界电子竞技之都点评汇报:洛杉矶市、上海市、法国巴黎排序前三,美国洛杉矶法国巴黎 2023-10-07
-
全世界滨海论坛:江阴缘何语“滨”?, 2023-10-07
-
全世界滨海论坛:在江苏省盐城市,中国和全球共议湿地公园与远处, 2023-10-07
-
全世界滨海论坛在江苏省盐城市举办, 2023-10-07
-
全世界滨海论坛商讨世界文化遗产可持续发展观计划, 2023-10-07
-
全世界海运费用疯涨什么时候迎转折?, 2023-10-07
-
全世界最少23个国家和地区发生奥密克戎感柒病案 多个国家缩紧入关疫防对策, 2023-10-07
-
全世界日增病案超280万例 法国的持续5天日增超30万例, 2023-10-07