微软亚洲互联网工程院：大规模语言模型的技术趋势和落地实践

日期：2021-08-15 来源：搜狐号作者：云科技时代浏览：42422 评论：0

集大成的大规模语言模型

那为什么BERT模型这么厉害？姜大昕认为，BERT模型正好站在了一个爆发点上，可以说是站在巨人肩膀上的集大成者。在BERT之前，深度学习在自然语言处理领域已经取得了很好的发展，BERT可以说是把这些成果集成到一个模型里面，因此就显得特别的强大。

BERT模型的优点到底在哪里？首先，BERT作为一个深度神经网络，其特点是能够自动地从数据当中抽取有效的特征表示，从而避免了人工设计特征也叫特征工程这样一个费时费力的步骤。

第二个是BERT采用了自监督学习的方式。它发明了一个能够自己构造训练数据的方法，可以利用海量互联网上的网页数据作为训练数据集，这样就避免了过拟合的问题，从而可以训练上亿参数的大模型。

第三个特点，BERT模型采用了预训练加微调的新范式，这开创了自然语言处理的新范式，学界和业界认为这正式宣告了所谓大规模预训练模型时代的到来。以前进行自然语言处理的任务，往往需要根据不同任务而选择相应的模型，而不同任务的模型往往也不同，这样会导致不同训练任务的训练数据无法共享，那么意味着每个任务只能从零始训练模型；此外训练出来的模型也只能为特定的任务服务，不同任务的模型无法混用，因此只能为特定的任务用小数据训练小模型，这样就极大地限制了自然语言处理技术的应用。

而BERT模型的特点在于将训练拆分成了两步。第一步叫做预训练，也就是用自监督方法学习语言特征表示得出的模型，就被称为是大规模的预训练语言模型，这个预训练模型可以从大量的文本当中学到许多语法知识、语义知识，这些知识都被存储到了模型的几亿个参数当中。尽管人类很难解读这些知识，但是这些知识确实可以帮助模型更好地执行不同自然语言处理的任务。当通过第一步得出预训练模型后，再处理给定的特定的自然语言处理任务，只需要用比较少的训练数据，就能够在目标任务上达到较好效果。后面这一步就是从预训练模型到训练出特定下游任务的模型，这一阶段被称为是模型的微调。姜大昕形象地比喻，预训练模型就像是本科生学习各种基础课，而微调则像是研究生学习专业课，如果基础知识掌握得比较牢固，那么学习专业课就比较容易了，这是BERT的主要思想。

BERT模型问世以后，预训练模型在不停的发展，微调手段也有不同的变化，但是预训练加微调的两阶段训练方式就成为了当前自然语言处理的主流，被认为是自然语言处理的新范式。当然BERT还借鉴了其它的一些成果，比如用到了Transformer里的Full Self-Attention（完全自注意力）。

BERT模型的出现宣告了预训练时代的到来。各大公司都延着BERT思路，将模型做得越来越大，能力也越来越强。可以说大规模语言模型的参数正在呈指数级增长，非常类似摩尔定律。而预训练技术和大规模语言模型，正在快速推动的自然语言处理领域的发展，使得大量应用落地成为了可能。

«上一页 1 2 … 3 … 4 5 下一页»

点赞 0反对 0举报 0 收藏 0 打赏 0

标签： 微软亚洲互联网工程院人工智能大规模语言模型深度学习神经网络模型 BERT 自然语言处理

中国通讯市场网版权及免责声明:

1、凡本网注明“来源：中国通讯市场网”及其作者的作品，版权均属于中国通讯市场网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非中国通讯市场网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行，在网站留言（请点击）处留言。

打赏

更多>同类通讯信息

0 条相关评论

推荐图文

推荐通讯信息

点击排行

本网站系统版权归成都费米网络科技有限公司所有

韩国发布“全球首个室	人类大事，世界首次激
2022年诺贝尔物理学奖	美国科学家成功制造了
基础物理学突破，维也	英国实验室取得核聚变
东芝展示全新磁记录技	华侨大学吴季怀教授团
开合可超1亿次！我国	中国矿大学者提出新电
三星电机成功研发5G基	6.8mm，EM3展示全球超