微软亚洲互联网工程院：大规模语言模型的技术趋势和落地实践

日期：2021-08-15 来源：搜狐号作者：云科技时代浏览：42422 评论：0

自然语言处理进入突破期

在人工智能领域，自然语言处理并不是最热门的领域。从市面上的投资分析来看，不论是投资金额还是公司数量，视觉识别和语音识别两个领域才是大头，自然语言处理了只占据了较小的一部分。不过姜大昕表示，在人工智能领域，都同意这样一个说法，即自然语言处理是人工智能皇冠上的明珠。一般认为，视觉和语音属于感知智能，自然语言处理属于感知智能之上的认知智能，不仅属于高级智能，也是通向真正人工智能的必由之路。

自然语言处理（NLP）的领域包括自然语言理解（NLU）、文本分析、搜索引擎、知识图谱、对话管理系统、推荐系统、基于知识库的问答系统、基于搜索的问答系统等，可广泛应用在机器翻译、广告、人机交互、金融、客服、物流等领域。由于自然语言处理对于认知智能的重要性，学术界和工业界对于自然语言处理技术的追求就没有停止过。

其中，有影响力的工作包括2003年Yoshua Bengio提出的一个神经网络语言模型，他也是2018图灵奖获得者、“深度学习三巨头”之一，但这个模型训练起来比较慢，所以并没有流行起来。十年后的2013年，Mikolov发明了词向量模型，极大简化和加速了Bengio模型，该模型非常简单且在实践中的效果非常好，虽然并不算是深度学习模型，但在当时成为了自然语言处理的一个标配。接下来的几年，自然语言处理一直在借鉴视觉识别和语音识别领域的重大突破性技术，比如循环神经网络、卷积神经网络、残差网络、生成对抗网络等等，这些技术起源于视觉和语音，但都被成功地移植到了自然语言处理领域。

针对语言自身的特点，自然语言处理领域也创新了一些独有技术来处理文字，例如序列到序列模型、注意力机制以及Transformer，近期像Transformer技术甚至反哺回了视觉识别和语音识别领域。但对于自然语言处理领域而言，至少在2017年的时候，颠覆性革命似乎还没有到来。

在视觉识别和语音识别领域，2015年和2017年是一个分水岭。2015年，微软亚洲研究院孙健博士所在的团队创造了一个深达152层的残差网络ResNet，在世界公认的图像识别数据集ImageNet上，将图像识别的错误率降低到了3.57%，而人类的错误率大概是5.1%。换句话说，在图像识别领域，2015年的时候，人工智能已经获得了超越人类的水平。到了2017年，语音识别领域也取得了历史性的成果——在全球最权威的产业标准 Switchboard语音识别数据集上，微软语音识别系统将错误率降低到了5.1%，首次比人类的错误率还要低。这是人工智能第一次在语音识别领域达到人类的水平，同时也标志着人工智能在语音领域取得了重大的突破。

当视觉识别和语音识别先后达到人类水平以后，自然语言处理是不是也能够取得类似的重大突破？能够在一些代表性的任务上也达到人类的水平？2018年底，一个叫做BERT的模型出世，横扫NLP任务各大榜单，比如在斯坦福著名的阅读理解测试集上超越了人类的准确率。

«上一页 1 2 … 3 … 4 5 下一页»

点赞 0反对 0举报 0 收藏 0 打赏 0

标签： 微软亚洲互联网工程院人工智能大规模语言模型深度学习神经网络模型 BERT 自然语言处理

中国通讯市场网版权及免责声明:

1、凡本网注明“来源：中国通讯市场网”及其作者的作品，版权均属于中国通讯市场网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非中国通讯市场网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行，在网站留言（请点击）处留言。

打赏

更多>同类通讯信息

0 条相关评论

推荐图文

推荐通讯信息

点击排行

本网站系统版权归成都费米网络科技有限公司所有

韩国发布“全球首个室	人类大事，世界首次激
2022年诺贝尔物理学奖	美国科学家成功制造了
基础物理学突破，维也	英国实验室取得核聚变
东芝展示全新磁记录技	华侨大学吴季怀教授团
开合可超1亿次！我国	中国矿大学者提出新电
三星电机成功研发5G基	6.8mm，EM3展示全球超