微软亚洲互联网工程院：大规模语言模型的技术趋势和落地实践

日期：2021-08-15 来源：搜狐号作者：云科技时代浏览：42422 评论：0

大规模语言模型的未来展望

针对大规模语言模型的未来，姜大昕认为概括来说有两点：一是跨语言和多模态，这两个方向目前是学术界和工业界都在努力攻关的热点方向，有望在未来几年时间内能够得到较好的解决；二是常识和推理，仍然任重而道远，可能是需要很长时间才能够解决的。

首先是跨语言。机器学习领域经过了多年的发展，迎来了深度学习和大规模预训练模型的爆发。近期，图灵奖获得者Raj Reddy教授认为，在未来十年的时间里，机器翻译的问题可以被彻底解决，彻底解决指的是包括小语种也能够进行自由的互译。

跨语言模型的现状是什么呢？它正在处于高速发展的时期。跨语言模型不仅仅是狭义上的机器翻译，还包括支持上百种语言的自然语言处理任务模型。过去两年中，在自然语言处两大顶级大会ACL和EMNLP上，语言模型录用的论文数量都超过了100篇，所以在学术界是一个非常活跃的领域。同时在工业界，跨语言模型也到了成熟落地的时期。以微软产品为例，许多微软产品都要求支持100多种语言、200多个地区。

看几个微软产品的例子。必应搜索引擎目前是跨语言的，可以为世界上100多种语言、200多个地区提供这个搜索服务；而在搜索的同时，还为100多种语言提供自动拼写纠错功能。 Outlook邮件里也有自动回复功能，也就是如果用户收到邮件，对方意图非常明显的话， Outlook会提供自动回复框，通过点击回复框的内容，就可以自动回复了，该功能目前也支持绝大多数主流语言。Microsoft Teams里面的智能助手，可以与之进行语音交互，这个功能也为多个语言提供了语言理解服务，能够准确地识别用户的意图。

姜大昕强调，跨语言模型在中国市场有很多机会，例如一带一路的发展战略，很多企业出海需要打通语言障碍，将出现潜在的应用场景。

微软亚洲互联网工程院进行了很多跨语言的研究和产品落地。从实践来看，跨语言还存在几个问题。一是对于语料丰富的大语言已经实现了工业级应用，但对于许多小语言，由于语料的贫乏，效果仍然不是很好，尤其是双语平行数据的缺乏，因此处于五六十分的水平。所以研究的重点在于如何把大语言丰富的语料知识迁移到小语言上。二是即使对语料丰富的大语言来说，尽管已经有了工业级的应用，但在实际应用中也只达到八九十分的水平，而最后的10到20分很难拿到。

其次是多模态，也就是让计算机拥有处理不同模态信息的能力。模态包括语音、文本、图像、视频、知识等，每一个都是一个模态。以前，几个模态平行发展，互相之间很少有交集。而出现大规模语言模型后，就可以互相交流，但很难用一个模型同时接收多个模态的输入，这个以前是没有的。

多模态学习，是当前人工智能领域的一个热点方向。多模态学习在工业落地方面，一个体现是搜索引擎，比如在必应搜索上用文本可以搜索到图片和视频，现在一大进步就是能够很精确的定位到搜索相关的视频上，这样一个功能就需要文字和视频的信息进行紧密的融合。多模态的应用也是非常多的，比如增强现实、虚拟现实、虚拟人类等方向。如果多模态的研究能够取得突破的话，相信这些领域的应用也会得到飞跃式的发展。

当然，如果要让机器理解常识的话，就得需要机器能够把多种模态联系起来。因为人类获得常识的途径往往不是单纯通过文本，而是通过自身在现实世界中的体验，而体验一定是多模态的。而如果让机器获得人类自身体验比较困难的话，退一步能够让它观察现实世界的体验，对理解常识也会有所帮助，那么观察体验也是多模态的。从这个意义上来说，多模态领域对推动整个通用人工智能的发展，意义重大。当然了，多模态也遇到一系列挑战，比如缺乏平行训练数据、如何生成长序列、生成高精度序列等等，都是需要进一步的解决。

如果跨语言和多模态有希望在近几年内取得突破的话，常识和推理涉及到通用人工智能概念，那么要想人工智能在开放领域拥有常识和推理的能力，确实还是任重而道远。因为如果在一个小范围、一个闭域、一个具体的特定领域，让人工智能具有一定的常识和一定的推理能力，目前是可以办到的。但是在开放领域怎么拥有普适的常识和推理能力，这是非常难的。其实现在也经常看到，一不小心人工智能就变成了人工智障。所以这方面许多学者也有很多的辩论，认为通用人工智能的发展一定要通过脑科学、心理学、神经学多个科学的融合，这也是将来的一个方向。

整体来说：目前自然语言处理处于一个美好时代，更是一个黄金时期，虽然还有很多问题没有解决，但是已经有很多成功的商业应用。相信随着大规模语言技术的进一步发展，一定能够打开数字化转型的新天地，推进通往通用人工智能之路。（文/宁川）

«上一页 1 2 … 3 … 4 5 下一页»

点赞 0反对 0举报 0 收藏 0 打赏 0

标签： 微软亚洲互联网工程院人工智能大规模语言模型深度学习神经网络模型 BERT 自然语言处理

中国通讯市场网版权及免责声明:

1、凡本网注明“来源：中国通讯市场网”及其作者的作品，版权均属于中国通讯市场网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非中国通讯市场网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行，在网站留言（请点击）处留言。

打赏

更多>同类通讯信息

0 条相关评论

推荐图文

推荐通讯信息

点击排行

本网站系统版权归成都费米网络科技有限公司所有

韩国发布“全球首个室	人类大事，世界首次激
2022年诺贝尔物理学奖	美国科学家成功制造了
基础物理学突破，维也	英国实验室取得核聚变
东芝展示全新磁记录技	华侨大学吴季怀教授团
开合可超1亿次！我国	中国矿大学者提出新电
三星电机成功研发5G基	6.8mm，EM3展示全球超