大规模语言模型的未来展望
针对大规模语言模型的未来,姜大昕认为概括来说有两点:一是跨语言和多模态,这两个方向目前是学术界和工业界都在努力攻关的热点方向,有望在未来几年时间内能够得到较好的解决;二是常识和推理,仍然任重而道远,可能是需要很长时间才能够解决的。
首先是跨语言。机器学习领域经过了多年的发展,迎来了深度学习和大规模预训练模型的爆发。近期,图灵奖获得者Raj Reddy教授认为,在未来十年的时间里,机器翻译的问题可以被彻底解决,彻底解决指的是包括小语种也能够进行自由的互译。
跨语言模型的现状是什么呢?它正在处于高速发展的时期。跨语言模型不仅仅是狭义上的机器翻译,还包括支持上百种语言的自然语言处理任务模型。过去两年中,在自然语言处两大顶级大会ACL和EMNLP上,语言模型录用的论文数量都超过了100篇,所以在学术界是一个非常活跃的领域。同时在工业界,跨语言模型也到了成熟落地的时期。以微软产品为例,许多微软产品都要求支持100多种语言、200多个地区。
看几个微软产品的例子。必应搜索引擎目前是跨语言的,可以为世界上100多种语言、200多个地区提供这个搜索服务;而在搜索的同时,还为100多种语言提供自动拼写纠错功能。 Outlook邮件里也有自动回复功能,也就是如果用户收到邮件,对方意图非常明显的话, Outlook会提供自动回复框,通过点击回复框的内容,就可以自动回复了,该功能目前也支持绝大多数主流语言。Microsoft Teams里面的智能助手,可以与之进行语音交互,这个功能也为多个语言提供了语言理解服务,能够准确地识别用户的意图。
姜大昕强调,跨语言模型在中国市场有很多机会,例如一带一路的发展战略,很多企业出海需要打通语言障碍,将出现潜在的应用场景。
微软亚洲互联网工程院进行了很多跨语言的研究和产品落地。从实践来看,跨语言还存在几个问题。一是对于语料丰富的大语言已经实现了工业级应用,但对于许多小语言,由于语料的贫乏,效果仍然不是很好,尤其是双语平行数据的缺乏,因此处于五六十分的水平。所以研究的重点在于如何把大语言丰富的语料知识迁移到小语言上。二是即使对语料丰富的大语言来说,尽管已经有了工业级的应用,但在实际应用中也只达到八九十分的水平,而最后的10到20分很难拿到。
其次是多模态,也就是让计算机拥有处理不同模态信息的能力。模态包括语音、文本、图像、视频、知识等,每一个都是一个模态。以前,几个模态平行发展,互相之间很少有交集。而出现大规模语言模型后,就可以互相交流,但很难用一个模型同时接收多个模态的输入,这个以前是没有的。
多模态学习,是当前人工智能领域的一个热点方向。多模态学习在工业落地方面,一个体现是搜索引擎,比如在必应搜索上用文本可以搜索到图片和视频,现在一大进步就是能够很精确的定位到搜索相关的视频上,这样一个功能就需要文字和视频的信息进行紧密的融合。多模态的应用也是非常多的,比如增强现实、虚拟现实、虚拟人类等方向。如果多模态的研究能够取得突破的话,相信这些领域的应用也会得到飞跃式的发展。
当然,如果要让机器理解常识的话,就得需要机器能够把多种模态联系起来。因为人类获得常识的途径往往不是单纯通过文本,而是通过自身在现实世界中的体验,而体验一定是多模态的。而如果让机器获得人类自身体验比较困难的话,退一步能够让它观察现实世界的体验,对理解常识也会有所帮助,那么观察体验也是多模态的。从这个意义上来说,多模态领域对推动整个通用人工智能的发展,意义重大。当然了,多模态也遇到一系列挑战,比如缺乏平行训练数据、如何生成长序列、生成高精度序列等等,都是需要进一步的解决。
如果跨语言和多模态有希望在近几年内取得突破的话,常识和推理涉及到通用人工智能概念,那么要想人工智能在开放领域拥有常识和推理的能力,确实还是任重而道远。因为如果在一个小范围、一个闭域、一个具体的特定领域,让人工智能具有一定的常识和一定的推理能力,目前是可以办到的。但是在开放领域怎么拥有普适的常识和推理能力,这是非常难的。其实现在也经常看到,一不小心人工智能就变成了人工智障。所以这方面许多学者也有很多的辩论,认为通用人工智能的发展一定要通过脑科学、心理学、神经学多个科学的融合,这也是将来的一个方向。
整体来说:目前自然语言处理处于一个美好时代,更是一个黄金时期,虽然还有很多问题没有解决,但是已经有很多成功的商业应用。相信随着大规模语言技术的进一步发展,一定能够打开数字化转型的新天地,推进通往通用人工智能之路。(文/宁川)