集大成的大规模语言模型
那为什么BERT模型这么厉害?姜大昕认为,BERT模型正好站在了一个爆发点上,可以说是站在巨人肩膀上的集大成者。在BERT之前,深度学习在自然语言处理领域已经取得了很好的发展,BERT可以说是把这些成果集成到一个模型里面,因此就显得特别的强大。
BERT模型的优点到底在哪里?首先,BERT作为一个深度神经网络,其特点是能够自动地从数据当中抽取有效的特征表示,从而避免了人工设计特征也叫特征工程这样一个费时费力的步骤。
第二个是BERT采用了自监督学习的方式。它发明了一个能够自己构造训练数据的方法,可以利用海量互联网上的网页数据作为训练数据集,这样就避免了过拟合的问题,从而可以训练上亿参数的大模型。
第三个特点,BERT模型采用了预训练加微调的新范式,这开创了自然语言处理的新范式,学界和业界认为这正式宣告了所谓大规模预训练模型时代的到来。以前进行自然语言处理的任务,往往需要根据不同任务而选择相应的模型,而不同任务的模型往往也不同,这样会导致不同训练任务的训练数据无法共享,那么意味着每个任务只能从零始训练模型;此外训练出来的模型也只能为特定的任务服务,不同任务的模型无法混用,因此只能为特定的任务用小数据训练小模型,这样就极大地限制了自然语言处理技术的应用。
而BERT模型的特点在于将训练拆分成了两步。第一步叫做预训练,也就是用自监督方法学习语言特征表示得出的模型,就被称为是大规模的预训练语言模型,这个预训练模型可以从大量的文本当中学到许多语法知识、语义知识,这些知识都被存储到了模型的几亿个参数当中。尽管人类很难解读这些知识,但是这些知识确实可以帮助模型更好地执行不同自然语言处理的任务。当通过第一步得出预训练模型后,再处理给定的特定的自然语言处理任务,只需要用比较少的训练数据,就能够在目标任务上达到较好效果。后面这一步就是从预训练模型到训练出特定下游任务的模型,这一阶段被称为是模型的微调。姜大昕形象地比喻,预训练模型就像是本科生学习各种基础课,而微调则像是研究生学习专业课,如果基础知识掌握得比较牢固,那么学习专业课就比较容易了,这是BERT的主要思想。
BERT模型问世以后,预训练模型在不停的发展,微调手段也有不同的变化,但是预训练加微调的两阶段训练方式就成为了当前自然语言处理的主流,被认为是自然语言处理的新范式。当然BERT还借鉴了其它的一些成果,比如用到了Transformer里的Full Self-Attention(完全自注意力)。
BERT模型的出现宣告了预训练时代的到来。各大公司都延着BERT思路,将模型做得越来越大,能力也越来越强。可以说大规模语言模型的参数正在呈指数级增长,非常类似摩尔定律。而预训练技术和大规模语言模型,正在快速推动的自然语言处理领域的发展,使得大量应用落地成为了可能。