GPT论文《Improving Language Understanding by Generative Pre-Training》,结合了半监督学习(无监督+微调)和Transformer。

GPT2论文《Language Models are Unsupervised Multitask Learners》探索了纯无监督学习 的可能性。证明在Language Model在zero-short上的能力。

具体地,该论文重新实现了一个相对超大的数据集WebText(40GB),在该数据集上,利用GPT文中的架构,无监督训练出了GPT2。

该论文强调了LM(Language Model)本身可以在无监督下学到通用能力(不同于现有大部分专家模型),提供了未来模型发展的新思路。

注意该论文没有采用监督学习和微调 (fine-tunning)。

注意该论文的数据集是个创新(内容和大小),40GB相对于之前的相关研究,是个大的jump 。因为想要在无监督下学习到「知识|能力」,依赖大数据和大参数训练(不同于监督学习传统模型,只需要特制的训练数据,定向训练)。

hence,也暗示了未来的发展方向:大数据集、大参数,以至于大模型(Large Language Model)

注意,

论文中测试的4个不同size的模型(最大的1.5B)

image.png

参数越少、依赖数据越少,更定制化,专家化,可表征的东西更特定。

参数越多、依赖数据越多,更通用化,可表征的东西更多,难度也越大。