像GPT-4这样的大型语言模型在应用中出现的涌现能力是幻象吗？|天天微头条

(资料图)

这项研究的结果很重要，因为它揭开了大型语言模型(LLM)具有的一些神奇能力的神秘面纱，并且还对“规模是创造更好的大型语言模型唯一途径”这一观点提出了质疑。

大型语言模型(LLM)的涌现能力

一些研究已经检验了大型语言模型(LLM)显示出的涌现能力。一项研究将涌现能力定义为“在较小的模型中不存在，但在较大的模型中存在的能力”。基本上，这意味着机器学习模型在某些任务上具有随机性能，直到其大小达到一定的阈值。在达到阈值之后，随着其规模的增长，大型语言模型(LLM)的能力将开始提升。可以在图1中看到LLM表现出的涌现能力，其性能在一定范围内突然跃升。

大型语言模型(LLM)显示出大规模的涌现能力，在模型大小达到一定阈值之前，其完成任务的性能保持在随机水平。之后，随着模型规模的变大，其性能将会跃升并开始提高。

研究人员对LaMDA、GPT-3、Gopher、Chinchilla和PaLM等具有1000多亿个参数的大型语言模型(LLM)的涌现能力进行了研究。这些研究包括从BIG-Bench中选择的任务，BIG-Bench是一个众包基准，包括语言学、常识推理和数学等许多领域。他们还使用了TruthfulQA、大规模多任务语言理解（MMLU）和场景中的单词（WiC）进行了测试，这些测试都是为了了解大型语言模型(LLM)在处理复杂语言任务方面的局限性。

有几个原因使大型语言模型(LLM)的涌现能力变得非常重要。首先，这些研究表明，在开展进一步创新的情况下扩展大型语言模型(LLM)规模可以继续在更通用的AI能力方面取得进展。其次，随着大型语言模型(LLM)的发展，人们无法预测它们会带来什么。当然，这些研究结果将会进一步强化大型语言模型(LLM)的神秘光环。

为什么大型语言模型(LLM)的涌现能力会被炒作

斯坦福大学的这项新研究对大型语言模型(LLM)所谓的涌现能力提出了不同的看法。根据他们的研究，对大型语言模型(LLM)的涌现能力的观察通常是由于指标的选择引起的，而不是规模。斯坦福大学的研究人员认为，“现在关于涌现能力的说法是研究人员分析的结果，而不是特定任务中模型行为随着规模的增加而发生变化。”他们指出，强有力的支持证据表明，涌现能力可能不是扩展AI模型的基本属性。

具体来说，他们认为涌现能力似乎只出现在非线性或不连续地缩放任何模型的每个令牌错误率的指标下。这意味着在衡量任务性能时，一些指标可能显示出大规模的涌现能力，而另一些则显示出持续的改进。

例如，有些测试只测量大型语言模型(LLM)输出正确令牌的数量。这种情况尤其发生在与分类和数学相关的任务中，只有当所有生成的令牌都是正确的时候，其输出才是正确的。

实际上，LLM模型输出的令牌逐渐接近正确的令牌。但由于最终答案与基本事实不同，它们都被归类为不正确，直到它们达到所有标记都是正确的阈值。

研究人员表示，在他们的研究中，如果对相同的输出使用不同的指标，涌现能力就会消失，LLM模型的性能也会平衡提高。这些指标衡量的是到达正确答案的线性距离，而不仅仅是计算正确答案。

当用非线性指标进行评估时，LLM出现涌现能力；当用线性指标进行评估时，性能会平稳提高

研究人员还发现，在某些情况下，出现涌现能力是由于没有足够的测试数据。通过创建更大的测试数据集，其性能改进就会变得稳步提高。

为了进一步证明这一点，研究人员试图了解是否能在其他类型的深度神经网络中重现涌现能力的情况。他们对视觉任务和卷积神经网络(CNN)进行了测试。测试结果表明，如果他们使用非线性指标来评估LLM模型的性能，那么就会观察到在大型语言模型(LLM)中会出现相同的情况。

为什么这个结论至关重要？

研究人员在发表的论文总结出一个重要的结论：“对于一个固定的任务和一个固定的模型家族，研究人员可以选择一个指标来创建涌现能力，也可以选择一个指标来消除涌现能力。因此，涌现能力可能是研究人员选择的产物，而不是模型家族在特定任务上的基本属性。”

研究人员表示，并不是说大型语言模型(LLM)不能显示出涌现能力，但他们强调，之前声称的LLM中的涌现能力可能是研究人员在分析时引发的幻象。

这一研究的一个重要收获是对于认识大型语言模型(LLM)性能提供了一个更关键的视角。鉴于LLM的惊人能力和成果，如今已经有了一种将它们拟人化的趋势，或将它们与其不具备的特性联系起来。

这项研究得出的结论很重要，因为它们将有助于为大型语言模型(LLM)领域带来更清醒的认识，并更好地理解扩大LLM模型规模的影响。SamBowman最近发布的一篇论文指出:“当实验室投资训练一个新的大型语言模型(LLM)并逐步扩大规模时，他们有理由相信将会获得具有经济价值的各种新能力，但他们几乎无法对这些能力做出自信的预测，或者他们需要做些什么准备才能负责任地部署这些能力。”而有了更好的技术来衡量和预测改进，研究人员将能够更好地评估更大的LLM模型的效益和风险。

这种方法也有助于鼓励研究人员探索创建更大的大型语言模型(LLM)的替代方案。虽然只有大型科技公司才能负担得起训练和测试大型LLM的成本，但规模较小的公司也可以对较小的模型进行研究。有了这些指标，他们将能够更好地探索这些较小的LLM的功能，并找到新的研究方向来改进它们。