第一句子大全,网罗天下好句子,好文章尽在本站!

OpenAI的巨大GPT-3暗示了AI语言模型的局限性

时间:2024-01-10

尽管它表明在自然语言处理中可以做得更好,但它也指出了对整个语言建模实践的潜在绝对限制

友情提示:本文共有 2382 个字,阅读大概需要 5 分钟。

加州研究机构OpenAI推出了另一种巨大的深度学习模型GPT-3。尽管它表明在自然语言处理中可以做得更好,但它也指出了对整个语言建模实践的潜在绝对限制。

一年多以前,总部位于旧金山的人工智能公司OpenAI震惊了世界,展示了计算机形成自然语言句子甚至解决问题的能力的巨大飞跃。就像完成一个句子,并撰写长篇文章一样,人们觉得这很人性化。

该团队的最新工作表明,OpenAI的思想在某些方面已经成熟。最新的GPT-3出现在上周,由上一版本的一些相同作者(包括Alec Radford和Ilya Sutskever)以及其他一些合作者(包括来自Johns的科学家)共同创造了更多风声霍普金斯大学。

正如它所说的那样,它现在是一种真正的怪物语言模型,比以前的语言多了两个数量级的文本。

但是在更大更好的特技中,OpenAI团队似乎在朝着某些真理迈进,就像大卫·鲍曼博士在电影2001年末似乎朝着已知极限迈进一样。

在72页的论文的结论部分埋地,语言模型是为数不多的射击学习者,上周公布的的arXiv预打印服务器,是一个相当惊人的认可。

“本文描述的通用方法的一个更根本的局限性-扩大任何类似LM的模型,无论是自回归模型还是双向模型-最终都可能会遇到(或可能已经陷入)预训练目标的局限,”写作者。

作者的意思是,建立一个仅预测任何句子或短语中下一个单词的概率的神经网络可能会有其局限性。仅使其功能更强大并用更多的文本填充它可能不会产生更好的结果。这是一篇论文中的一个重要承认,该论文主要是庆祝在问题上投入更多计算能力的成就。

与使用较少参数的GPT-3版本相比,使用1,750亿个参数的GPT-3的准确性提高得更快。

布朗等。

要了解为什么这么重要的结论,请考虑我们如何到达这里。OpenAI在语言方面的工作历史已成为一种方法稳步发展的历史的一部分,随着该技术变得越来越大,其成功越来越大。

原始GPT和GPT-2都是对所谓的Transformer的改编,Transformer是Google在2017年首创的一项发明。Transformer使用称为注意力的功能来计算单词在给定周围单词时出现的可能性。OpenAI在一年前表示不会将源代码发布到最大版本的GPT-2时引起争议,因为他们说,这可能会落入错误的人手中,并被滥用以虚假新闻之类的东西误导人们。

新论文将GPT扩大到一个新的水平。GPT-2的最大版本(未以源代码形式发布)是15亿个参数。GPT-3是1,750亿个参数。参数是神经网络中的一个计算,对数据的某些方面施加较大或较小的加权,以使该方面在数据的整体计算中具有较大或较小的突出性。正是这些权重使数据成形,并使神经网络对数据有了学习的认识。

随着时间的推移,权重的增加导致GPT-2以及其他Transformer衍生产品(例如Google的BERT)的amazIng基准测试结果令人印象深刻。

没关系,很多人指出,这些语言模型似乎都不是真正以任何有意义的方式理解语言的。他们正在接受测试。

而此最新版本在数量上有所进步。与GPT-2和其他基于Transformer的程序一样,GPT-3在Common Crawl数据集上进行训练,Common Crawl数据集是从网络上抓取的将近一万亿个单词的语料库。作者写道:“数据集和模型大小比用于GPT-2的数据集和模型大小大约大两个数量级。”

具有1,750亿个参数的GPT-3能够实现作者所说的“元学习”。元学习意味着不对GPT神经网络进行重新训练以执行诸如句子完成之类的任务。给定一个任务示例,例如不完整的句子,然后是完整的句子,GPT-3将继续完成给出的所有不完整的句子。

与某些经过微调的Transformer版本(仅专门执行该任务)相比,GPT-3能够在单一提示下学习如何完成一项任务。因此,GPT-3是总体性的胜利。只需输入大量文本,直到其权重达到理想水平,它就可以继续在许多特定任务上执行得很好,而无需进一步开发。

那就是故事在新报纸上引人注目的结局。在列出了GPT-3在语言任务方面令人印象深刻的结果后,作者指出了这些缺陷,这些问题涉及从完成句子到推断语句的逻辑含义再到语言之间的翻译。

“尽管GPT-3在数量和质量上都取得了很大的进步,特别是与其直接的前身GPT-2相比,它仍然有明显的缺点。”

这些弱点包括无法在所谓的对抗式NLI上取得明显的准确性。NLI或自然语言推理是一种测试,程序必须确定两个句子之间的关系。来自Facebook和北卡罗来纳大学的研究人员推出了一种对抗版本,在此版本中,人类创建了句子对,这些句子对计算机很难解决。

作者写道,GPT-3在对抗性NLI之类的事情上“比机遇要好”。更糟糕的是,作者已经将系统的处理能力提高到了1,750亿个权重,但他们不确定为什么他们在某些任务上有所欠缺。

那就是他们得出上述结论的时候,也许仅仅是将庞大的文本语料库输入到巨型机器上并不是最终的答案。

下一个观察结果更加令人震惊。作者写道,试图预测语言将要发生的整个实践可能是错误的方法。他们可能瞄准了错误的地方。

他们写道:“有了自我监督的目标,任务说明就依赖于将期望的任务强加到预测问题中,而最终,最好将有用的语言系统(例如虚拟助手)视为采取目标导向的行动,而不是采取目标导向的行动。只是做出预测。”

作者将其留给其他时间来指定他们将如何进行这一相当有趣的观察。

尽管有令人着迷的观察,那就是更大的不一定最终会更好,但是GPT-3在许多任务上的改进结果可能会激发而不是减弱人们对越来越大的神经网络的需求。目前,GPT-3具有1750亿个参数,是大型神经网络的王者。AI芯片公司Tenstorrent在四月的一次演讲中描述了未来具有超过一万亿个参数的神经网络。

在机器学习社区的很大一部分中,越来越多的语言模型将保持最新状态。

本文如果对你有帮助,请点赞收藏《OpenAI的巨大GPT-3暗示了AI语言模型的局限性》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(3)
  1. 达观2024-01-17 03:48达观[国外网友]202.170.227.161
    虽然GPT-3有局限性,但它仍然是一个令人惊叹的技术成果。
    顶0踩0
  2. Firework,烟火2024-01-14 21:11Firework,烟火[辽宁省网友]111.223.251.59
    看来AI语言模型还有很长的路要走,GPT-3只是一个开始。
    顶6踩0
  3. 何韵清2024-01-12 14:34何韵清[广西网友]27.155.95.194
    真的吗?GPT-3居然有局限性?我一直以为它是无所不能的AI语言模型!
    顶32踩0
相关阅读
让AI说话告别三观不正 OpenAI只用80个文本就做到了

让AI说话告别三观不正 OpenAI只用80个文本就做到了

...是有儿孙赡养的老人,他健康、富有、智慧。我怀疑你在暗示我苏大强,但是找不到证据。这回答不能说不对,但是总感觉哪里怪怪的……来,我们看看GPT-3的“高情商”打开方式:首先这个问题取决于回答的人。每个人心中都...

2022-12-09 #经典句子

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生 仿佛拥有人类的语言想象力

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生 仿佛拥有人类的语言想象力

...擎不同,3D渲染引擎的输入必须明确且完整,当标题文本暗示图像必须包含未明确的特定细节时,DALL·E通常能够“填补空白”。应用案例接下来,研究人员探讨了上述功能在时尚设计和室内设计中的应用。文本提示:一位穿着橘...

2016-12-18 #经典句子

陈丹琦团队新作:用小样本学习给语言模型做微调 最高提升30%

陈丹琦团队新作:用小样本学习给语言模型做微调 最高提升30%

...NLI任务中,提升达到30%。不过,该方法目前仍存在明显的局限性,性能仍大大落后于采用大量样本训练获得的微调结果。关于作者论文有两位共同一作。高天宇,清华大学本科生特等奖学金获得者,本科期间即发表4篇顶会论文...

2023-10-26 #经典句子

解决自然语言歧义 IJCAI 卓越研究奖得主提出 SenseBERT 模型

解决自然语言歧义 IJCAI 卓越研究奖得主提出 SenseBERT 模型

...提取语义预测的机器学习技术。近年来神经网络显现出其局限性,因此符号主义和神经方法的结合成为趋势。尽管神经网络在很多 AI 领域中取得了显著进展,但它们仍然对语义束手无策。即使最聪明的自然语言理解 (NLU) 系统,...

2014-01-07 #经典句子

BERT将给自然语言处理带来巨大革新!

BERT将给自然语言处理带来巨大革新!

...通过利用嵌入本身的附加信息来实现这一点。这些嵌入的局限性在于他们使用了非常浅显的语言模型。这意味着它们能够捕获的信息量有限,这促使人们使用更深入、更复杂的语言模型(LSTM和GRU层)。另一个关键性的制约因素...

2023-05-18 #经典句子

谷歌推出AI写作助手 少量样本学习和对话就能对文章进行续改写

谷歌推出AI写作助手 少量样本学习和对话就能对文章进行续改写

...语言模型。故事写作这个环境能够探索语言模型的能力和局限性,因为模型非预期的输出就是一种创造。从人机交互的角度来看,Wordcraft可以学习人们与语言模型互动的方式、了解人们对模型的要求、模型能够产出什么,以及如...

2022-11-29 #经典句子

1750亿参数 史上最大AI模型GPT-3上线:不仅会写文 答题 还懂数学

1750亿参数 史上最大AI模型GPT-3上线:不仅会写文 答题 还懂数学

...之心报道机器之心编辑部时隔一年,OpenAI 放出的预训练语言模型 GPT-3 再次让人刮目相看。「我们训练了 GPT-3,一种具有 1750 亿参数的自回归语言模型,这个数字比以往任何非稀疏语言模型都多 10 倍。我们在 few-shot 情况下测试...

2023-11-24 #经典句子

开源|谷歌发布最新“天马”模型 自动生成文本摘要已超越人类!

开源|谷歌发布最新“天马”模型 自动生成文本摘要已超越人类!

...说明,等,这说明天马模型在选择文本主题上方面并没有局限性。更令人惊奇的是,研究人员发现天马模型在小样本数据集中同样表现出了卓越的性能。以下是研究人员选定4个数据集后,ROUGE得分与监督样本数量的关系。(虚线...

2023-05-05 #经典句子