跳转到主要内容

原始研究的文章

前面。Artif。智能。,24 May 2023
秒。AI对人类学习和行为改变
卷6 - 2023 | https://doi.org/10.3389/frai.2023.1199350

人类解决问题的能力在使用ChatGPT大型语言模型

  • 外科学系、医学、分子病理学和关键区域,比萨,意大利比萨大学

背景:人工智能(AI)领域发生了重大转变,近年来由于开发新的机器学习(ML)模型等生殖Pre-trained变压器(GPT)。GPT取得了以前闻所未闻的水平的准确性在大多数计算机语言处理任务及其变体咨商与咨客间。

目的:本研究的目的是探讨ChatGPT使用两套语言insight的解决问题的能力问题,用已知的性能水平建立了人类参与者的一个示例。

材料与方法:标记为“共有30个问题实践问题”和“转移问题“是ChatGPT管理。ChatGPT的答案获得了分数每个正确回答问题的“0”和“1”分每个正确的响应。尽可能高的分数的实践转移问题15 15。每个问题的解决方案(基于20科目)的样本被用来评估和比较ChatGPT与人类被试的表现。

结果:研究强调,ChatGPT可以开箱即用的思维训练,并演示了潜在的解决口头了解问题。全球ChatGPT性能与人类样本的最可能的结果实践问题转移问题以及他们的组合。此外,ChatGPT答案组合是5%的人类最可能的结果的样本都在考虑实践问题和集中的问题集。这些发现表明ChatGPT性能在两组问题符合人类受试者的平均成功率,表明它能很好地执行。

结论:变压器的使用架构和self-attention ChatGPT可能帮助优先投入虽然预测,导致口头了解其潜在的解决问题。ChatGPT表明潜在的解决认识问题,从而强调将AI纳入心理学研究的重要性。然而,它是承认仍然有开放的挑战。的确,进一步的研究是需要完全理解艾未未的语言解决问题的能力和局限性。

1。介绍

使用机器学习(ML)心理学正变得越来越普遍。心理学研究中产生的大量数据可以有效地使用ML算法进行了分析和解释。这些方法可以帮助研究人员在识别模式和关系数据,并不明显。例如,ML算法可以被用来分析脑成像数据和识别特性与各种神经或精神疾病(Orru et al ., 2012,2021年;费鲁奇et al ., 2022),或慢性疾病(即重叠期货。纤维肌痛:Orru et al ., 2020 a),尤其频繁(戴尔'Osso et al ., 2015)。毫升可以有效地应用在一系列领域如法医科学(伪:例如,Sartori et al ., 2017;速度et al ., 2019;个性faking-good:例如,马扎et al ., 2019)和心理学研究(Orru et al ., 2020 b),在别人。

新的ML模式等大型语言模型(LLM)据称最近的“范式转换”的发起人基于人工智能(基于ai)语言分析。事实上,llm复杂的人工智能系统培训大量的文本数据。这些模型能够产生类似人类的语言和执行广泛的语言任务,如翻译、答疑和情绪分析,在别人。这些模型,如从变压器双向编码器表示(BERT)和生成Pre-trained变压器(GPT)及其变化(例如咨商与咨客间,ChatGPT), have produced previously unheard-of levels of accuracy (Devlin et al ., 2018)在大多数计算机语言处理任务和最近获得了广泛的关注。GPT OpenAI创建的是一个语言模型。最新和最先进的语言模型被称为GPT和一直在训练从互联网上大量的文本数据。它可以产生类似人类的文本和执行各种语言翻译等任务,总结、问答和编码。GPT-3使个性化的和一个人工智能机器人能够提供详细的反应(提示)以显著的速度的问题。具体来说,GPT-3是一个深度学习语言自回归模型(一个简单的前馈模型),产生类似人类的文本从一组单词在特定的上下文。概括地说,LLM数学代表单词的能力在上下文中可能是主要负责它的成功。

比起的的基于变压器模型引入特定的神经网络结构Vaswani et al。(2017)在“关注你所需要的”(2017),已成为许多先进的模型在自然语言处理的基础(不良贷款),包括GPT-3。变压器的主要创新体系结构是使用注意力机制,允许模型选择性地关注在其处理过程中输入的不同部分,从而更有效地理解单词和短语输入之间的关系。特别关注协会允许遥远的部分文本在一个句子;例如,它使这句话的理解”男孩追马是脂肪”、“脂肪”指的是男孩,而不是马。llm大规模神经网络,包括数十亿参数,训练在大量的文本和依赖的注意机制。其中一个最有效的培训系统是一个用于GPT-3,包括预测下一个单词一个句子中去;例如,通过显示这句话”狗叫了,猫…,“预测”这个词喵喵叫。”

微调的方法用于训练一个新的数据集,比起pre-trained的基于变压器模型,目的是适应特定的任务。这是通过训练模型在更小的数据集是特定于某个任务,同时保持权重从pre-trained模型修正。这个过程使模型采用的知识,从更大的数据集快速学习如何执行一个新的任务。

当前工作的目的是评估的能力ChatGPT解决语言洞察问题从两方面的问题,这两个原本是解决人类参加20国集团(g20)进行的一项研究Ansburg和Dominowski (2000)。这个评估的目的是双重的:首先,确定ChatGPT能否解决这些类型的语言了解问题,通常与人类智慧和之前一直被认为具有挑战性的计算机来解决;其次,比较ChatGPT的解决问题的能力的人类,在提到建立研究。

整体而言,本研究试图评估的潜力ChatGPT作为智能工具对问题的解决和探索机器智能的程度可以匹配或超越人类智慧在这一领域。

在下面几节中,研究开始通过提供(我)一个框架,以更好地理解解决问题;(2)的总结讲话中使用的最先进的分类技术环境和变压器的架构,强调组件参与编码和解码;(3)主要发现了;(vi)最后,所涉及的困难,和潜在的未来方向进行了讨论。

1.1。口头了解解决问题

理解理解解决问题,关键术语必须首先被定义。解决问题被定义为一组认知过程,旨在将一个给定的情况下转换为一个理想的场景中,当没有明确的解决方案(Mayer和Wittrock, 2006)。换句话说,它代表的过程中找到一个解决一个问题或一组问题涉及到使用不同的策略或技巧来克服障碍,达到特定的目标,“当没有解决解决问题的方法是显而易见的”(梅耶,1992)。有不同的方法解决问题,包括分析,创造性的、直观的方法:分析方法系统涉及问题分解成更小的部分,分析每部分找到一个解决方案(例如,聚(2004);创造性的方法包括生成新的和独特的想法来解决这个问题;直观的方法涉及过去的经验和知识的使用通知解决问题的过程。一般解决问题彻底调查了认知科学的理论和模型被提出。最具影响力的理论之一是“一般问题解决者“(GPS)假说纽威尔和Simon (1972)即解决问题是一个合乎逻辑的、系统的过程,坚持一套规范和流程。另一个重要的理论是“防卫假说”(DPT)提出的卡尼曼(2011),这表明解决问题可以通过实现快速、直观的流程(系统1)和缓慢、深思熟虑的过程(系统2)。进一步的解决问题的方法被称为“洞察力”可以被定义为意想不到的发展的一个新的概念或一个新的视角,它常表现为一个“啊哈!”的时刻。了解解决问题的广泛研究了认知心理学家和最初所描述的沃拉斯(1926)作为一个四级流程组成的准备、孵化、照明和验证。

1.2。简要概述尖端序列的分类方法在文本或演讲比赛

在端到端序列分类,毫升,特别是深度学习,正变得越来越受欢迎。这种类型的分类只需要单个模型学习所有这些阶段之间的初始输入和最终输出。有两种基本方法在文本或语音序列数据分析;这些方法被称为变形金刚和复发性神经网络(RNNs)。

比起一个的基于变压器模型,正如上面提到的,是一种神经网络架构引入的Vaswani et al。(2017)。变压器是self-attention的关键创新机制,也称为intra-attention,连接”在一个序列来计算不同位置的表示顺序根据作者”。Self-attention允许模型评估的重要性的不同部分输入时的预测。阅读理解、有意义的总结和学习task-independent句子表示都有效地实现self-attention使用变压器结构,已广泛用于各种不良贷款处理应用程序(即。伯特和GPT-2),担任许多开创性的基础模型(例如,帕瑞克豪et al ., 2016;彼得罗夫et al ., 2016)。相比之下,RNNs,变形金刚的前辈,后按顺序处理输入词词(即。,文本或语音)和远程依赖项(李et al ., 2018)。RNN,隐藏状态的网络在每个步伐是隐藏状态的函数在前面的步伐和当前输入。这意味着每个步伐取决于预测的预测之前的步伐,使得它难以并行化计算(Le et al ., 2015)。RNNs生成一个向量序列为了捕捉整个句子的意思,战略执行处理不善长和复杂的句子。在这种情况下,变压器架构是专门设计来克服这个RNN限制通过引入self-attention机制。

1.3。编码和解码组件

最有竞争力的神经传导模型序列,比如那些用NLP的任务,有一个encoder-decoder结构。首先介绍了“encoder-decoder结构序列,序列与神经网络学习Sutskever et al。(2014)。他们建议使用RNNs编码器和译码器。这种架构后来改进公司的注意机制,它允许解码器评估的重要性的不同部分输入生成输出时,提出了“神经机器翻译的共同学习和翻译一致Bahdanau et al。(2014)。这个结构包含两个主要组件:一个编码器,该过程的输入序列和产生一个固定长度的代表,和一个解码器,产生基于固定长度的输出序列表示,例如在机器翻译应用程序从意大利到英语(图1)。

图1
www.雷竞技rebatfrontiersin.org

图1。在机器翻译应用程序编码和解码组件。

每个编码器有相同的结构,是由两个子层:Self-Attention前馈网络。编码器输入第一个通过self-attention层,它协助编码器看句话说在输入句子编码特定的词。Self-attention层输出被送入一个前馈神经网络。相同的前馈网络应用于每一个独立的位置。两层也存在于它们之间的解码器然而层,是一个关注encoder-decoder关注,协助解码器关注相关部分输入的句子成分等,依赖关系,语义角色和指称相同等(图2)。

图2
www.雷竞技rebatfrontiersin.org

图2。编码器和解码器结构和子层。

2。材料和方法

ChatGPT三十口头洞察问题管理,列入研究Ansburg和Dominowski (2000):第一组15问题被称为“实践问题”,而第二组15问题被称为“转移问题”(见Ansburg Dominowski, 2000;附录A, p . 54-59)。两组问题只是用于验证ChatGPT解决语言问题解决任务的能力,不要复制他们的实验过程。

2.1。基于语言指令

之前口头ChatGPT洞察问题,管理创建一个竞赛(LLM术语中被称为一个提示)ChatGPT以下简短的指令:“试图解决这一实践问题。第一个是以下”,第一实践问题提供了:“一个农民在加州拥有一个美丽的梨树。他供应水果附近的杂货店。店主称农夫看到多少水果可供购买。农夫知道主干拥有24家分支机构。每个分支都有6树枝。因为每个树枝熊一片水果,多少李子农民能够交付?”。在这种情况下ChatGPT未能解决问题并反馈”提供的答案是不正确的”提供。这是美联储以“控制指令”(CI)(见Ansburg Dominowski, 2000附录B, 59页)在解决第一个问题。在第二次失败,ChatGPT提供“战略指导”(SI)(见Ansburg Dominowski, 2000附录C, 60页)。CI和SI上市了Ansburg和Dominowski(2000年;59-60页)。剩下的口头任务随后介绍,及相关反馈提供ChatGPT基于正确/错误的答案,比如“答案是正确的。正确的答案是+解决方案”或“答案是不正确的。正确的答案是+解决方案。”

2.2。方法

ChatGPT(2023年1月9日)。如上所述,共有30个问题,标记为“实践问题”和“转移问题”(有关更多信息,请参见Ansburg研究和Dominowski) ChatGPT管理。根据解决方案实践问题转移问题所描述的Ansburg和Dominowski (2000),分数“0”被分配为每个问题ChatGPT回答错误,“1”是为每一个正确的答案。两组的15个问题,最大的分数由15岁。详尽的概述的管理问题和人类样本和ChatGPT指的表现表1,2。ChatGPT的性能相比,使用此解决方案所带来的人类样本率对每个问题(表1,2湿草地是来自Ansburg和Dominowski (2000)研究基于样本的20个科目。我们的目的是利用只Ansburg和Dominowski的刺激,而不是复制这项研究本身。

表1
www.雷竞技rebatfrontiersin.org

表1。解决问题的任务:15实践问题和解决方案(正确答案),ChatGPT答案,分数(答案准确性)和解决方案的人类样本。

表2
www.雷竞技rebatfrontiersin.org

表2。解决问题的任务:15转移问题和解决方案(正确答案),ChatGPT答案,分数(答案准确性)和解决方案的人类样本。

假定的between-set差异估计ChatGPT和人类样本(n= 20)。在前一种情况下意义使用费舍尔准确评估测试,而在后者通过执行Wilcoxon等级和测试解决方案。除非另有说明,给出了描述性统计中位数和四分位范围(25百分位- 75百分位)。

2.2.1。人类可能结果的概率分布样本在每个组的问题

对于这两个问题集,每个可能的总分相关的概率分布(即。正确答案的数量),人类(见样例补充材料1)估计。注意,最可能的结果是比分显示发生的概率就越高。

kth分数概率得到如下:

——所有可能的答案组合的集合是首次发现,生产所需的分数。作为一个例子,让我们考虑分三个(15三个正确的答案):这样的分数可以获得的各种组合的答案,他们的数量等于二项式系数 ( 15 3 ) 。给定一组的n项(问题/答案,n= 15),为每一个kth评分(kth从0到15),均应由组合k确定了正确的答案(组合的总数 C k t h ( n , k ) 等于: n ! k ! ( n - - - - - - k ) ! )。

作为一个第二步,与相关的概率k结合计算,( k k t h 为: p k = j k p j * j ( n - - - - - - k ) ( 1 - - - - - - p j )

——最后,获得的总概率的总分kth得到相关的概率之和超过整个组组合( C k t h ): p k t h = k C k t h p k

对于每个问题,最有可能的结果相比,人类的样本(即。,total score showing the highest occurrence probability) to the total score obtained by ChatGPT. It should be noted that this test accounts for the similarities between humans and ChatGPT global performance on a set of problems不管配对差异/相关相似性能的单一问题集。

2.2.2。Problem-wise人口的解决方案之间的关联率和ChatGPT性能

之间可能的答案组合导致总分等于ChatGPT获得的,这些对应ChatGPT答案组合被确定,随后相比,所有其他的答案模式导致的发生概率相同的总分。这个过程是应用这两个问题。

2.2.3。可能结果的概率分布和人口的解决方案之间的关联率和ChatGPT性能汇集数据集

相同的分析则由凑两个问题集。这个选择是出于实用的通用视图的ChatGPT人口的性能相比,独立问题的类型及相关解决方案的策略。适合的池在基于问题的数量平衡在两套(15)的问题。

3所示。结果

ChatGPT实践和传输的性能问题所示表1,2,分别。每个表显示问题分配给ChatGPT以及适当的解决方案(正确答案),ChatGPT答案,获得的分数(答案准确性)和解决方案的人类样本。

ChatGPT随后的表现和个人(样品相比,n= 20)两方面的问题。

ChatGPT七个问题回答正确的十五的实践问题,5个15的情况转移问题:between-set ChatGPT性能差异不显著(费舍尔准确的测试,p< 0.72,看补充材料2)。人类样品溶液率分别为0.55 (0.23 - -0.64)实践集,和0.35 (0.30 - -0.40)转移集。而高速度的解决方案是前设置为与后者相比,between-set差异不显著(Wilcoxon等级和测试中,z = 1.29,p< 0.20,看补充材料3)。

值得注意的是,两组的问题,ChatGPT性能(即。,number of correct answers) was equal to the total score of the human sample showing the highest occurrence probability, as clearly apparen from图3一,B

图3
www.雷竞技rebatfrontiersin.org

图3。人类样本结果概率:为每个可能的总分(即结果的概率。、正确的答案数量范围0-15)提出的实践(一),转移(B)和混合集(C),实践+转移问题)。在每一个情节,结果概率最高的黑色突出显示。值得注意的是,总分最高的概率等于ChatGPT的性能为每组问题和混合集。

对于每一个问题集,所有答案组合导致总ChatGPT分数被确定(见数字4,B)及其对人类的出现概率估计(见样例图3一,B)。对于每一个集合,ChatGPT的合奏的组合包括:

图4
www.雷竞技rebatfrontiersin.org

图4。回答模式等于ChatGPT总分:每组的问题,所有可能的答案组合导致获得的分数等于ChatGPT介绍[实践,(一)和转移,(B)]。在每一个矩阵,行和列对应于所有可能的组合的答案。每个矩阵元素识别一个可能的答案在一个组合(黑=正确,白=错误)。相关矩阵集中设置不作为可能的组合的数量超过了86000000,因此图像会被莫名其妙的。

第一组问题(实践问题):[0,0,1,0,0,1,0,1,0,0,1,0,1,1,1]。

第二组问题(转移问题):[1,0,0,0,0,1,0,1,0,0,0,1,1,0,0)。

当你考虑实践问题ChatGPT组合发生概率(p≅1.52 e-04),观察是高于阈值识别5%百分位的组合显示发生概率最高的人类样本(p≅1.50 e-04,明白了图5一个,补充材料),从而表明人类样本之间的关联问题,性能问题和ChatGPT。然而,ChatGPT组合出现的概率转移集(p≅5.01 e-05)接近27日百分位出现的概率分布,从而导致人口(即高不可能解决方案。,没有ChatGPT正确解决的问题之间的联系和人类具有更高的解决方案的示例中,看到的图5 b)。

图5
www.雷竞技rebatfrontiersin.org

图5。分布的回答结合概率均等ChatGPT得分:每组问题的分布概率与所有可能的答案组合导致获得的总分等于ChatGPT提出使用散点图。5日,50th,第95百分位数分布突出显示的黑色水平线,而与答案组合相关的概率等于ChatGPT被黑色的点。注意,为了便于可视化,在每个情节下采样数量的组合和概率给出了使用对数刻度(轴)。(两者)参考,分别实践问题,转移问题,汇集问题集。

3.1。汇集问题集

作为一个进一步的两套问题汇集在一起。这个选择是由以下三个要点:

1。问题的数量平衡在两套(15)的问题。

2。ChatGPT性能没有明显不同,设置的实践获得转移组(费舍尔准确的测试,p< 0.72,看补充材料1)。

3所示。中值的解决方案的实践上的人口组没有明显不同,获得转移组(Wilcoxon排名和测试,z = 1.53,p< 0.13,补充材料2)。

在考虑合并数据集时,ChatGPT性能(即。,number of correct answers = 12), was again equal to the total score of the human population showing the highest occurrence probability (图3一)。ChatGPT组合(p≅7.61 e-09)高于阈值确定的5%百分位模式显示发生概率最高的人类样本(p≅7.35 e-09,明白了图5 c),从而表明人类样本之间的关联问题,性能问题和ChatGPT,包括在考虑整个数据集。

4所示。讨论和结论

在当前的研究中,ChatGPT提供两套语言洞察问题,即一组实践其中一个转移问题(每组组成的15个问题,总共30问题)。比分被分配根据ChatGPT提供的答案的准确性。这项研究的结果显示,全球ChatGPT性能相同的情况下,是明显的图3,一个显示发生概率最高的人类样本:这个发现是一致的实践中,转移和汇集问题集。这些结果表明,ChatGPT表现这两个任务(和集中的任务),完全符合普通人的主题,表明它执行类似于人类。此外,当你考虑实践和集中的问题集,ChatGPT答案的组合发生概率高于阈值识别这些组合的5%百分位(生产同一总分),显示发生概率最高的人类样本。这不是的转移问题集。

无疑在一般条款,llm高度主管建立联系和研究演示了如何连接可用于完成任务这样曾经被认为是不可能的。事实上,llm ChatGPT-3等受过训练神经网络,预测最可能的语言输出(即。根据一定的顺序,单词/句子)。他们作出预测通过识别这个词与最强协会(或概率)。值得注意的是,联想心理学,首先介绍了最早的心理学理论之一(詹姆斯,1890,2007年)减弱流行当其他理论框架的崛起,如行为主义和认知心理学表明,联想心理学不能完全解释人类语言的错综复杂的生产。

这个问题已经引起了广泛的争论在认知科学社区llm是否真的有解决问题的能力,或这样的能力问题的深刻理解的结果。在这种背景下,我们的研究结果表明llm的可能性可以采用联想心理学,从而大大减少复杂的联想的模型无法执行的任务。一些llm ChatGPT-3一样,能够完成任务的平均人类能力当然是先进的关联方。从这个角度来看,这种质疑这可能导致认知心理学理论排除联想心理学。,注意这个概念也突出了预印的一篇论文Loconte et al。(2023)

因此明显,会员的数量的任务无法解决逐渐减少,未来的研究将确定极限,不能再推llm变得更加能干。

尽管这项研究揭示了“行为”ChatGPT在处理语言的问题,提出了一些限制:(i)样本的大小代表人类(n= 20)ChatGPT相比,是相对较小,因此,需要额外的测试来验证结果在此提出;(2)的研究调查了性能ChatGPT只使用一个版本的模型。从这个角度看,这将是有益的复制当前的研究最近和/或高级版本的模型,以验证是否有改善;(3)最后,这项研究只在口头检查ChatGPT性能了解问题;这将是完全感兴趣的调查模型如何执行其他类型的问题或任务。

总之,尽管这项研究提供了一些证据表明口头洞察力ChatGPT性能问题,类似于普通人类的主题,重要的是要认识到它的局限性和继续探索潜力,在将来的研究中模型的局限性。进行进一步的研究可能会为了扩大本研究提出的方法和结果,允许更全面了解ChatGPT和其他llm的能力和局限性。

数据可用性声明

数据分析在这项研究中受到以下许可证/限制:在当前的研究中使用的数据集和分析可以从相应的作者在合理的请求。请求访问这些数据集应该指向graziella.orru@unipi.it

作者的贡献

实验:构思,设计实验任务,起草了手稿。去美联社:导致数据采集,数据分析,和写作的最终版本的手稿。作者:所有数据的解释。所有作者修订手稿批判,并最终批准出版的版本。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

补充材料

本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frai.2023.1199350/full补充材料

引用

Ansburg, p . I。,Dominowski, R. I. (2000). Promoting insightful problem solving.j .创造。Behav。34岁,30 - 60。doi: 10.1002 / j.2162-6057.2000.tb01201.x

CrossRef全文|谷歌学术搜索

Bahdanau D。曹,K。,Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate.arXiv预印本arXiv: 1409.0473

谷歌学术搜索

戴尔'Osso, L。,Bazzichi, L., Baroni, S., Falaschi, V., Conversano, C., Carmassi, C., et al. (2015). The inflammatory hypothesis of mood spectrum broadened to fibromyalgia and chronic fatigue syndrome.中国。Exp Rheumatol。33 (1 5。88),S109-S116。

《公共医学图书馆摘要》|谷歌学术搜索

Devlin, J。,Chang, M. W., Lee, K., and Toutanova, K. (2018). Bert: pre-training of deep bidirectional transformers for language understanding.arXiv预印本arXiv:1810.04805。

谷歌学术搜索

费鲁奇R。Mameli F。,Ruggiero, F., Reitano, M., Miccoli, M., Gemignani, A., et al. (2022). Alternate fluency in Parkinson's disease: a machine learning analysis.《公共科学图书馆•综合》17日,e0265803。doi: 10.1371 / journal.pone.0265803

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

詹姆斯,w (1890)。心理学的原则体积由威廉·詹姆斯二世。布里斯托尔:Thoemmes出版社。10538 - 000 . doi: 10.1037 /

CrossRef全文|谷歌学术搜索

詹姆斯,w (2007)。心理学的原则。西有限公司

谷歌学术搜索

卡尼曼,d . (2011)。思考,快和慢。麦克米伦。

谷歌学术搜索

勒,问:V。,Jaitly, N., and Hinton, G. E. (2015). A simple way to initialize recurrent networks of rectified linear units.arXiv预印本arXiv: 1504.00941

谷歌学术搜索

李。,Li, W., Cook, C., Zhu, C., and Gao, Y. (2018). “Independently recurrent neural network (indrnn): building a longer and deeper rnn,” in《IEEE计算机视觉与模式识别会议(盐湖城犹他:IEEE), 5457 - 5466。doi: 10.1109 / CVPR.2018.00572

CrossRef全文|谷歌学术搜索

Loconte, R。Orru, G。,Tribastone, M., Pietrini, P., and Sartori, G. (2023).挑战ChatGPT“情报”与人类工具:前额叶功能的神经心理学调查一个很大的语言模型。网上:https://ssrn.com/abstract=4377371(2023年3月20日访问)。

谷歌学术搜索

Mayer, r . e . (1992)。认知思维、解决问题的能力。WH弗里曼/时代图书/亨利·霍尔特和有限公司

谷歌学术搜索

Mayer, r E。,Wittrock, M. C. (2006). “Problem solving,” in教育心理学手册eds p·a·亚历山大和p h·温内(Mahwah,新泽西:Erlbaum), 287 - 303。

谷歌学术搜索

马扎,C。,Monaro, M., Orrù, G., Burla, F., Colasanti, M., Ferracuti, S., et al. (2019). Introducing machine learning to detect personality faking-good in a male sample: a new model based on Minnesota multiphasic personality inventory-2 restructured form scales and reaction times.前面。精神病学10日,389年。doi: 10.3389 / fpsyt.2019.00389

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

纽厄尔,。,Simon, H. A. (1972).人类解决问题(卷104,9号)。恩格尔伍德悬崖,台北:新世纪。

谷歌学术搜索

Orru G。,Conversano, C., Ciacchini, R., and Gemignani, A. (2021). A brief overview on the contribution of machine learning in systems neuroscience.咕咕叫。精神病学研究》启以前咕咕叫。精神病学牧师。17日,66 - 71。doi: 10.2174 / 2666082217666210913101627

CrossRef全文|谷歌学术搜索

Orru G。,Gemignani, A., Ciacchini, R., Bazzichi, L., and Conversano, C. (2020a). Machine learning increases diagnosticity in psychometric evaluation of alexithymia in fibromyalgia.前面。地中海。6、319。doi: 10.3389 / fmed.2019.00319

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Orru G。,Monaro, M., Conversano, C., Gemignani, A., and Sartori, G. (2020b). Machine learning in psychometrics and psychological research.前面。Psychol。10日,2970年。doi: 10.3389 / fpsyg.2019.02970

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Orru G。,Pettersson-Yeo, W., Marquand, A. F., Sartori, G., and Mechelli, A. (2012). Using support vector machine to identify imaging biomarkers of neurological and psychiatric disease: a critical review.>。Biobehav。牧师。36岁,1140 - 1152。doi: 10.1016 / j.neubiorev.2012.01.004

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

速度,G。,Orru G。,Monaro, M., Gnoato, F., Vitaliani, R., Boone, K. B., et al. (2019). Malingering detection of cognitive impairment with the B test is boosted using machine learning.前面。Psychol。10日,1650年。doi: 10.3389 / fpsyg.2019.01650

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

帕瑞克豪,一个。,Täckström, O., Das, D., and Uszkoreit, J. (2016). “A decomposable attention model,” in学报2016年大会在自然语言处理的经验方法(奥斯汀,得克萨斯州:计算语言学协会),2249 - 2255。

谷歌学术搜索

彼得罗夫,S。,Barrett, L., Thibaux, R., and Klein, D. (2016). “Learning accurate, compact, and interpretable tree annotation,” in21国际会议的程序计算语言学和ACL的第44届年会(ACL), 433 - 440。

谷歌学术搜索

聚,g (2004)。如何解决它:一个新的方面的数学方法(246号)。普林斯顿大学出版社。

谷歌学术搜索

Sartori G。,Zangrossi, A., Orrù, G., and Monaro, M. (2017). “Detection of malingering in psychic damage ascertainment,” inP5医学和正义:创新、Unitariness和证据(Springer), 330 - 341。doi: 10.1007 / 978 - 3 - 319 - 67092 - 8 - _21

CrossRef全文|谷歌学术搜索

Sutskever,我。Vinyals, O。,勒,问:V。(2014). Sequence to sequence learning with neural networks.放置神经通知。的过程。系统。27日,1 - 9。

谷歌学术搜索

Vaswani)。,Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). Attention is all you need.放置神经通知。的过程。系统。1 - 11。

谷歌学术搜索

沃拉斯,g (1926)。思想的艺术(10卷)。哈考特,撑。

谷歌学术搜索

关键词:NLP ChatGPT,机器学习,解决问题,人工智能,人工智能

引用:Orru G, Piarulli A, C和Gemignani Conversano(2023)使用ChatGPT人形在大型语言模型解决问题的能力。前面。Artif。智能。6:1199350。doi: 10.3389 / frai.2023.1199350

收到:2023年4月06;接受:09年5月2023;
发表:2023年5月24日。

编辑:

克里斯托Troussas西阿提卡大学希腊

审核:

旧金山的安东尼奥·卡斯蒂略墨西哥,理工大学的地方
隆Kuremoto,日本技术研究所、日本

版权©2023 Orru、Piarulli Conversano Gemignani。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:格拉茨Orru,graziella.orru@unipi.it

下载