【大纪元2024年08月24日讯】(大纪元记者楚方明多伦多报导)人们好像觉得生成式人工智能的发展快极了,但安省伦敦西安大略大学研究人员的最新研究显示,聊天机器人在提供准确的医疗信息方面,还存在很多不足。
这项同行评议的研究于7月底发表在《公共科学图书馆综合》(PLOS One)杂志上,旨在调查ChatGPT在医学教育中的诊断准确性和实用性。
ChatGPT由OpenAI开发,它使用一个大型语言模型,该模型是根据从互联网上收集的大量数据训练而成,可以快速生成会话文本,回答用户的询问。
西安大略大学儿科学助理教授、该研究的首席研究员阿姆里特·基尔帕拉尼(Amrit Kirpalani)说:“这种东西无处不在。”
“我们已经看到,用它通过了执照考试,用ChatGPT通过了医学院入学考试(MCAT)。”他说,“我们想知道,它如何处理更复杂的病例,那些我们在医学上看到的复杂病例,以及它如何使其答案合理化?”
在这项研究中,ChatGPT给出了150个复杂的临床病例,并被提示在多项选择中选择正确的诊断,然后提供一个解释,说明它是如何得到答案的。
基尔帕拉尼说,在49%的情况下,它给出的答案正确。研究人员发现,不管答案是对是错,它都善于简化解释,让人相信它的答案。
“它可以被用作一种工具,但我认为,它必须被用作正确的工具。在这一点上,它不应该被用于医疗建议。”他说,他承认,它可能在其它方面被证明是有用的。
“事实上,它非常擅长用非常简单的方式解释事情,我们可以利用它进行教育。如果我们适当的培训它,并对它所说的话进行监督,它几乎可以像一个私人导师吗?”
这项研究是在2023年使用ChatGPT和GPT-3.5大语言模型进行的,该模型后来被GPT-4和GPT-40所取代。目前尚不清楚如果使用这些模型,ChatGPT的回答是否会更准确。
伦敦人威尔·蒂尔曼(Will Tillmann)是数百万试用过ChatGPT的人之一,他说,他发现它在重写段落和起草工作邮件方面很有用,“但我认为,持怀疑态度可能很重要”。
他想知道,如果允许特定领域的专家,比如医学专家,来验证ChatGPT提供的信息,是否有助于改进它,使它更准确。
基尔帕拉尼说,他的研究结果表明,需要更广泛的人工智能知识,让公众了解人工智能的好处和缺陷。
自从ChatGPT于2022年底推出以来,人们一直担心它的准确性和错误信息,就像谷歌的Gemini和X的Grok等类似的聊天机器人一样,它们也使用大型语言模型。
今年早些时候,哥伦比亚大学的一个研究小组进行的测试证实了这些担忧。
五种大型语言模型,包括GPT-4、Gemini和Meta的Llama 2,给出与美国初选相关的回答。参与者认为聊天机器人给出的回答中有一半以上错误,40%被归类为有害和不准确的。
今年5月,OpenAI表示,正在更新ChatGPT,以便将用户引导到官方来源获取选民信息。
责任编辑:文芳#