这项研究发表在《美国医学会肿瘤学杂志》上,研究人员向 ChatGPT 提出了各种癌症病例的治疗方案,结果发现三分之一的回答中包含了不正确的信息。研究还指出,ChatGPT 倾向于将正确和错误的信息混合在一起,因此很难识别哪些信息是准确的。
该研究的合著者 Danielle Bitterman 博士称,他们“对错误信息与正确信息混合在一起的程度感到震惊,这使得即使是专家也很难发现错误。”她补充说,“大型语言模型经过训练可以提供听起来非常有说服力的回答,但它们并不是为了提供准确的医疗建议而设计的。错误率和回答的不稳定性是临床领域需要解决的关键安全问题。”
ChatGPT 于 2022 年 11 月推出后一夜成名,两个月后就达到了 1 亿活跃用户。尽管 ChatGPT 取得了成功,但生成型人工智能模型仍然容易出现“幻觉”,即自信地给出误导性或完全错误的信息。
IT之家注意到,将人工智能融入医疗领域的努力已经在进行中,主要是为了简化管理任务。本月早些时候,一项重大研究发现,使用人工智能筛查乳腺癌是安全的,并且可能将放射科医生的工作量减少近一半。哈佛大学的一位计算机科学家最近发现,最新版本的模型 GPT-4 可以轻松通过美国医学执照答案,并暗示它比一些医生具有更好的临床判断力。
尽管如此,由于 ChatGPT 等生成型模型存在准确性问题,它们不太可能在近期取代医生。《美国医学会肿瘤学杂志》上的研究发现,ChatGPT 的回答中有 12.5% 是“幻觉”,并且在被问及晚期疾病的局部治疗或免疫疗法时,最有可能给出错误的信息。
OpenAI 已经承认 ChatGPT 可能不可靠,该公司的使用条款警告说,他们的模型并非旨在提供医疗信息,也不应该用于“为严重的医疗状况提供诊断或治疗服务”。