史上AI最高分,谷歌大模型创美国医师执照试题新纪录,科学常识水平媲美人类财经

来源:IT之家   作者:李陈默   发布时间:2022-12-28 14:17   阅读量:17088   
AI有史以来最高分,谷歌新模式刚刚通过美国医师执照的测试! 而且在科学常识,理解,检索,推理能力等任务上,直接堪比人类医生的水平在一些临床问答中,最高超过原来的SOTA模型17%以上 这一进展一出,瞬间点燃学界争论,...
 

AI有史以来最高分,谷歌新模式刚刚通过美国医师执照的测试!

而且在科学常识,理解,检索,推理能力等任务上,直接堪比人类医生的水平在一些临床问答中,最高超过原来的SOTA模型17%以上

这一进展一出,瞬间点燃学界争论,不少业内人士感叹:终于来了。

看了Med—PaLM和人类医生的对比,广大网友表示已经在期待AI医生的任命了。

还有人嘲讽这个时间点的准确性,就像所有人都认为Google会因为ChatGPT而消亡一样。

让我们看看这是什么样的研究。

史上最高AI分

由于医疗的专业性,今天的AI模型并没有充分利用这个领域的语言这些模型虽然有用,但都存在侧重于单任务系统,缺乏表现力和交互能力等问题

模式的突破为AI+医疗带来了新的可能,但由于这一领域的特殊性,还是要考虑潜在的危害,比如提供虚假的医疗信息。

基于这一背景,Google研究院和DeepMind团队以医学问答为研究对象,做出了以下贡献:

提出了一种医学问答基准MultiMedQA,包括医学检查,医学研究和消费者医学问题。

棕榈和微调变体Flan—PaLM,在MultiMedQA上进行评估,

提出提示X调整的指令,使Flan—PaLM与医学进一步结合,产生Med—PaLM。

他们认为回答医学问题的任务非常具有挑战性,因为要提供高质量的答案,AI需要了解医学背景,回忆适当的医学知识,并对专家信息进行推理。

现有的评价标准往往局限于评价分类准确率或自然语言产出指标,而无法在实际临床应用中进行详细分析。

首先,该团队提出了一个由七个医学问答数据集组成的基准。

包括MedQA在内的六个现有数据集,并引入了他们自己的新数据集HealthSearchQA,由搜索到的健康问题组成。

有体检,有医学研究,有消费医学问题。

然后,研究小组用MultiMedQA评估了PaLM,用微调指令评估了变体Flan—PaLM例如,通过扩展任务数量,模型大小和使用思想链数据的策略

FLAN是谷歌研究院去年提出的微调语言网络对模型进行微调,使其更适合一般的NLP任务,并使用指令调整来训练模型

在MedQA,MedMCQA,PubMedQA和MMLU等几个基准测试中,Flan—PaLM取得了最好的性能尤其是MedQA数据集,其性能超过之前的SOTA模型17%以上

在这项研究中,考虑了三种不同大小的手掌和侧掌模型:80亿个参数,620亿个参数和5400亿个参数。

但是Flan—PaLM还是有一定的局限性,在处理消费者医疗问题上表现不佳。

为了解决这个问题,让Flan—PaLM更适用于医疗领域,他们调整了指令提示,从而产生了Med—PaLM模型。

举例:新生儿黄疸多久会消失。

首先,团队从MultiMedQA自由回答数据集中随机选取了一些例子。

然后让五位临床医生提供一个示范性的答案这些临床医生分布在美国和英国,具有初级保健,外科,内科和儿科的专业经验最后,在HealthSearchQA,MedicationQA和LiveQA中留下了40个例子,用于指令提示调优训练

多重任务接近人类医生的水平

为了验证Med—PaLM的最终效果,研究人员从上面提到的MultiMedQA中抽取了140个消费者医疗问题。

其中100个来自HealthSearchQA数据集,20个来自LiveQA数据集,20个来自MedicationQA数据集。

值得一提的是,这还不包括原本用来指示调整生成Med—PaLM的问题。

他们让Flan—PaLM和Med—PaLM分别生成这140个问题的答案,并邀请了一组专业的临床医生来回答。

耳痛可能是几种潜在疾病的征兆,包括:中耳感染,外耳感染和耳垢嵌塞这也可能是更严重疾病的迹象,如脑瘤或中风

如果耳朵疼得厉害,持续几天以上,或伴有其他耳朵疼的症状,如头晕,发热,面部无力或麻木,就要去看医生进行评估医生可以确定疼痛的原因,并提供适当的治疗

就这样,研究人员匿名将三组答案交给了来自美国,英国和印度的9名临床医生进行评估。

结果显示,就科学常识而言,Med—PaLM和人类医生的正确率超过92%,而Flan—PaLM的相应数字为61.9%。

综合来看,Med—PaLM在理解,检索,推理方面几乎达到了人类医生的水平,两者相差无几,而Flan—PaLM也是垫底。

在答案的完整性方面,虽然Flan—PaLM的答案被认为遗漏了47.2%的重要信息,但Med—PaLM的答案有了明显的改善,只有15.1%的答案被认为遗漏了信息,进一步拉近了与人类医生的距离。

可是,虽然遗漏的信息较少,但较长的答案也意味着会增加引入不正确内容的风险Med—PaLM的回答中内容不正确的比例达到了18.7%,是三者中最高的

考虑到答案的可能危害性,29.7%的Flan—PaLM答案被认为具有潜在危害性,Med—PaLM的这个数字已经降到了5.9%,最低的是人类医生的5.7%。

此外,在医学人口统计学偏见方面,Med—PaLM优于人类医生,只有0.8%的Med—PaLM答案有偏见,而人类医生为1.4%,Flan—PaLM为7.9%。

最后,研究者还邀请了五位非专业用户来评估这三组答案的实用性Flan—PaLM的回答中只有60.6%的人认为有帮助,Med—PaLM的人数增加到80.3%,人类医生的最高人数为91.1%

综合以上所有评价,可以看出指令提示调整对提升性能有显著作用在140个消费医疗问题中,Med—PaLM的表现几乎赶上了人类医生的水平

在队伍后面

本文的研究团队来自Google和DeepMind。

Google Health在去年被曝出大规模裁员和重组后,可以说是他们在医疗领域推出的一部伟大杰作。

连Google AI的掌门人Jeff Dean都出来站台,强烈推荐!

有业内人士看后也称赞道:

临床知识是一个复杂的领域,往往没有明显的正确答案,需要与患者进行对话。

谷歌DeepMind的这个新模型是LLM的完美应用。

值得一提的是,另一个团队前段时间刚刚通过了美国医师执照考试。

展望未来,今年出现了一波大模特,如PubMed GPT,DRAGON和Meta的Galactica,这些模特在专业考试中一再刷新纪录。

AI在医疗上如此宏大,很难想象它去年曾经失败过那个时候,谷歌与医疗AI相关的创新业务从来没有做过

去年6月,一度被美媒BI曝光,陷入多次危机,不得不大规模裁员重组2018年11月,谷歌健康部门刚成立的时候,可以用风光无限来形容

不仅是谷歌,其他知名科技公司的医疗AI业务都经历过重组和收购。

看了Google DeepMind发布的这个大医疗模型,你看好医疗AI的发展吗。

论文地址:

参考链接:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

1
联系我们