bob专攻罕见病的医生在学习过程中能够获得的机会很少。缺乏多样化的医疗保健数据来培训学生是这些领域的一个关键挑战。
“当你在一个数据稀少的环境中工作时,你的表现与经验相关——你看到的图像越多,你就变得越好”,胸部放射科医生、斯坦福医学与成像人工智能中心(AIMI)博士后研究员Christian Bluethgen说,他在过去七年中一直研究肺部罕见病。
当Stability AI在8月向公众发布了文本到图像的基础模型Stability Diffusion时,Bluethgen有了一个想法:如果能将医学上的真实需求与根据简单的文字提示创造美丽的图像的便利性结合起来,会怎么样?如果稳定扩散(Stable Diffusion)可以创建准确描述临床语境的医学图像,那么它可以缓解训练数据的差距。
Bluethgen与斯坦福大学计算、数学工程与机器学习研究所(ML)研究员Pierre Chambon合作,设计了一项研究,旨在扩大稳定扩散(StableDiffusion)的能力,以生成最常见的医学图像——胸部X射线。
他们发现,通过一些额外的训练,通用的潜在扩散模型在创建具有可识别异常的人类肺部图像的任务中表现得出奇的好。这是一个有希望的突破,它可能会导致更广泛的研究,更好地了解罕见病,甚至可能开发新的治疗方案。
到目前为止,用自然图像和语言训练的基础模型在执行特定领域的任务时表现不佳。医学和金融等专业领域都有自己的术语和规则,这些在一般的培训数据集中是不被考虑的。但该团队的研究有一个优势:放射科医生总是准备一份详细的文本报告,bob描述他们分析的每张图像的发现。通过将这些训练数据添加到他们的稳定扩散模型(Stable Diffusion model)中,团队希望该模型能够学会在提示相关医学关键词时创建合成医学图像数据。
Chambon说:“我们不是第一个训练胸部X射线模型的人,但以前你必须使用专用数据集,并为计算能力付出高昂的代价。”“这些障碍阻碍了许多重要的研究。我们想看看是否可以引导这种方法,bob只需稍加调整就可以使用现有的开源基础模型。”
3.U-Net(一种卷积网络结构),它作为潜在空间中图像生成过程(被称为扩散)的大脑。
研究人员创建了一个数据集来研究图像自编码器和文本编码器组件。他们从两个大型公共数据集中随机选择了1000张额叶X光片,分别命名为CheXpert和MIMIC-CXR。随后,他们添加了五张手动选择的正常胸部X光照片和五张清晰可见的异常图像(在这种情况下,组织之间的液体积聚,称为胸腔积液)。bob
这些图像与一组简单的文本提示配对,用于测试各种微调组件的方法。最后,他们从LAION-400M开放数据集(为模型训练和研究目的而设计的一组大规模、未经整理的图像-文本对集)中抽取了100万个普通文本提示样本。
文本编码器:使用CLIP,一个来自OpenAI的连接文本和图像的通用域神经网络,bob当给出像“胸腔积液”这样的放射学领域特有的文本提示时,该模型能否产生有意义的结果?答案是肯定的——文本编码器本身为U-Net提供了足够的语境,以创建医学上准确的图像。
VAE:在自然图像上训练的稳定扩散自编码器能否在未压缩后成功呈现出医学图像?答案也是肯定的。“原始图像中的一些注释被打乱了”,Bluethgen说,“所以它并不完美,但采用第一原则的方法,我们决定将其作为未来探索的一个机会。”
U-Net:考虑到其他两个组件的即时可用功能,U-Net能否根据提示创建解剖学上正确的图像,并正确表示出异常集合?在这种情况下,Bluethgen和Chambon得出结论,bob需要进行额外的微调。“第一次尝试时,最初的U-Net不知道如何生成医学图像。”“但通过一些额外的训练,我们能够获得一些有用的东西。”
在对提示进行实验并使用定量质量度量(quality metrics)和放射科医生主导的定性评估对他们的工作进行基准测试之后,学者们发现,表现最好的模型可以被训练出在合成放射学图像上插入一个看起来真实的异常情况,同时经过训练以根据异常对图像进行分类的深度学习模型能够保持95%的准确性。
在后续工作中,Chambon和Bluethgen利用数万张胸部X光片和相应的报告,加大了训练力度。11月23日宣布的最终模型(名为RoentGen,Roentgen和Generator的组合)能够以更高保真度和更多多样性创建CXR图像,并通过自然语言文本提示对图像特征进行更精细的控制。
虽然这项工作建立在先前研究的基础上,但它是第一个研究胸部成像的潜在扩散模型,也是第一个探索用于生成医学图像的新的稳定扩散模型。诚然,随着该团队对该方法的反思,一些局限性浮出水面:
衡量生成图像的临床准确性是困难的,因为标准度量不能捕捉图像的有用性,因此研究人员增加了一名训练有素的放射科医生进行定性评估。
他们发现由微调模型生成的图像缺乏多样性。这是由于用于调节和训练该领域的U-Net的样本数量相对较少。
最后,用于进一步培训U-Net的放射学用例的文本提示是为研究创建的简化词,而不是从实际放射科医生报告中逐字记录下来的。Bluethgen和Chambon指出,未来的模型需要用整个或部分放射学报告来进行训练。
此外,即使有一天这个模型运行得很好,也不清楚医学研究人员是否可以合法使用它。稳定扩散(Stable Diffusion)的开源许可协议目前阻止用户生成用于医疗建议或医疗结果解释的图像。
尽管目前存在局限性,Bluethgen和Chambon表示,他们对第一阶段研究中能够生成的图像感到惊讶。
Bluethgen说:“在任何情况下,输入文字提示并以高质量图像的形式返回你写下的任何内容是一项令人难以置信的发明。”“看到肺部X射线图像被重建得如此之好,真是令人震惊。它们是真实的,而不是卡通化的。”
接下来,该团队计划探索强大的潜在扩散模型如何学习更广泛的异常,他们开始在一张图像中组合多个异常,并最终将研究扩展到X射线和不同身体部位之外的其他类型的成像。
“这项研究有很大的潜力”,Chambon总结道。“有了更好的医学数据集,我们也许能够理解现代疾病,并以最佳方式治疗患者。”
访问手机版
微信公众号