1. 视网膜VLM诊断的现状与挑战
作为一名长期从事医疗AI研发的工程师,我见证了视觉语言模型(VLM)在医学影像领域的快速发展。特别是在眼科诊断中,VLM通过同时处理眼底图像和临床文本,理论上能够实现接近专家水平的自动化诊断。但在实际部署时,我们发现现有系统存在两个致命缺陷:
首先是 感知缺陷 ——通用视觉编码器在自然图像(如ImageNet)上预训练的特征提取器,对眼底图像中的微血管病变(如糖尿病视网膜病变的微动脉瘤)几乎"视而不见"。这就像用普通放大镜观察细胞结构,分辨率根本不够。我们做过测试:当病变区域小于图像面积的0.3%时,传统VLM的检测准确率会骤降至随机猜测水平。
更严重的是 推理缺陷 ——在12层以上的Transformer中,稀疏的视觉信号会被语言先验完全覆盖。想象一个医生只看了一眼检查报告就下诊断,后续全凭经验猜测。我们的实验显示,在标准VLM架构中,超过85%的最终诊断决策完全依赖文本先验,与输入图像无关。这导致两个危险结果:将健康人误诊为患者(假阳性),或更糟——漏诊实际存在的病变(假阴性)。
2. EyExIn框架的核心设计理念
2.1 双流编码架构:解剖与病理的分离式感知
传统方案试图通过微调(fine-tuning)让单一编码器兼顾全局解剖结构和局部病变,这在数据有限(通常<10万张标注图像)的医疗场景注定失败。EyExIn的创新在于 专家感知双流编码 :
-
通用流 :冻结的Qwen2.5-VL视觉编码器,专注宏观解剖结构
- 优势:保留视盘颜色、血管走向等整体特征
- 输出:F_gen ∈ R^(N×D_llm) (N个视觉token,维度D_llm)
-
专家流 :预训练的视网膜专用编码器
- 关键:使用对比

1087

被折叠的 条评论
为什么被折叠?



