ONNX 模型库
返回模型

说明文档

MedGemma 模型卡片

模型文档: MedGemma

资源:

作者: Google

模型信息

本节介绍 MedGemma 模型及其使用方法。

描述

MedGemma 是一组针对医学文本和图像理解性能进行训练的 Gemma 3 变体集合。开发者可以使用 MedGemma 加速构建基于医疗保健的 AI 应用程序。MedGemma 目前有两种变体:一个 4B 多模态版本和一个 27B 纯文本版本。

MedGemma 4B 使用了一个 SigLIP 图像编码器,该编码器专门在各种去标识化的医学数据上进行了预训练,包括胸部 X 光片、皮肤病学图像、眼科图像和组织病理学切片。其 LLM 组件在多样化的医学数据上进行了训练,包括放射学图像、组织病理学切片、眼科图像和皮肤病学图像。

MedGemma 4B 提供预训练版本(后缀:-pt)和指令微调版本(后缀 -it)。指令微调版本是大多数应用程序更好的起点。预训练版本适用于那些希望对模型进行更深入实验的用户。

MedGemma 27B 专门在医学文本上进行了训练,并针对推理时计算进行了优化。MedGemma 27B 仅作为指令微调模型提供。

MedGemma 变体已在一系列临床相关基准上进行了评估,以展示其基线性能。这些基准包括开放基准数据集和精选数据集。开发者可以微调 MedGemma 变体以提高性能。有关更多详细信息,请参阅下面的预期用途部分。

完整的技术报告即将发布。

如何使用

以下是一些示例代码片段,可帮助您快速开始在本地 GPU 上运行模型。如果您想大规模使用该模型,我们建议您使用 Model Garden 创建生产版本。

首先,安装 Transformers 库。Gemma 3 从 transformers 4.50.0 开始支持。

$ pip install -U transformers

使用 pipeline API 运行模型

from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
    \"image-text-to-text\",
    model=\"google/medgemma-4b-pt\",
    torch_dtype=torch.bfloat16,
    device=\"cuda\",
)
# 图像来源:Stillwaterising, CC0, via Wikimedia Commons
image_url = \"https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png\"
image = Image.open(requests.get(image_url, headers={\"User-Agent\": \"example\"}, stream=True).raw)
output = pipe(
    images=image,
    text=\"<start_of_image> findings:\",
    max_new_tokens=100,
)
print(output[0][\"generated_text\"])

直接运行模型

# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = \"google/medgemma-4b-pt\"
model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map=\"auto\",
)
processor = AutoProcessor.from_pretrained(model_id)
# 图像来源:Stillwaterising, CC0, via Wikimedia Commons
image_url = \"https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png\"
image = Image.open(
    requests.get(image_url, headers={\"User-Agent\": \"example\"}, stream=True).raw
).convert(\"RGB\")
prompt = \"<start_of_image> findings:\"
inputs = processor(
    text=prompt, images=image, return_tensors=\"pt\"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs[\"input_ids\"].shape[-1]
with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

示例

请参阅以下 Colab notebooks 以获取使用 MedGemma 的示例:

模型架构概述

MedGemma 模型基于 Gemma 3 构建,并使用与 Gemma 3 相同的仅解码器 transformer 架构。要了解更多关于该架构的信息,请参阅 Gemma 3 模型卡片

技术规格

  • 模型类型:仅解码器 Transformer 架构,请参阅 Gemma 3 技术报告
  • 模态4B:文本、视觉;27B:仅文本
  • 注意力机制:使用分组查询注意力 (GQA)
  • 上下文长度:支持长上下文,至少 128K 个 token
  • 关键出版物:即将发布
  • 模型创建时间:2025 年 5 月 20 日
  • 模型版本:1.0.0

引用

技术报告即将发布。在此期间,如果您使用此模型发表文章,请引用 Hugging Face 模型页面:

@misc{medgemma-hf,
    author = {Google},
    title = {MedGemma Hugging Face}
    howpublished = {\url{https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4}},
    year = {2025},
    note = {Accessed: [Insert Date Accessed, e.g., 2025-05-20]}
}

输入和输出

输入

  • 文本字符串,例如问题或提示
  • 图像,归一化为 896 x 896 分辨率,每张编码为 256 个 token
  • 总输入长度为 128K 个 token

输出

  • 针对输入生成的文本,例如问题的答案、图像内容分析或文档摘要
  • 总输出长度为 8192 个 token

性能和验证

MedGemma 在各种不同的多模态分类、报告生成、视觉问答和基于文本的任务上进行了评估。

关键性能指标

影像评估

MedGemma 4B 的多模态性能在一系列基准上进行了评估,重点关注放射学、皮肤病学、组织病理学、眼科和多模态临床推理。

MedGemma 4B 在所有测试的多模态健康基准上都优于基础 Gemma 3 4B 模型。

任务和指标 MedGemma 4B Gemma 3 4B
医学图像分类
MIMIC CXR - 前 5 种病症的平均 F1 88.9 81.1
CheXpert CXR - 前 5 种病症的平均 F1 48.1 31.2
DermMCQA* - 准确率 71.8 42.6
视觉问答
SlakeVQA (放射学) - Tokenized F1 62.3 38.6
VQA-Rad** (放射学) - Tokenized F1 49.9 38.6
PathMCQA (组织病理学, 内部***) - 准确率 69.8 37.1
知识和推理
MedXpertQA (文本 + 多模态问题) - 准确率 18.8 16.4

*在 Liu (2020, Nature medicine) 中描述,作为每个皮肤病症分类示例的 4 选 1 多项选择题呈现。

**基于 "balanced split",在 Yang (2024, arXiv) 中描述。

***基于多个数据集,作为每个示例 3-9 选 1 多项选择题呈现,用于乳腺癌、宫颈癌和前列腺癌的识别、分级和亚型分类。

胸部 X 光报告生成

MedGemma 胸部 X 光 (CXR) 报告生成性能在 MIMIC-CXR 上使用 RadGraph F1 指标 进行了评估。我们将 MedGemma 预训练检查点与我们之前用于 CXR 报告生成的最佳模型 PaliGemma 2 进行了比较。

指标 MedGemma 4B (预训练) PaliGemma 2 3B (针对 CXR 微调) PaliGemma 2 10B (针对 CXR 微调)
胸部 X 光报告生成
MIMIC CXR - RadGraph F1 29.5 28.8 29.5

MedGemma 4B 和 Gemma 3 4B 的指令微调版本获得了较低的分数(分别为 0.22 和 0.12),这是因为与 MIMIC 真实报告相比,报告风格存在差异。在 MIMIC 报告上进行进一步的微调将使用户能够获得更好的性能。

文本评估

MedGemma 4B 和纯文本 MedGemma 27B 在一系列纯文本基准上进行了医学知识和推理评估。

MedGemma 模型在所有测试的纯文本健康基准上都优于各自的基础 Gemma 模型。

指标 MedGemma 27B Gemma 3 27B MedGemma 4B Gemma 3 4B
MedQA (4-op) 89.8 (best-of-5) 87.7 (0-shot) 74.9 64.4 50.7
MedMCQA 74.2 62.6 55.7 45.4
PubMedQA 76.8 73.4 73.4 68.4
MMLU Med (仅文本) 87.0 83.3 70.0 67.2
MedXpertQA (仅文本) 26.7 15.7 14.2 11.6
AfriMed-QA 84.0 72.0 52.0 48.0

对于所有 MedGemma 27B 结果,使用 测试时扩展 来提高性能。

伦理和安全评估

评估方法

我们的评估方法包括结构化评估和针对相关内容政策的内部红队测试。红队测试由多个不同的团队进行,每个团队都有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行了评估,包括:

  • 儿童安全:评估涵盖儿童安全政策的文本到文本和图像到文本提示,包括儿童性虐待和剥削。
  • 内容安全:评估涵盖安全政策的文本到文本和图像到文本提示,包括骚扰、暴力和血腥以及仇恨言论。
  • 代表性伤害:评估涵盖安全政策的文本到文本和图像到文本提示,包括偏见、刻板印象以及有害关联或不准确之处。
  • 一般医疗伤害:评估涵盖安全政策的文本到文本和图像到文本提示,包括信息质量和有害关联或不准确之处。

除了开发级别的评估外,我们还进行 "保证评估",这是我们用于责任治理决策的 "独立" 内部评估。它们与模型开发团队分开进行,以告知有关发布的决策。高级别发现会反馈给模型团队,但提示集被保留以防止过拟合,并保留结果通知决策的能力。值得注意的保证评估结果会作为发布审查的一部分报告给我们的责任与安全委员会。

评估结果

在所有安全测试领域,我们在儿童安全、内容安全和代表性伤害类别中看到了安全水平的性能。所有测试都是在没有安全过滤器的情况下进行的,以评估模型的能力和行为。对于文本到文本、图像到文本和音频到文本,以及两种 MedGemma 模型大小,模型产生的政策违规极少。我们评估的一个局限性是它们主要包括英语提示。

数据卡片

数据集概述

训练

基础 Gemma 模型在大型文本和代码数据语料库上进行了预训练。MedGemma 4B 使用了一个 SigLIP 图像编码器,该编码器专门在各种去标识化的医学数据上进行了预训练,包括放射学图像、组织病理学图像、眼科图像和皮肤病学图像。其 LLM 组件在多样化的医学数据上进行了训练,包括与放射学图像、胸部 X 光片、组织病理学切片、眼科图像和皮肤病学图像相关的医学文本。

评估

MedGemma 模型在一系列临床相关基准上进行了评估,包括 5 种不同任务和 6 种医学图像模态的超过 22 个数据集。这些包括开放基准数据集和精选数据集,重点关注 CXR 报告生成和放射学 VQA 等任务的专家人工评估。

来源

MedGemma 使用公共和私有数据集的组合。

该模型在多样化的公共数据集上进行了训练,包括 MIMIC-CXR(胸部 X 光片和报告)、Slake-VQA(多模态医学图像和问题)、PAD-UFES-20(皮肤病变图像和数据)、SCIN(皮肤病学图像)、TCGA(癌症基因组学数据)、CAMELYON(淋巴结组织病理学图像)、PMC-OA(带图像的生物医学文献)和 Mendeley Digital Knee X-Ray(膝盖 X 光片)。

此外,还授权并整合了多个多样化的专有数据集(接下来描述)。

数据所有权和文档

  • Mimic-CXR:MIT 计算生理学实验室和贝斯以色列女执事医疗中心 (BIDMC)。
  • Slake-VQA:香港理工大学,合作者包括四川大学华西医院和四川省医学科学院 / 四川省人民医院。
  • PAD-UFES-20:巴西圣埃斯皮里图联邦大学 (UFES),通过其皮肤病学和外科援助计划 (PAD)。
  • SCIN:Google Health 和斯坦福医学之间的合作。
  • TCGA(癌症基因组图谱):国家癌症研究所和国家人类基因组研究所的共同努力。来自 TCGA 的数据可通过基因组数据共享 (GDC) 获得
  • CAMELYON:数据收集自荷兰拉德堡德大学医学中心和乌得勒支大学医学中心。
  • PMC-OA (PubMed Central Open Access Subset):由国家医学图书馆 (NLM) 和国家生物技术信息中心 (NCBI) 维护,它们是 NIH 的一部分。
  • MedQA:该数据集由 Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang 和 Peter Szolovits 领导的研究人员团队创建
  • Mendeley Digital Knee X-Ray:该数据集来自 Rani Channamma 大学,托管在 Mendeley Data 上。
  • AfriMed-QA:该数据由多个合作组织和研究人员开发和领导,主要贡献者包括:Intron Health、SisonkeBiotik、BioRAMP、佐治亚理工学院和 MasakhaneNLP。
  • VQA-RAD:该数据集由 Jason J. Lau、Soumya Gayen、Asma Ben Abacha 和 Dina Demner-Fushman 以及其附属机构(美国国家医学图书馆和国家卫生研究院)领导的研究团队创建
  • MedExpQA:该数据集由 HiTZ 中心(巴斯克语言技术和人工智能中心)的研究人员创建。
  • MedXpertQA:该数据集由清华大学(中国北京)和上海人工智能实验室(中国上海)的研究人员开发。

除了上面列出的公共数据集外,MedGemma 还在从 Google 内部获得同意的参与者那里收集或授权用于研究的去标识化数据集上进行了训练。

  • 放射学数据集 1:来自美国放射学门诊诊断中心网络的不同身体部位 CT 研究的去标识化数据集。
  • 眼科数据集 1:来自糖尿病视网膜病变筛查的眼底图像去标识化数据集。
  • 皮肤病学数据集 1:来自哥伦比亚的远程皮肤病学皮肤病症图像(临床和皮肤镜)的去标识化数据集。
  • 皮肤病学数据集 2:来自澳大利亚的皮肤癌图像(临床和皮肤镜)的去标识化数据集。
  • 皮肤病学数据集 3:来自内部数据收集工作的非疾病皮肤图像的去标识化数据集。
  • 病理学数据集 1:与欧洲的一家学术研究医院和生物库合作创建的组织病理学 H&E 全切片图像的去标识化数据集。包括去标识化的结肠、前列腺和淋巴结。
  • 病理学数据集 2:由美国的一家商业生物库创建的肺组织病理学 H&E 和 IHC 全切片图像的去标识化数据集。
  • 病理学数据集 3:由美国的一家合同研究组织创建的前列腺和淋巴结 H&E 和 IHC 组织病理学全切片图像的去标识化数据集。
  • 病理学数据集 4:与美国的一家大型三级教学医院合作创建的组织病理学、主要是 H&E 全切片图像的去标识化数据集。包括多种组织和染色类型,主要是 H&E。

数据引用

  • MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet. https://physionet.org/content/mimic-cxr/2.1.0/ 以及 Johnson, Alistair E. W., Tom J. Pollard, Seth J. Berkowitz, Nathaniel R. Greenbaum, Matthew P. Lungren, Chih-Ying Deng, Roger G. Mark, and Steven Horng. 2019. "MIMIC-CXR, a de-Identified Publicly Available Database of Chest Radiographs with Free-Text Reports." Scientific Data 6 (1): 1–8.
  • SLAKE Liu, Bo, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. 2021.SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering." http://arxiv.org/abs/2102.09542.
  • PAD-UEFS Pacheco, A. G. C., Lima, G. R., Salomao, A., Krohling, B., Biral, I. P., de Angelo, G. G., Alves, F. O. G., Ju X. M., & P. R. C. (2020). PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones. In Proceedings of the 2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) (pp. 1551-1558). IEEE. https://doi.org/10.1109/BIBM49941.2020.9313241
  • SCIN Ward, Abbi, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, et al. 2024. "Creating an Empirical Dermatology Dataset Through Crowdsourcing With Web Search Advertisements." JAMA Network Open 7 (11): e2446615–e2446615.
  • TCGA 此处显示的结果全部或部分基于 TCGA 研究网络生成的数据:https://www.cancer.gov/tcga.
  • CAMELYON16 Ehteshami Bejnordi, Babak, Mitko Veta, Paul Johannes van Diest, Bram van Ginneken, Nico Karssemeijer, Geert Litjens, Jeroen A. W. M. van der Laak, et al. 2017. "Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer." JAMA 318 (22): 2199–2210.
  • MedQA Jin, Di, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits. 2020. "What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams." http://arxiv.org/abs/2009.13081.
  • Mendeley Digital Knee X-Ray Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
  • AfrimedQA Olatunji, Tobi, Charles Nimo, Abraham Owodunni, Tassallah Abdullahi, Emmanuel Ayodele, Mardhiyah Sanni, Chinemelu Aka, et al. 2024. "AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset." http://arxiv.org/abs/2411.15640.
  • VQA-RAD Lau, Jason J., Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. 2018. "A Dataset of Clinically Generated Visual Questions and Answers about Radiology Images." Scientific Data 5 (1): 1–10.
  • MedexpQA Alonso, I., Oronoz, M., & Agerri, R. (2024). MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering. arXiv preprint arXiv:2404.05590. Retrieved from https://arxiv.org/abs/2404.05590
  • MedXpertQA Zuo, Yuxin, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, and Bowen Zhou. 2025. "MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding." http://arxiv.org/abs/2501.18362.

去标识化/匿名化:

Google 和合作伙伴使用经过严格匿名化或去标识化的数据集,以确保保护个体研究参与者和患者隐私

实现信息

关于模型内部的详细信息。

软件

训练使用 JAX 完成。

JAX 允许研究人员利用最新一代的硬件,包括 TPU,以更快、更高效地训练大型模型。

使用和限制

预期用途

MedGemma 是一个开放的多模态生成 AI 模型,旨在作为起点使用,能够更高效地开发涉及医学文本和图像的下游医疗保健应用程序。MedGemma 面向生命科学和医疗保健领域的开发者。开发者负责训练、调整和对 MedGemma 进行有意义的更改,以实现其特定的预期用途。开发者可以使用自己的专有数据对 MedGemma 模型进行微调,以用于其特定任务或解决方案。

MedGemma 基于 Gemma 3,并在医学图像和文本上进行了进一步训练。MedGemma 能够在任何医学背景(图像和文本)下进行进一步开发,但是该模型是使用胸部 X 光片、病理学、皮肤病学和眼底图像进行预训练的。MedGemma 训练中的任务示例包括与医学图像(如放射照片)相关的视觉问答,或提供文本医学问题的答案。MedGemma 已评估的所有任务的完整详细信息可以在即将发布的技术报告中找到。

优势

  • 为其大小的模型提供了强大的基线医学图像和文本理解能力。
  • 这种强大的性能使其能够高效地适应下游基于医疗保健的用例,相比于没有医学数据预训练的类似大小的模型。
  • 这种适应可能涉及提示工程、基础、代理编排或微调,具体取决于用例、基线验证要求和所需的性能特征。

限制

MedGemma 不应在没有开发者针对其特定用例进行适当验证、调整和/或进行有意义修改的情况下使用。MedGemma 生成的输出不旨在直接通知临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用。性能基准突出了相关基准的基线能力,但即使对于构成训练数据大部分的图像和文本领域,不准确的模型输出也是可能的。来自 MedGemma 的所有输出应被视为初步的,需要通过既定的研究和开发方法进行独立验证、临床关联和进一步调查。

MedGemma 的多模态能力主要在单图像任务上进行了评估。MedGemma 尚未在涉及多图像理解的用例中进行评估。

MedGemma 尚未针对多轮应用程序进行评估或优化。

MedGemma 的训练可能使其对使用的特定提示比 Gemma 3 更敏感。

在调整 MedGemma 时,开发者应考虑以下事项:

  • 验证数据中的偏差:与任何研究一样,开发者应确保任何下游应用程序使用能够适当代表特定应用程序预期使用设置的数据(例如,年龄、性别、性别、病症、成像设备等)进行验证,以了解性能。
  • 数据污染问题:在医学背景下评估像 MedGemma 这样的大型模型的泛化能力时,存在数据污染的风险,即模型可能在预训练期间无意中看到了相关的医学信息,从而可能高估其泛化到新医学概念的真实能力。开发者应在非公开可用或以其他方式提供给非机构研究人员的数据集上验证 MedGemma,以减轻此风险。

Prince-1/Medgemma-4b-pt-Onnx

作者 Prince-1

image-text-to-text onnxruntime-genai
↓ 0 ♥ 0

创建时间: 2025-07-04 06:45:33+00:00

更新时间: 2025-07-04 06:46:53+00:00

在 Hugging Face 上查看

文件 (10)

.gitattributes
README.md
added_tokens.json
genai_config.json
model.onnx ONNX
model.onnx.data
special_tokens_map.json
tokenizer.json
tokenizer.model
tokenizer_config.json