说明文档
MedGemma 模型卡
模型文档: MedGemma
资源:
- Google Cloud Model Garden 上的模型:MedGemma
- Hugging Face 上的模型:合集
- GitHub 仓库(支持代码、Colab 笔记本、讨论和问题):MedGemma
- 快速入门笔记本:GitHub
- 微调笔记本:GitHub
- 使用 MedGemma 构建的概念应用:合集
- 支持:请参阅联系方式
- 许可证:MedGemma 的使用受Health AI Developer Foundations 使用条款管辖。
作者: Google
模型信息
本节介绍 MedGemma 模型及其使用方法。
描述
MedGemma 是一系列针对医学文本和图像理解任务进行训练的 Gemma 3 变体模型。开发者可以使用 MedGemma 加速构建医疗保健领域的 AI 应用。MedGemma 目前提供三种变体:一个 4B 多模态版本,以及 27B 纯文本版本和多模态版本。
两个 MedGemma 多模态版本都使用了一个 SigLIP 图像编码器,该编码器已在多种去标识化的医学数据上进行了专门的预训练,包括胸部 X 光片、皮肤科图像、眼科图像和组织病理学切片。它们的 LLM 组件在多样化的医学数据上进行了训练,包括医学文本、医学问答对、基于 FHIR 的电子健康记录数据(仅 27B 多模态版本)、放射学图像、组织病理学切片、眼科图像和皮肤科图像。
MedGemma 4B 提供预训练版本(后缀:-pt)和指令微调版本(后缀 -it)。指令微调版本是大多数应用更好的起点。预训练版本适合希望更深入地实验这些模型的用户。
MedGemma 27B 多模态版本在医学图像、医疗记录和医疗记录理解任务上进行了预训练。MedGemma 27B 纯文本版本仅在医学文本上进行训练。这两个模型都针对医学推理的推理时计算进行了优化。这意味着在某些文本基准测试中,它的性能略高于 MedGemma 27B 多模态版本。需要在单个模型中同时处理医学文本、医疗记录和医学图像任务的用户更适合使用 MedGemma 27B 多模态版本。仅需要文本用例的用户可能更适合使用纯文本变体。两个 MedGemma 27B 变体仅提供指令微调版本。
MedGemma 变体已在一系列临床相关基准测试中进行了评估,以展示其基线性能。这些评估基于开放基准数据集和精选数据集。开发者可以微调 MedGemma 变体以获得更好的性能。有关更多详细信息,请参阅下面的预期用途部分。
MedGemma 针对涉及文本生成组件的医学应用进行了优化。对于不涉及文本生成的医学图像应用,例如数据高效分类、零样本分类或基于内容或语义的图像检索,推荐使用 MedSigLIP 图像编码器。MedSigLIP 基于与 MedGemma 相同的图像编码器。
更多详情请参阅 MedGemma 技术报告。
如何使用
以下是一些示例代码片段,帮助您快速开始在本地 GPU 上运行模型。如果您想大规模使用该模型,我们建议您使用 Model Garden 创建生产版本。
首先,安装 Transformers 库。Gemma 3 从 transformers 4.50.0 开始支持。
$ pip install -U transformers
使用 pipeline API 运行模型
from transformers import pipeline
from PIL import Image
import requests
import torch
pipe = pipeline(
\"image-text-to-text\",
model=\"google/medgemma-27b-it\",
torch_dtype=torch.bfloat16,
device=\"cuda\",
)
messages = [
{
\"role\": \"system\",
\"content\": [{\"type\": \"text\", \"text\": \"You are a helpful medical assistant.\"}]
},
{
\"role\": \"user\",
\"content\": [{\"type\": \"text\", \"text\": \"How do you differentiate bacterial from viral pneumonia?\"}]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0][\"generated_text\"][-1][\"content\"])
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = \"[https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png](https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png)\"
image = Image.open(requests.get(image_url, headers={\"User-Agent\": \"example\"}, stream=True).raw)
messages = [
{
\"role\": \"system\",
\"content\": [{\"type\": \"text\", \"text\": \"You are an expert radiologist.\"}]
},
{
\"role\": \"user\",
\"content\": [
{\"type\": \"text\", \"text\": \"Describe this X-ray\"},
{\"type\": \"image\", \"image\": image}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0][\"generated_text\"][-1][\"content\"])
直接运行模型
# pip install accelerate
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch
model_id = \"google/medgemma-27b-it\"
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map=\"auto\",
)
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
\"role\": \"system\",
\"content\": [{\"type\": \"text\", \"text\": \"You are a helpful medical assistant.\"}]
},
{
\"role\": \"user\",
\"content\": [{\"type\": \"text\", \"text\": \"How do you differentiate bacterial from viral pneumonia?\"}]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors=\"pt\"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs[\"input_ids\"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# Image attribution: Stillwaterising, CC0, via Wikimedia Commons
image_url = \"[https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png](https://upload.wikimedia.org/wikipedia/commons/c/c8/Chest_Xray_PA_3-8-2010.png)\"
image = Image.open(requests.get(image_url, headers={\"User-Agent\": \"example\"}, stream=True).raw)
messages = [
{
\"role\": \"system\",
\"content\": [{\"type\": \"text\", \"text\": \"You are an expert radiologist.\"}]
},
{
\"role\": \"user\",
\"content\": [
{\"type\": \"text\", \"text\": \"Describe this X-ray\"},
{\"type\": \"image\", \"image\": image}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors=\"pt\"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs[\"input_ids\"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=200, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
示例
请参阅以下 Colab 笔记本,了解如何使用 MedGemma 的示例:
-
要快速试用模型,使用 Hugging Face 的权重在本地运行,请参阅 Colab 中的快速入门笔记本。请注意,您需要使用 Colab Enterprise 获得足够的 GPU 资源,以便在不对 27B 模型进行量化的情况下运行。
-
有关微调 4B 模型的示例,请参阅 Colab 中的微调笔记本。27B 模型可以用类似的方式进行微调,但比 4B 模型需要更多的时间和计算资源。
模型架构概述
MedGemma 模型基于 Gemma 3 构建,并使用与 Gemma 3 相同的仅解码器 transformer 架构。要了解更多关于架构的信息,请参阅 Gemma 3 模型卡。
技术规格
- 模型类型:仅解码器 Transformer 架构,请参阅 Gemma 3 技术报告
- 输入模态:4B 和 27B 多模态:文本、视觉;27B 文本:仅文本
- 输出模态: 仅文本(所有模型)
- 注意力机制:分组查询注意力(GQA)
- 上下文长度:支持长上下文,至少 128K 个标记
- 关键出版物:https://arxiv.org/abs/2507.05201
- 模型创建时间:2025 年 7 月 9 日
- 模型版本:1.0.0
引用
使用此模型时,请引用:Sellergren 等人。"MedGemma Technical Report。" arXiv preprint arXiv:2507.05201 (2025)。
@article{sellergren2025medgemma,
title={MedGemma Technical Report},
author={Sellergren, Andrew and Kazemzadeh, Sahar and Jaroensri, Tiam and Kiraly, Atilla and Traverse, Madeleine and Kohlberger, Timo and Xu, Shawn and Jamil, Fayaz and Hughes, Cían and Lau, Charles and others},
journal={arXiv preprint arXiv:2507.05201},
year={2025}
}
输入和输出
输入:
- 文本字符串,例如问题或提示
- 图像,归一化为 896 x 896 分辨率,每张编码为 256 个标记
- 总输入长度为 128K 个标记
输出:
- 响应输入生成的文本,例如问题的答案、图像内容分析或文档摘要
- 总输出长度为 8192 个标记
性能和验证
MedGemma 在一系列不同的多模态分类、报告生成、视觉问答和基于文本的任务中进行了评估。
关键性能指标
成像评估
MedGemma 4B 和 27B 多模态版本的多模态性能在一系列基准测试中进行了评估,重点关注放射学、皮肤科、组织病理学、眼科和多模态临床推理。
MedGemma 4B 在所有测试的多模态健康基准测试中都优于基础 Gemma 3 4B 模型。
| 任务和指标 | Gemma 3 4B | MedGemma 4B | Gemma 3 27B | MedGemma 27B 多模态 |
|---|---|---|---|---|
| 医学图像分类 | ||||
| MIMIC CXR** - 前 5 种病症的宏 F1 | 81.2 | 88.9 | 71.7 | 90.0 |
| CheXpert CXR - 前 5 种病症的宏 F1 | 32.6 | 48.1 | 26.2 | 49.9 |
| CXR14 - 3 种病症的宏 F1 | 32.0 | 50.1 | 31.4 | 45.3 |
| PathMCQA*(组织病理学,内部**) - 准确率 | 37.1 | 69.8 | 42.2 | 71.6 |
| US-DermMCQA* - 准确率 | 52.5 | 71.8 | 66.9 | 71.7 |
| EyePACS*(眼底,内部) - 准确率 | 14.4 | 64.9 | 20.3 | 75.3 |
| 视觉问答 | ||||
| SLAKE(放射学) - 标记化 F1 | 40.2 | 72.3 | 42.5 | 70.0 |
| VQA-RAD***(放射学) - 标记化 F1 | 33.6 | 49.9 | 42.7 | 46.7 |
| 知识和推理 | ||||
| MedXpertQA(文本 + 多模态问题) - 准确率 | 16.4 | 18.8 | 22.0 | 26.8 |
*内部数据集。US-DermMCQA 在 Liu (2020, Nature medicine) 中有描述,作为每个皮肤病症分类示例的 4 选 1 多项选择题呈现。PathMCQA 基于多个数据集,作为每个示例的 3-9 选 1 多项选择题呈现,用于乳腺癌、宫颈癌和前列腺癌的识别、分级和亚型。EyePACS 是一个带有基于 5 级糖尿病视网膜病变严重程度(无、轻度、中度、重度、增殖性)分类标签的眼底图像数据集。更多详情请参阅 MedGemma 技术报告。
**基于放射科医师裁决的标签,在 Yang (2024, arXiv) 第 A.1.1 节中有描述。
***基于"平衡划分",在 Yang (2024, arXiv) 中有描述。
胸部 X 光报告生成
MedGemma 胸部 X 光 (CXR) 报告生成性能在 MIMIC-CXR 上使用 RadGraph F1 指标进行了评估。我们将 MedGemma 预训练检查点与我们之前用于 CXR 报告生成的最佳模型 PaliGemma 2 进行比较。
| 指标 | MedGemma 4B(预训练) | MedGemma 4B(针对 CXR 微调) | MedGemma 27B 多模态(预训练)* | PaliGemma 2 3B(针对 CXR 微调) | PaliGemma 2 10B(针对 CXR 微调) |
|---|---|---|---|---|---|
| 胸部 X 光报告生成 | |||||
| MIMIC CXR - RadGraph F1 | 29.5 | 30.3 | 27.0 | 28.8 | 29.5 |
*未发布
MedGemma 4B 和 MedGemma 27B 的指令微调版本得分较低(分别为 21.9 和 21.3),这是由于报告风格与 MIMIC 基准真值报告的差异。在 MIMIC 报告上进一步微调使用户能够获得更好的性能,正如针对 CXR 微调的 MedGemma 4B 模型所显示的改进性能。
文本评估
MedGemma 4B 和纯文本 MedGemma 27B 在一系列纯文本基准测试中进行了评估,测试医学知识和推理能力。
MedGemma 模型在所有测试的纯文本健康基准测试中都优于各自的基础 Gemma 模型。
| 指标 | Gemma 3 4B | MedGemma 4B | Gemma 3 27B | MedGemma 27B 纯文本 | MedGemma 27B 多模态 |
|---|---|---|---|---|---|
| MedQA (4-op) | 50.7 | 64.4 | 74.9 | 89.8 (best-of-5) 87.7 (0-shot) | 87.0 (best-of-5) 85.3 (0-shot) |
| MedMCQA | 45.4 | 55.7 | 62.6 | 74.2 | 70.2 |
| PubMedQA | 68.4 | 73.4 | 73.4 | 76.8 | 77.2 |
| MMLU Med | 67.2 | 70.0 | 83.3 | 87.0 | 86.2 |
| MedXpertQA(仅文本) | 11.6 | 14.2 | 15.7 | 25.7 | 23.7 |
| AfriMed-QA(25 题测试集) | 48.0 | 52.0 | 72.0 | 84.0 | 72.0 |
对于所有 MedGemma 27B 结果,使用测试时扩展来提高性能。
医疗记录评估
所有模型都在来自合成 FHIR 数据的问答数据集上进行了评估,以回答有关患者记录的问题。MedGemma 27B 多模态版本的 FHIR 特定训练使其显著优于其他 MedGemma 和 Gemma 模型。
| 指标 | Gemma 3 4B | MedGemma 4B | Gemma 3 27B | MedGemma 27B 纯文本 | MedGemma 27B 多模态 |
|---|---|---|---|---|---|
| EHRQA | 70.9 | 67.6 | 84.2 | 86.3 | 90.5 |
伦理和安全评估
评估方法
我们的评估方法包括结构化评估和针对相关内容政策的内部红队测试。红队测试由多个不同的团队进行,每个团队都有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行了评估,包括:
- 儿童安全:评估涵盖儿童安全政策的文本到文本和图像到文本提示,包括儿童性虐待和剥削。
- 内容安全:评估涵盖安全政策的文本到文本和图像到文本提示,包括骚扰、暴力和血腥以及仇恨言论。
- 代表性伤害:评估涵盖安全政策的文本到文本和图像到文本提示,包括偏见、刻板印象和有害联想或不准确之处。
- 一般医疗伤害:评估涵盖安全政策的文本到文本和图像到文本提示,包括信息质量和有害联想或不准确之处。
除了开发级别的评估,我们还进行"保证评估",这是我们用于责任治理决策的"独立"内部评估。它们与模型开发团队分开进行,为发布决策提供信息。高层发现会反馈给模型团队,但提示集被保留以防止过度拟合,并保持结果为决策提供信息的能力。显著的保证评估结果作为发布审查的一部分报告给我们的责任与安全委员会。
评估结果
在所有安全测试领域,我们在儿童安全、内容安全和代表性伤害类别中看到了安全水平的性能。所有测试都在没有安全过滤器的情况下进行,以评估模型的能力和行为。对于文本到文本、图像到文本和音频到文本,以及两种 MedGemma 模型尺寸,模型产生的政策违规最少。我们评估的一个局限性是它们主要包括英语提示。
数据卡
数据集概述
训练
基础 Gemma 模型在大量文本和代码数据语料库上进行了预训练。MedGemma 多模态变体使用了一个 SigLIP 图像编码器,该编码器已在多种去标识化的医学数据上进行了专门的预训练,包括放射学图像、组织病理学图像、眼科图像和皮肤科图像。它们的 LLM 组件在多样化的医学数据上进行了训练,包括医学文本、医学问答对、基于 FHIR 的电子健康记录数据(仅 27B 多模态版本)、放射学图像、组织病理学切片、眼科图像和皮肤科图像。
评估
MedGemma 模型在一系列临床相关基准测试中进行了评估,包括 6 种不同任务和 4 种医学图像模态的 22 个以上数据集。这些基准测试包括开放和内部数据集。
来源
MedGemma 使用公共和私有数据集的组合。
该模型在多样化的公共数据集上进行了训练,包括 MIMIC-CXR(胸部 X 光片和报告)、ChestImaGenome:将图像发现与解剖区域链接的边界框集合,用于 MIMIC-CXR(仅 MedGemma 27B 多模态版本)、SLAKE(多模态医学图像和问题)、PAD-UFES-20(皮肤病变图像和数据)、SCIN(皮肤科图像)、TCGA(癌症基因组学数据)、CAMELYON(淋巴结组织病理学图像)、PMC-OA(带图像的生物医学文献)和 Mendeley Digital Knee X-Ray(膝部 X 光片)。
此外,还许可并整合了多个多样化的专有数据集(如下所述)。
数据所有权和文档
- MIMIC-CXR:MIT 计算生理学实验室和贝斯以色列女执事医疗中心 (BIDMC)。
- Slake-VQA:香港理工大学,合作者包括四川大学华西医院和四川省医学科学院/四川省人民医院。
- PAD-UFES-20:巴西圣埃斯皮里图联邦大学 (UFES),通过其皮肤科和外科援助计划 (PAD)。
- SCIN:Google Health 和斯坦福医学的合作项目。
- TCGA(癌症基因组图谱):国家癌症研究所和国家人类基因组研究所的联合努力。来自 TCGA 的数据可通过基因组数据共享 (GDC) 获得
- CAMELYON:数据收集自荷兰奈梅亨大学医学中心乌得勒支大学医学中心。
- PMC-OA(PubMed Central 开放获取子集):由国家医学图书馆 (NLM) 和国家生物技术信息中心 (NCBI) 维护,它们是 NIH 的一部分。
- MedQA:该数据集由 Di Jin、Eileen Pan、Nassim Oufattole、Wei-Hung Weng、Hanyi Fang 和 Peter Szolovits 领导的研究人员团队创建
- Mendeley Digital Knee X-Ray:该数据集来自 Rani Channamma 大学,托管在 Mendeley Data 上。
- AfriMed-QA:该数据由多个合作组织和研究人员开发和领导,主要贡献者包括:Intron Health、SisonkeBiotik、BioRAMP、佐治亚理工学院和 MasakhaneNLP。
- VQA-RAD:该数据集由 Jason J. Lau、Soumya Gayen、Asma Ben Abacha 和 Dina Demner-Fushman 及其附属机构(美国国家医学图书馆和国立卫生研究院)领导的研究团队创建
- Chest ImaGenome:IBM Research。
- MedExpQA:该数据集由 HiTZ 中心(巴斯克语言技术和人工智能中心)的研究人员创建。
- MedXpertQA:该数据集由清华大学(中国北京)和上海人工智能实验室(中国上海)的研究人员开发。
- HealthSearchQA:该数据集包含 3,173 个常见的消费者搜索问题
除了上面列出的公共数据集,MedGemma 还在去标识化、许可的数据集或 Google 内部从同意参与者收集的数据集上进行了训练。
- 放射学数据集 1: 来自美国放射学门诊诊断中心网络的去标识化不同身体部位 CT 研究数据集。
- 眼科数据集 1 (EyePACS): 来自糖尿病视网膜病变筛查的去标识化眼底图像数据集。
- 皮肤科数据集 1: 来自哥伦比亚的远程皮肤科皮肤病症图像(临床和皮肤镜)的去标识化数据集。
- 皮肤科数据集 2: 来自澳大利亚的皮肤癌图像(临床和皮肤镜)的去标识化数据集。
- 皮肤科数据集 3: 来自内部数据收集工作的非病变皮肤图像的去标识化数据集。
- 病理学数据集 1: 与欧洲学术研究医院和生物库合作创建的去标识化组织病理学 H&E 全切片图像数据集。包括去标识化的结肠、前列腺和淋巴结。
- 病理学数据集 2: 由美国商业生物库创建的去标识化肺部组织病理学 H&E 和 IHC 全切片图像数据集。
- 病理学数据集 3: 由美国合同研究组织创建的去标识化前列腺和淋巴结 H&E 和 IHC 组织病理学全切片图像数据集。
- 病理学数据集 4: 与美国一家大型三级教学医院合作创建的去标识化组织病理学全切片图像数据集。包括多种组织和染色类型,主要是 H&E。
- EHR 数据集 1: 从 Synthea 创建的合成 FHIR 记录中提取的问答数据集。测试集包括 19 名独特患者,每名患者 200 个问题,分为 10 个不同类别。
数据引用
-
MIMIC-CXR: Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet. https://physionet.org/content/mimic-cxr/2.1.0/ 以及 Johnson, Alistair E. W., Tom J. Pollard, Seth J. Berkowitz, Nathaniel R. Greenbaum, Matthew P. Lungren, Chih-Ying Deng, Roger G. Mark, and Steven Horng. 2019. "MIMIC-CXR, a de-Identified Publicly Available Database of Chest Radiographs with Free-Text Reports." Scientific Data 6 (1): 1–8.
-
SLAKE: Liu, Bo, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. 2021. "SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering." http://arxiv.org/abs/2102.09542.
-
PAD-UEFS-20: Pacheco, Andre GC, et al. "PAD-UFES-20: A skin lesion dataset composed of patient data and clinical images collected from smartphones." Data in brief 32 (2020): 106221.
-
SCIN: Ward, Abbi, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, et al. 2024. "Creating an Empirical Dermatology Dataset Through Crowdsourcing With Web Search Advertisements." JAMA Network Open 7 (11): e2446615–e2446615.
-
TCGA: 此处显示的结果全部或部分基于 TCGA 研究网络生成的数据:https://www.cancer.gov/tcga。
-
CAMELYON16: Ehteshami Bejnordi, Babak, Mitko Veta, Paul Johannes van Diest, Bram van Ginneken, Nico Karssemeijer, Geert Litjens, Jeroen A. W. M. van der Laak, et al. 2017. "Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer." JAMA 318 (22): 2199–2210.
-
Mendeley Digital Knee X-Ray: Gornale, Shivanand; Patravali, Pooja (2020), "Digital Knee X-ray Images", Mendeley Data, V1, doi: 10.17632/t9ndx37v5h.1
-
VQA-RAD: Lau, Jason J., Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. 2018. "A Dataset of Clinically Generated Visual Questions and Answers about Radiology Images." Scientific Data 5 (1): 1–10.
-
Chest ImaGenome: Wu, J., Agu, N., Lourentzou, I., Sharma, A., Paguio, J., Yao, J. S., Dee, E. C., Mitchell, W., Kashyap, S., Giovannini, A., Celi, L. A., Syeda-Mahmood, T., & Moradi, M. (2021). Chest ImaGenome Dataset (version 1.0.0). PhysioNet. RRID:SCR_007345. https://doi.org/10.13026/wv01-y230
-
MedQA: Jin, Di, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits. 2020. "What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams." http://arxiv.org/abs/2009.13081.
-
AfrimedQA: Olatunji, Tobi, Charles Nimo, Abraham Owodunni, Tassallah Abdullahi, Emmanuel Ayodele, Mardhiyah Sanni, Chinemelu Aka, et al. 2024. "AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset." http://arxiv.org/abs/2411.15640.
-
MedExpQA: Alonso, I., Oronoz, M., & Agerri, R. (2024). MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering. arXiv preprint arXiv:2404.05590. Retrieved from https://arxiv.org/abs/2404.05590
-
MedXpertQA: Zuo, Yuxin, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, and Bowen Zhou. 2025. "MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding." http://arxiv.org/abs/2501.18362.
去标识化/匿名化:
Google 及其合作伙伴使用经过严格匿名化或去标识化的数据集,以确保保护个人研究参与者和患者隐私。
实现信息
有关模型内部结构的详细信息。
软件
训练使用 JAX 进行。
JAX 允许研究人员利用最新一代的硬件,包括 TPU,以更快、更高效地训练大型模型。
使用和限制
预期用途
MedGemma 是一个开放的多模态生成 AI 模型,旨在作为起点使用,使涉及医学文本和图像的下游医疗保健应用开发更加高效。MedGemma 旨在供生命科学和医疗保健领域的开发者使用。开发者负责训练、调整和对 MedGemma 进行有意义的更改,以实现其特定的预期用途。开发者可以使用自己的专有数据对 MedGemma 模型进行微调,用于其特定任务或解决方案。
MedGemma 基于 Gemma 3,并在医学图像和文本上进行了进一步训练。MedGemma 支持在任何医学背景(图像和文本)下的进一步开发,但是该模型使用胸部 X 光片、病理学、皮肤科和眼底图像进行预训练。MedGemma 训练中包含的任务示例包括与医学图像(如放射照片)相关的视觉问答,或提供文本医学问题的答案。MedGemma 已评估的所有任务的完整详情可在 MedGemma 技术报告中找到。
优势
- 为其尺寸的模型提供强大的基线医学图像和文本理解能力。
- 这种强大的性能使其能够高效地适应下游医疗保健用例,相比于没有医学数据预训练的类似尺寸模型。
- 这种适应可能涉及提示工程、基础、代理编排或微调,具体取决于用例、基线验证要求和所需的性能特征。
限制
MedGemma 不应在开发者未对其特定用例进行适当验证、调整和/或有意义的修改的情况下使用。MedGemma 生成的输出不打算直接用于临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用。性能基准测试突出了相关基准测试的基线能力,但即使对于构成训练数据大部分的图像和文本领域,也可能出现不准确的模型输出。MedGemma 的所有输出应被视为初步结果,需要通过既定的研究和开发方法进行独立验证、临床关联和进一步调查。
MedGemma 的多模态能力主要在单图像任务上进行评估。MedGemma 尚未在涉及多图像理解的用例中进行评估。
MedGemma 尚未针对多轮应用进行评估或优化。
MedGemma 的训练可能使其对使用的特定提示比 Gemma 3 更敏感。
在调整 MedGemma 时,开发者应考虑以下内容:
- 验证数据中的偏差: 与任何研究一样,开发者应确保任何下游应用经过验证,以使用适当代表特定应用预期使用设置的数据(例如,年龄、性别、性别、病症、成像设备等)来了解性能。
- 数据污染问题:在医学背景下评估像 MedGemma 这样的大型模型的泛化能力时,存在数据污染的风险,即模型可能在预训练期间无意中看到了相关的医学信息,从而可能高估其真正泛化到新医学概念的能力。开发者应在非公开可用或以其他方式提供给非机构研究人员的数据集上验证 MedGemma,以减轻此风险。
onnx-community/MedGemma-27B-IT
作者 onnx-community
创建时间: 2025-07-23 07:07:36+00:00
更新时间: 2025-07-23 07:15:22+00:00
在 Hugging Face 上查看