说明文档

会议摘要生成器

该模型是基于 t5-small 微调的会议摘要生成模型。

模型详情

基础模型: t5-small
任务: 生成式会议摘要
训练数据: QMSum 数据集 + 增强训练
参数量: t5-small 架构

训练配置

最大输入长度: 256 tokens
最大输出长度: 64 tokens
批次大小: 16
学习率: 5e-05
训练轮数: 1
训练样本数: N/A

使用方法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("CodeXRyu/meeting-summarizer")
model = AutoModelForSeq2SeqLM.from_pretrained("CodeXRyu/meeting-summarizer")

def generate_summary(meeting_text, max_length=150):
    # 准备输入
    input_text = "summarize: " + meeting_text
    inputs = tokenizer(input_text, max_length=512, truncation=True, return_tensors="pt")
    
    # 生成摘要
    summary_ids = model.generate(
        inputs["input_ids"],
        max_length=max_length,
        num_beams=4,
        length_penalty=2.0,
        early_stopping=True
    )
    
    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)

# 使用示例
meeting_transcript = '''
John: Good morning team. Let's discuss our Q3 results.
Sarah: Our sales exceeded targets by 15%, reaching $2.1M in revenue.
Mike: The new marketing campaign was very effective.
John: Great work everyone. Let's plan for Q4.
'''

summary = generate_summary(meeting_transcript)
print(summary)

训练数据

该模型在 QMSum 数据集上进行训练，该数据集包含来自多个领域的真实会议转录：

学术会议
产品开发会议
委员会会议

性能表现

该模型在会议摘要基准测试中取得了具有竞争力的 ROUGE 分数。

局限性

针对英文会议转录进行了优化
对于超长会议（输入超过 512 tokens）性能可能会有所下降
最适合带有发言人标签的结构化会议格式

引用

如果您使用该模型，请引用：

@misc{meeting-summarizer-codexryu,
  author = {CodeXRyu},
  title = {Meeting Summarizer},
  year = {2025},
  publisher = {Hugging Face},
  url = {https://huggingface.co/CodeXRyu/meeting-summarizer}
}

CodeXRyu/meeting-summarizer

作者 CodeXRyu

summarization transformers

↓ 1 ♥ 0

创建时间: 2025-09-11 15:12:00+00:00

更新时间: 2025-09-21 11:29:25+00:00

在 Hugging Face 上查看

文件 (24)

.gitattributes

README.md

checkpoint-13/config.json

checkpoint-13/generation_config.json

checkpoint-13/model.safetensors

checkpoint-13/optimizer.pt

checkpoint-13/rng_state.pth

checkpoint-13/scheduler.pt

checkpoint-13/special_tokens_map.json

checkpoint-13/spiece.model

checkpoint-13/tokenizer.json

checkpoint-13/tokenizer_config.json

checkpoint-13/trainer_state.json

checkpoint-13/training_args.bin

config.json

decoder_model_merged_quantized.onnx ONNX

generation_config.json

model.safetensors

special_tokens_map.json

spiece.model

tokenizer.json

tokenizer_config.json

training_args.bin

training_config.json