ONNX 模型库
返回模型

说明文档

会议摘要生成器

该模型是基于 t5-small 微调的会议摘要生成模型。

模型详情

  • 基础模型: t5-small
  • 任务: 生成式会议摘要
  • 训练数据: QMSum 数据集 + 增强训练
  • 参数量: t5-small 架构

训练配置

  • 最大输入长度: 256 tokens
  • 最大输出长度: 64 tokens
  • 批次大小: 16
  • 学习率: 5e-05
  • 训练轮数: 1
  • 训练样本数: N/A

使用方法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("CodeXRyu/meeting-summarizer")
model = AutoModelForSeq2SeqLM.from_pretrained("CodeXRyu/meeting-summarizer")

def generate_summary(meeting_text, max_length=150):
    # 准备输入
    input_text = "summarize: " + meeting_text
    inputs = tokenizer(input_text, max_length=512, truncation=True, return_tensors="pt")
    
    # 生成摘要
    summary_ids = model.generate(
        inputs["input_ids"],
        max_length=max_length,
        num_beams=4,
        length_penalty=2.0,
        early_stopping=True
    )
    
    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)

# 使用示例
meeting_transcript = '''
John: Good morning team. Let's discuss our Q3 results.
Sarah: Our sales exceeded targets by 15%, reaching $2.1M in revenue.
Mike: The new marketing campaign was very effective.
John: Great work everyone. Let's plan for Q4.
'''

summary = generate_summary(meeting_transcript)
print(summary)

训练数据

该模型在 QMSum 数据集上进行训练,该数据集包含来自多个领域的真实会议转录:

  • 学术会议
  • 产品开发会议
  • 委员会会议

性能表现

该模型在会议摘要基准测试中取得了具有竞争力的 ROUGE 分数。

局限性

  • 针对英文会议转录进行了优化
  • 对于超长会议(输入超过 512 tokens)性能可能会有所下降
  • 最适合带有发言人标签的结构化会议格式

引用

如果您使用该模型,请引用:

@misc{meeting-summarizer-codexryu,
  author = {CodeXRyu},
  title = {Meeting Summarizer},
  year = {2025},
  publisher = {Hugging Face},
  url = {https://huggingface.co/CodeXRyu/meeting-summarizer}
}

CodeXRyu/meeting-summarizer

作者 CodeXRyu

summarization transformers
↓ 1 ♥ 0

创建时间: 2025-09-11 15:12:00+00:00

更新时间: 2025-09-21 11:29:25+00:00

在 Hugging Face 上查看

文件 (24)

.gitattributes
README.md
checkpoint-13/config.json
checkpoint-13/generation_config.json
checkpoint-13/model.safetensors
checkpoint-13/optimizer.pt
checkpoint-13/rng_state.pth
checkpoint-13/scheduler.pt
checkpoint-13/special_tokens_map.json
checkpoint-13/spiece.model
checkpoint-13/tokenizer.json
checkpoint-13/tokenizer_config.json
checkpoint-13/trainer_state.json
checkpoint-13/training_args.bin
config.json
decoder_model_merged_quantized.onnx ONNX
generation_config.json
model.safetensors
special_tokens_map.json
spiece.model
tokenizer.json
tokenizer_config.json
training_args.bin
training_config.json