返回模型
说明文档
M2M100 韩国旅游翻译器 (ONNX)
该模型是对 facebook/m2m100_1.2B 模型使用韩国旅游相关数据进行微调(Fine-tuning)后,为提高推理速度而转换为 ONNX (Open Neural Network Exchange) 格式的翻译模型。
主要功能是执行韩语与英语、日语、中文之间的双向翻译。
- 基础模型:
facebook/m2m100_1.2B - 专业化: 韩国旅游领域
- 目标语言: 英语, 日语, 中文
- 格式: ONNX (针对快速 CPU/GPU 推理进行优化)
模型描述
M2M100 是一款无需单独指定语言即可在 100 种语言之间进行翻译的多语言翻译模型。该模型为了提高对韩国旅游领域术语和文体的理解,使用相关数据集进行了额外训练。
特别着重于提高韩国特定地名(如:景福宫、明洞)和食物名称(如:拌饭、炒年糕)等专有名词的三种语言(英语、日语、中文)翻译准确度。
通过 ONNX 转换,比现有的 PyTorch 模型更轻量、运行更快,非常适合使用 FastAPI 等进行 API 服务器部署。
使用方法
使用该模型需要 transformers 和 optimum[onnxruntime] 库。
pip install transformers optimum[onnxruntime] sentencepiece
以下是在 Python 中加载模型并执行翻译的示例代码。
from transformers import AutoTokenizer, pipeline
from optimum.onnxruntime import ORTModelForSeq2SeqLM
# Hugging Face Hub 上的模型名称
model_name = "Pokqok/m2m100-onnx-ko-to-ja-zh-k-tourism"
# 加载分词器和 ONNX 模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = ORTModelForSeq2SeqLM.from_pretrained(model_name)
# 创建翻译管道
translator = pipeline(
"translation",
model=model,
tokenizer=tokenizer
)
# 要翻译的文本
korean_text = "경복궁 야간개장 입장권은 어디서 구매하나요?"
# 韩语 -> 日语翻译
result_ja = translator(
korean_text,
src_lang="ko",
tgt_lang="ja"
)
print(f"Korean to Japanese: {result_ja[0]['translation_text']}")
# 韩语 -> 中文翻译
result_zh = translator(
korean_text,
src_lang="ko",
tgt_lang="zh"
)
print(f"Korean to Chinese: {result_zh[0]['translation_text']}")
# 韩语 -> 英语翻译
result_en = translator(
korean_text,
src_lang="ko",
tgt_lang="en"
)
print(f"Korean to English: {result_en[0]['translation_text']}")
# 日语 -> 韩语翻译
japanese_text = "景福宮の夜間開場入場券はどこで購入できますか。"
result_ko_from_ja = translator(
japanese_text,
src_lang="ja",
tgt_lang="ko"
)
print(f"Japanese to Korean: {result_ko_from_ja[0]['translation_text']}")
# --- 输出结果示例 ---
# Korean to Japanese: 景福宮の夜間開場入場券はどこで購入できますか。
# Korean to Chinese: 景福宫夜间开放门票在哪里购买?
# Korean to English: Where can I buy tickets for the Gyeongbok Palace night opening?
# Japanese to Korean: 경복궁 야간 개장 입장권은 어디에서 구입합니까?
模型详情
微调
- 基础模型:
facebook/m2m100_1.2B - 训练数据: 使用自行收集和整理的韩国旅游相关句子对数据集 进行微调。该数据集包含旅游景点信息、美食、活动等多种类别的内容。
- 目标: 旨在提高普通翻译模型可能翻译生硬的韩国旅游相关专有名词(地名、食物名称等)的三种语言翻译质量。
ONNX 转换
- 性能: 将 PyTorch 模型转换为 ONNX 并进行了量化 和优化。从而在 CPU 环境下也能提供更快的推理速度,这对实时翻译 API 服务是一大优势。
- 兼容性: ONNX Runtime 支持多种硬件和平台,提高了模型部署的灵活性。
部署
该 ONNX 模型设计为可使用 FastAPI 和 Docker 轻松部署为 API 服务器。详细的部署方法请参考相关项目的 Dockerfile 和 app.py。
Docker Hub 镜像
- 仓库:
Pokqok/m2m100-onnx-ko-to-ja-zh-k-tourism
作者 Pokqok
translation
optimum
↓ 0
♥ 0
创建时间: 2025-08-25 02:14:47+00:00
更新时间: 2025-09-03 01:00:25+00:00
在 Hugging Face 上查看文件 (16)
.gitattributes
README.md
added_tokens.json
config.json
decoder_model.onnx
ONNX
decoder_model.onnx_data
decoder_with_past_model.onnx
ONNX
decoder_with_past_model.onnx_data
encoder_model.onnx
ONNX
encoder_model.onnx_data
generation_config.json
ort_config.json
sentencepiece.bpe.model
special_tokens_map.json
tokenizer_config.json
vocab.json