ONNX 模型库
返回模型

说明文档


library_name: onnx pipeline_tag: translation language:

  • ar
  • bg
  • zh
  • cs
  • da
  • nl
  • en
  • fi
  • fr
  • de
  • el
  • gu
  • he
  • hi
  • hu
  • id
  • it
  • ja
  • ko
  • fa
  • pl
  • pt
  • ro
  • ru
  • sk
  • es
  • sv
  • tl
  • th
  • tr
  • uk
  • vi license: gemma tags:
  • onnx
  • onnxruntime
  • optimum
  • translation
  • gemma
  • int4
  • quantized
  • cuda
  • directml base_model: google/gemma-3-4b-pt base_model_relation: quantized model-index:
  • name: YanoljaNEXT-Rosetta-4B-ONNX results:
    • task: type: translation name: Translation metrics:
      • type: bleu value: 31.5 name: BLEU Score

YanoljaNEXT-Rosetta-4B-2510-ONNX

简介

本仓库托管了 Pangaia Software 优化的 YanoljaNEXT-Rosetta-4B-2510 模型版本,用于通过 ONNX Runtime 加速推理。

优化后的模型以 ONNX 格式发布,可在 CPU 和 GPU 上通过 ONNX Runtime 跨设备运行,包括服务器平台、Windows、Linux 和 Mac 桌面,以及移动 CPU,并为每个目标平台使用最适合的精度。

以下是我们添加的部分优化配置:

  1. int4 CPU 的 ONNX 模型:通过 RTN 进行 int4 量化,适用于 CPU 和移动端的 ONNX 模型。
  2. int4 GPU 的 ONNX 模型:通过 RTN 进行 int4 量化,适用于 GPU 的 ONNX 模型。

模型运行

CPU 版本:

# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include cpu_and_mobile/* --local-dir .

# 安装 ONNX Runtime GenAI 的 CPU 包
pip install --pre onnxruntime-genai

CUDA 版本:

# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include cuda/* --local-dir .

# 安装 ONNX Runtime GenAI 的 CUDA 包
pip install --pre onnxruntime-genai-cuda

GPU 版本:

# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include gpu/* --local-dir .

# 安装 ONNX Runtime GenAI 的 CUDA 包
pip install --pre onnxruntime-genai-cuda

DirectML 版本:

# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include directml/* --local-dir .

# 安装 ONNX Runtime GenAI 的 DML 包
pip install --pre onnxruntime-genai-directml

执行:

请参阅 ONNX Runtime GenAI 仓库获取最新的模型执行示例。

注意:由于这是一个基于 Gemma 的模型,请使用相应的提示模板:

System = \"<start_of_turn>instruction\n{{CONTENT}}<end_of_turn>\n\",
User = \"<start_of_turn>source\n{{CONTENT}}<end_of_turn>\n\",
Assistant = \"<start_of_turn>translation\n{{CONTENT}}<end_of_turn>\n\",
Stop = [\"<end_of_turn>\", \"<start_of_turn>\"]

模型描述

免责声明:本模型仅是对基础模型的优化,与模型相关的任何风险由模型使用者承担。请针对您的使用场景进行验证和测试。应用优化后,输出可能与基础模型存在细微差异。

许可证

本模型根据 Gemma 许可证发布,继承自其基础模型 google/gemma-3-4b-pt。请参阅官方 Gemma 许可条款 了解详细的使用指南。

PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx

作者 PangaiaSoftware

translation onnx
↓ 1 ♥ 2

创建时间: 2025-10-21 11:43:29+00:00

更新时间: 2025-10-21 13:43:16+00:00

在 Hugging Face 上查看

文件 (35)

.gitattributes
README.md
config.json
cpu_and_mobile/cpu-int4-rtn-block-32/chat_template.jinja
cpu_and_mobile/cpu-int4-rtn-block-32/config.json
cpu_and_mobile/cpu-int4-rtn-block-32/genai_config.json
cpu_and_mobile/cpu-int4-rtn-block-32/model.onnx ONNX
cpu_and_mobile/cpu-int4-rtn-block-32/model.onnx.data
cpu_and_mobile/cpu-int4-rtn-block-32/special_tokens_map.json
cpu_and_mobile/cpu-int4-rtn-block-32/tokenizer.json
cpu_and_mobile/cpu-int4-rtn-block-32/tokenizer_config.json
cuda/cuda-int4-rtn-block-32/chat_template.jinja
cuda/cuda-int4-rtn-block-32/config.json
cuda/cuda-int4-rtn-block-32/genai_config.json
cuda/cuda-int4-rtn-block-32/model.onnx ONNX
cuda/cuda-int4-rtn-block-32/model.onnx.data
cuda/cuda-int4-rtn-block-32/special_tokens_map.json
cuda/cuda-int4-rtn-block-32/tokenizer.json
cuda/cuda-int4-rtn-block-32/tokenizer_config.json
directml/dml-int4-rtn-block-32/chat_template.jinja
directml/dml-int4-rtn-block-32/config.json
directml/dml-int4-rtn-block-32/genai_config.json
directml/dml-int4-rtn-block-32/model.onnx ONNX
directml/dml-int4-rtn-block-32/model.onnx.data
directml/dml-int4-rtn-block-32/special_tokens_map.json
directml/dml-int4-rtn-block-32/tokenizer.json
directml/dml-int4-rtn-block-32/tokenizer_config.json
gpu/gpu-fp16/chat_template.jinja
gpu/gpu-fp16/config.json
gpu/gpu-fp16/genai_config.json
gpu/gpu-fp16/model.onnx ONNX
gpu/gpu-fp16/model.onnx.data
gpu/gpu-fp16/special_tokens_map.json
gpu/gpu-fp16/tokenizer.json
gpu/gpu-fp16/tokenizer_config.json