返回模型

说明文档

library_name: onnx pipeline_tag: translation language:

ar
bg
zh
cs
da
nl
en
fi
fr
de
el
gu
he
hi
hu
id
it
ja
ko
fa
pl
pt
ro
ru
sk
es
sv
tl
th
tr
uk
vi license: gemma tags:
onnx
onnxruntime
optimum
translation
gemma
int4
quantized
cuda
directml base_model: google/gemma-3-4b-pt base_model_relation: quantized model-index:
name: YanoljaNEXT-Rosetta-4B-ONNX results:
- task: type: translation name: Translation metrics:
  - type: bleu value: 31.5 name: BLEU Score

YanoljaNEXT-Rosetta-4B-2510-ONNX

简介

本仓库托管了 Pangaia Software 优化的 YanoljaNEXT-Rosetta-4B-2510 模型版本，用于通过 ONNX Runtime 加速推理。

优化后的模型以 ONNX 格式发布，可在 CPU 和 GPU 上通过 ONNX Runtime 跨设备运行，包括服务器平台、Windows、Linux 和 Mac 桌面，以及移动 CPU，并为每个目标平台使用最适合的精度。

以下是我们添加的部分优化配置：

int4 CPU 的 ONNX 模型：通过 RTN 进行 int4 量化，适用于 CPU 和移动端的 ONNX 模型。
int4 GPU 的 ONNX 模型：通过 RTN 进行 int4 量化，适用于 GPU 的 ONNX 模型。

模型运行

CPU 版本：

# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include cpu_and_mobile/* --local-dir .

# 安装 ONNX Runtime GenAI 的 CPU 包
pip install --pre onnxruntime-genai

CUDA 版本：

# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include cuda/* --local-dir .

# 安装 ONNX Runtime GenAI 的 CUDA 包
pip install --pre onnxruntime-genai-cuda

GPU 版本：

# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include gpu/* --local-dir .

# 安装 ONNX Runtime GenAI 的 CUDA 包
pip install --pre onnxruntime-genai-cuda

DirectML 版本：

# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include directml/* --local-dir .

# 安装 ONNX Runtime GenAI 的 DML 包
pip install --pre onnxruntime-genai-directml

执行：

请参阅 ONNX Runtime GenAI 仓库获取最新的模型执行示例。

注意：由于这是一个基于 Gemma 的模型，请使用相应的提示模板：

System = \"<start_of_turn>instruction\n{{CONTENT}}<end_of_turn>\n\",
User = \"<start_of_turn>source\n{{CONTENT}}<end_of_turn>\n\",
Assistant = \"<start_of_turn>translation\n{{CONTENT}}<end_of_turn>\n\",
Stop = [\"<end_of_turn>\", \"<start_of_turn>\"]

模型描述

开发者：Pangaia Software
模型类型：ONNX
许可证：gemma
模型描述：这是 YanoljaNEXT-Rosetta-4B-2510 模型的 ONNX Runtime 推理转换版本，该模型基于 google/gemma-3-4b-pt 模型。

免责声明：本模型仅是对基础模型的优化，与模型相关的任何风险由模型使用者承担。请针对您的使用场景进行验证和测试。应用优化后，输出可能与基础模型存在细微差异。

许可证

本模型根据 Gemma 许可证发布，继承自其基础模型 google/gemma-3-4b-pt。请参阅官方 Gemma 许可条款了解详细的使用指南。

PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx

作者 PangaiaSoftware

translation onnx

↓ 1 ♥ 2

创建时间: 2025-10-21 11:43:29+00:00

更新时间: 2025-10-21 13:43:16+00:00

在 Hugging Face 上查看

文件 (35)

.gitattributes

README.md

config.json

cpu_and_mobile/cpu-int4-rtn-block-32/chat_template.jinja

cpu_and_mobile/cpu-int4-rtn-block-32/config.json

cpu_and_mobile/cpu-int4-rtn-block-32/genai_config.json

cpu_and_mobile/cpu-int4-rtn-block-32/model.onnx ONNX

cpu_and_mobile/cpu-int4-rtn-block-32/model.onnx.data

cpu_and_mobile/cpu-int4-rtn-block-32/special_tokens_map.json

cpu_and_mobile/cpu-int4-rtn-block-32/tokenizer.json

cpu_and_mobile/cpu-int4-rtn-block-32/tokenizer_config.json

cuda/cuda-int4-rtn-block-32/chat_template.jinja

cuda/cuda-int4-rtn-block-32/config.json

cuda/cuda-int4-rtn-block-32/genai_config.json

cuda/cuda-int4-rtn-block-32/model.onnx ONNX

cuda/cuda-int4-rtn-block-32/model.onnx.data

cuda/cuda-int4-rtn-block-32/special_tokens_map.json

cuda/cuda-int4-rtn-block-32/tokenizer.json

cuda/cuda-int4-rtn-block-32/tokenizer_config.json

directml/dml-int4-rtn-block-32/chat_template.jinja

directml/dml-int4-rtn-block-32/config.json

directml/dml-int4-rtn-block-32/genai_config.json

directml/dml-int4-rtn-block-32/model.onnx ONNX

directml/dml-int4-rtn-block-32/model.onnx.data

directml/dml-int4-rtn-block-32/special_tokens_map.json

directml/dml-int4-rtn-block-32/tokenizer.json

directml/dml-int4-rtn-block-32/tokenizer_config.json

gpu/gpu-fp16/chat_template.jinja

gpu/gpu-fp16/config.json

gpu/gpu-fp16/genai_config.json

gpu/gpu-fp16/model.onnx ONNX

gpu/gpu-fp16/model.onnx.data

gpu/gpu-fp16/special_tokens_map.json

gpu/gpu-fp16/tokenizer.json

gpu/gpu-fp16/tokenizer_config.json