返回模型
说明文档
library_name: onnx pipeline_tag: translation language:
- ar
- bg
- zh
- cs
- da
- nl
- en
- fi
- fr
- de
- el
- gu
- he
- hi
- hu
- id
- it
- ja
- ko
- fa
- pl
- pt
- ro
- ru
- sk
- es
- sv
- tl
- th
- tr
- uk
- vi license: gemma tags:
- onnx
- onnxruntime
- optimum
- translation
- gemma
- int4
- quantized
- cuda
- directml base_model: google/gemma-3-4b-pt base_model_relation: quantized model-index:
- name: YanoljaNEXT-Rosetta-4B-ONNX
results:
- task:
type: translation
name: Translation
metrics:
- type: bleu value: 31.5 name: BLEU Score
- task:
type: translation
name: Translation
metrics:
YanoljaNEXT-Rosetta-4B-2510-ONNX
简介
本仓库托管了 Pangaia Software 优化的 YanoljaNEXT-Rosetta-4B-2510 模型版本,用于通过 ONNX Runtime 加速推理。
优化后的模型以 ONNX 格式发布,可在 CPU 和 GPU 上通过 ONNX Runtime 跨设备运行,包括服务器平台、Windows、Linux 和 Mac 桌面,以及移动 CPU,并为每个目标平台使用最适合的精度。
以下是我们添加的部分优化配置:
- int4 CPU 的 ONNX 模型:通过 RTN 进行 int4 量化,适用于 CPU 和移动端的 ONNX 模型。
- int4 GPU 的 ONNX 模型:通过 RTN 进行 int4 量化,适用于 GPU 的 ONNX 模型。
模型运行
CPU 版本:
# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include cpu_and_mobile/* --local-dir .
# 安装 ONNX Runtime GenAI 的 CPU 包
pip install --pre onnxruntime-genai
CUDA 版本:
# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include cuda/* --local-dir .
# 安装 ONNX Runtime GenAI 的 CUDA 包
pip install --pre onnxruntime-genai-cuda
GPU 版本:
# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include gpu/* --local-dir .
# 安装 ONNX Runtime GenAI 的 CUDA 包
pip install --pre onnxruntime-genai-cuda
DirectML 版本:
# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx --include directml/* --local-dir .
# 安装 ONNX Runtime GenAI 的 DML 包
pip install --pre onnxruntime-genai-directml
执行:
请参阅 ONNX Runtime GenAI 仓库获取最新的模型执行示例。
注意:由于这是一个基于 Gemma 的模型,请使用相应的提示模板:
System = \"<start_of_turn>instruction\n{{CONTENT}}<end_of_turn>\n\",
User = \"<start_of_turn>source\n{{CONTENT}}<end_of_turn>\n\",
Assistant = \"<start_of_turn>translation\n{{CONTENT}}<end_of_turn>\n\",
Stop = [\"<end_of_turn>\", \"<start_of_turn>\"]
模型描述
- 开发者:Pangaia Software
- 模型类型:ONNX
- 许可证:gemma
- 模型描述:这是
YanoljaNEXT-Rosetta-4B-2510模型的 ONNX Runtime 推理转换版本,该模型基于google/gemma-3-4b-pt模型。
免责声明:本模型仅是对基础模型的优化,与模型相关的任何风险由模型使用者承担。请针对您的使用场景进行验证和测试。应用优化后,输出可能与基础模型存在细微差异。
许可证
本模型根据 Gemma 许可证发布,继承自其基础模型 google/gemma-3-4b-pt。请参阅官方 Gemma 许可条款 了解详细的使用指南。
PangaiaSoftware/YanoljaNEXT-Rosetta-4B-onnx
作者 PangaiaSoftware
translation
onnx
↓ 1
♥ 2
创建时间: 2025-10-21 11:43:29+00:00
更新时间: 2025-10-21 13:43:16+00:00
在 Hugging Face 上查看文件 (35)
.gitattributes
README.md
config.json
cpu_and_mobile/cpu-int4-rtn-block-32/chat_template.jinja
cpu_and_mobile/cpu-int4-rtn-block-32/config.json
cpu_and_mobile/cpu-int4-rtn-block-32/genai_config.json
cpu_and_mobile/cpu-int4-rtn-block-32/model.onnx
ONNX
cpu_and_mobile/cpu-int4-rtn-block-32/model.onnx.data
cpu_and_mobile/cpu-int4-rtn-block-32/special_tokens_map.json
cpu_and_mobile/cpu-int4-rtn-block-32/tokenizer.json
cpu_and_mobile/cpu-int4-rtn-block-32/tokenizer_config.json
cuda/cuda-int4-rtn-block-32/chat_template.jinja
cuda/cuda-int4-rtn-block-32/config.json
cuda/cuda-int4-rtn-block-32/genai_config.json
cuda/cuda-int4-rtn-block-32/model.onnx
ONNX
cuda/cuda-int4-rtn-block-32/model.onnx.data
cuda/cuda-int4-rtn-block-32/special_tokens_map.json
cuda/cuda-int4-rtn-block-32/tokenizer.json
cuda/cuda-int4-rtn-block-32/tokenizer_config.json
directml/dml-int4-rtn-block-32/chat_template.jinja
directml/dml-int4-rtn-block-32/config.json
directml/dml-int4-rtn-block-32/genai_config.json
directml/dml-int4-rtn-block-32/model.onnx
ONNX
directml/dml-int4-rtn-block-32/model.onnx.data
directml/dml-int4-rtn-block-32/special_tokens_map.json
directml/dml-int4-rtn-block-32/tokenizer.json
directml/dml-int4-rtn-block-32/tokenizer_config.json
gpu/gpu-fp16/chat_template.jinja
gpu/gpu-fp16/config.json
gpu/gpu-fp16/genai_config.json
gpu/gpu-fp16/model.onnx
ONNX
gpu/gpu-fp16/model.onnx.data
gpu/gpu-fp16/special_tokens_map.json
gpu/gpu-fp16/tokenizer.json
gpu/gpu-fp16/tokenizer_config.json