说明文档

gpt2-vietnamese (ONNX)

这是 NlpHUST/gpt2-vietnamese 的 ONNX 版本。它使用这个 Hugging Face Space 自动转换并上传。

使用 Transformers.js

请参阅 text-generation 的管道文档：https://huggingface.co/docs/transformers.js/api/pipelines#module_pipelines.TextGenerationPipeline

GPT-2

基于越南语预训练的 GPT 模型，采用因果语言建模（CLM）目标进行训练。该模型在这篇论文中首次提出，并在此页面首次发布。

如何使用该模型

import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel

tokenizer = GPT2Tokenizer.from_pretrained('NlpHUST/gpt2-vietnamese')
model = GPT2LMHeadModel.from_pretrained('NlpHUST/gpt2-vietnamese')

text = "Việt Nam là quốc gia có"
input_ids = tokenizer.encode(text, return_tensors='pt')
max_length = 100

sample_outputs = model.generate(input_ids,pad_token_id=tokenizer.eos_token_id,
                                   do_sample=True,
                                   max_length=max_length,
                                   min_length=max_length,
                                   top_k=40,
                                   num_beams=5,
                                   early_stopping=True,
                                   no_repeat_ngram_size=2,
                                   num_return_sequences=3)

for i, sample_output in enumerate(sample_outputs):
    print(">> Generated text {}\n\n{}".format(i+1, tokenizer.decode(sample_output.tolist())))
    print('\n---')

>> Generated text 1

Việt Nam là quốc gia có nền kinh tế hàng đầu thế giới về sản xuất, chế biến và tiêu thụ các sản phẩm nông sản, thủy sản. Tuy nhiên, trong những năm gần đây, nông nghiệp Việt Nam đang phải đối mặt với nhiều khó khăn, thách thức, đặc biệt là những tác động tiêu cực của biến đổi khí hậu.
Theo số liệu của Tổng cục Thống kê, tính đến cuối năm 2015, tổng diện tích gieo trồng, sản lượng lương thực, thực phẩm cả

---
>> Generated text 2

Việt Nam là quốc gia có nền kinh tế thị trường định hướng xã hội chủ nghĩa, có vai trò rất quan trọng đối với sự phát triển bền vững của đất nước. Do đó, trong quá trình đổi mới và hội nhập quốc tế, Việt Nam đã và đang phải đối mặt với không ít khó khăn, thách thức, đòi hỏi phải có những chủ trương, chính sách đúng đắn, kịp thời, phù hợp với tình hình thực tế. Để thực hiện thắng lợi mục tiêu, nhiệm vụ

---
>> Generated text 3

Việt Nam là quốc gia có nền kinh tế thị trường phát triển theo định hướng xã hội chủ nghĩa. Trong quá trình đổi mới và hội nhập quốc tế hiện nay, Việt Nam đang phải đối mặt với nhiều khó khăn, thách thức, đòi hỏi phải có những giải pháp đồng bộ, hiệu quả và phù hợp với tình hình thực tế của đất nước. Để thực hiện thắng lợi mục tiêu, nhiệm vụ mà Nghị quyết Đại hội XI của Đảng đề ra, Đảng và Nhà nước đã ban hành

---

模型架构

一个 12 层、隐藏层大小为 768 的基于 Transformer 的语言模型。

训练

该模型在越南语 Oscar 数据集（32 GB）上训练，在 v3-8 TPU 上优化传统语言建模目标约 6 天。在从 Oscar 中选定的验证集上，其困惑度约为 13.4。

GPT-2 微调

以下示例在 WikiText-2 上微调 GPT-2。我们使用的是原始 WikiText-2 数据。

脚本位于此处。

python run_clm.py \
    --model_name_or_path NlpHUST/gpt2-vietnamese \
    --dataset_name wikitext \
    --dataset_config_name wikitext-2-raw-v1 \
    --per_device_train_batch_size 8 \
    --per_device_eval_batch_size 8 \
    --do_train \
    --do_eval \
    --output_dir /tmp/test-clm

联系方式

如需就本项目进行个人沟通，请联系 Nha Nguyen Van (nha282@gmail.com)。

onnx-community/gpt2-vietnamese-ONNX

作者 onnx-community

text-generation transformers.js

↓ 1 ♥ 1

创建时间: 2025-11-25 10:29:16+00:00

更新时间: 2025-11-25 10:29:35+00:00

在 Hugging Face 上查看

文件 (19)

.gitattributes

README.md

added_tokens.json

config.json

generation_config.json

merges.txt

onnx/model.onnx ONNX

onnx/model_bnb4.onnx ONNX

onnx/model_fp16.onnx ONNX

onnx/model_int8.onnx ONNX

onnx/model_q4.onnx ONNX

onnx/model_q4f16.onnx ONNX

onnx/model_quantized.onnx ONNX

onnx/model_uint8.onnx ONNX

quantize_config.json

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.json