说明文档

Phi 3 模型：扩展词表并针对日语进行微调

本项目是一个概念验证，展示了如何扩展 Phi 3 模型的基础词表，然后应用监督微调来教它一门新语言（日语）。尽管使用了非常小的自定义数据集，但在日语理解方面的提升是显著的。

本项目使用的数据集是在 ChatGPT-4 的辅助下生成的。它包含 1,000 条数据，经过精心筛选，涵盖了广泛的主题和语言结构。

Phi 3 模型的基础词表被扩展以包含新的日语 token。这是使模型能够更有效地理解和生成日语文本的关键步骤。

使用自定义数据集对扩展后的模型进行了监督微调。尽管数据集规模较小，但模型在理解和生成日语文本方面表现出了显著的提升。

即使数据集和词表规模有限，经过微调的模型在日语理解和生成方面仍比基础模型有显著改进。

作者 Frinkles

text-generation transformers

↓ 0 ♥ 1

创建时间: 2024-07-17 10:12:45+00:00

更新时间: 2024-07-17 17:33:29+00:00

.gitattributes

README.md

added_tokens.json

genai_config.json

model.onnx ONNX

model.onnx.data

special_tokens_map.json

tokenizer.json

tokenizer.model

tokenizer_config.json