说明文档

Phi 3 模型：扩展词表并针对日语进行微调

本项目是一个概念验证，通过扩展 Phi 3 模型的基础词表，然后应用监督微调来教授其一门新语言（日语）。尽管使用了非常小的自定义数据集，但日语理解能力的提升非常显著。

本项目使用的数据集是在 ChatGPT-4 的协助下生成的。它包含 1,000 条条目，经过精心筛选，涵盖了多样化的主题和语言结构。

Phi 3 模型的基础词表被扩展以包含新的日语 token。这是使模型能够更有效地理解和生成日语文本的关键步骤。

使用自定义数据集对扩展后的模型进行了监督微调。尽管数据集规模较小，但模型在理解和生成日语文本方面表现出显著提升。

即使数据集和词表规模有限，微调后的模型在日语理解和生成方面仍比基础模型有显著改进。

作者 Frinkles

text-generation

↓ 0 ♥ 1

创建时间: 2024-07-04 15:22:09+00:00

更新时间: 2024-07-17 17:30:52+00:00

.gitattributes

README.md

genai_config.json

model.onnx ONNX

model.onnx.data

special_tokens_map.json

tokenizer.json

tokenizer.model

tokenizer_config.json