说明文档
alpaca-lora-7b
此 LoRA 训练了 3 个 epoch。
使用 https://github.com/tloen/alpaca-lora(float32, no 8bit) 导出为 hf 格式
使用 optimum 库(https://github.com/huggingface/optimum/pull/922) 导出为 ONNX 格式,未进行任何优化
-- license: other
LLaMA 模型卡片
模型详情
模型开发组织 Meta AI 的 FAIR 团队。
模型日期 LLaMA 于 2022 年 12 月至 2023 年 2 月期间训练。
模型版本 这是该模型的第 1 版。
模型类型 LLaMA 是一种基于 transformer 架构的自回归语言模型。该模型有不同的规模:7B、13B、33B 和 65B 参数。
论文或更多资源 更多信息可在论文"LLaMA, Open and Efficient Foundation Language Models"中找到,地址为 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/。
引用详情 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证 非商业定制许可证
模型问题或反馈渠道 关于 LLaMA 的问题和评论可以通过项目的 GitHub 仓库提交,通过开启 issue 的方式。
预期用途
主要预期用途 LLaMA 的主要用途是大型语言模型的研究,包括: 探索潜在应用,如问答、自然语言理解或阅读理解, 了解当前语言模型的能力和局限性,并开发改进技术, 评估和缓解偏见、风险、有害内容生成和幻觉。
主要预期用户 该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。
超出范围的用例 LLaMA 是一个基础模型。因此,在没有进一步风险评估和缓解措施的情况下,不应将其用于下游应用。特别是,我们的模型没有经过人类反馈训练,因此可能生成有害或冒犯性内容、错误信息或通常无益的回答。
影响因素
相关因素 模型性能可能因使用的语言而异,这是最相关的因素之一。尽管我们在训练数据中包含了 20 种语言,但我们的数据集主要由英文文本组成,因此我们预计模型在英语上的表现优于其他语言。相关地,先前的研究表明,不同方言的表现可能有所不同,我们预计我们的模型也会如此。
评估因素 由于我们的模型是在来自网络的数据上训练的,我们预计它反映了来自该来源的偏见。因此,我们在 RAI 数据集上进行了评估,以测量模型在性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位方面表现出的偏见。我们还根据用于提示模型的上下文的毒性来测量模型生成的毒性。
指标
模型性能衡量标准 我们使用以下指标来评估模型:
- 常识推理、阅读理解、自然语言理解 (MMLU)、BIG-bench hard、WinoGender 和 CrowS-Pairs 的准确率,
- 问答的精确匹配,
- RealToxicityPrompts 上 Perspective API 的毒性评分。
决策阈值 不适用。
不确定性和可变性的处理方法 由于训练 LLM 的高计算需求,我们只训练了每种规模的一个模型,因此无法评估预训练的可变性。
评估数据集
该模型在以下基准上进行了评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。
训练数据集
该模型使用以下数据源进行训练:CCNet [67%]、C4 [15%]、GitHub [4.5%]、Wikipedia [4.5%]、Books [4.5%]、ArXiv [2.5%]、Stack Exchange[2%]。Wikipedia 和 Books 领域包括以下语言的数据:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的更多详情,请参阅论文。
定量分析
模型架构的超参数
<table>
<thead>
<tr>
<th >LLaMA</th> <th colspan=6>模型超参数 </th>
</tr>
<tr>
<th>参数量</th><th>维度</th><th>注意力头数</th><th>层数</th><th>学习率</th><th>批大小</th><th>词元数</th>
</tr>
</thead>
<tbody>
<tr>
<th>7B</th> <th>4096</th> <th>32</th> <th>32</th> <th>3.0E-04</th><th>4M</th><th>1T
</tr>
<tr>
<th>13B</th><th>5120</th><th>40</th><th>40</th><th>3.0E-04</th><th>4M</th><th>1T
</tr>
<tr>
<th>33B</th><th>6656</th><th>52</th><th>60</th><th>1.5.E-04</th><th>4M</th><th>1.4T
</tr>
<tr>
<th>65B</th><th>8192</th><th>64</th><th>80</th><th>1.5.E-04</th><th>4M</th><th>1.4T
</tr>
</tbody>
</table>
表 1 - LLaMA 模型超参数摘要
我们在下表中展示了在八个标准常识推理基准上的结果。
<table>
<thead>
<tr>
<th>LLaMA</th> <th colspan=9>推理任务 </th>
</tr>
<tr>
<th>参数量</th> <th>BoolQ</th><th>PIQA</th><th>SIQA</th><th>HellaSwag</th><th>WinoGrande</th><th>ARC-e</th><th>ARC-c</th><th>OBQA</th><th>COPA</th>
</tr>
</thead>
<tbody>
<tr>
<th>7B</th><th>76.5</th><th>79.8</th><th>48.9</th><th>76.1</th><th>70.1</th><th>76.7</th><th>47.6</th><th>57.2</th><th>93
</th>
<tr><th>13B</th><th>78.1</th><th>80.1</th><th>50.4</th><th>79.2</th><th>73</th><th>78.1</th><th>52.7</th><th>56.4</th><th>94
</th>
<tr><th>33B</th><th>83.1</th><th>82.3</th><th>50.4</th><th>82.8</th><th>76</th><th>81.4</th><th>57.8</th><th>58.6</th><th>92
</th>
<tr><th>65B</th><th>85.3</th><th>82.8</th><th>52.3</th><th>84.2</th><th>77</th><th>81.5</th><th>56</th><th>60.2</th><th>94</th></tr>
</tbody>
</table>
表 2 - LLaMA 模型在推理任务上的性能摘要
我们在下表中展示了偏见方面的结果。注意,数值越低越好,表示偏见越低。
| 序号 | 类别 | FAIR LLM |
|---|---|---|
| 1 | 性别 | 70.6 |
| 2 | 宗教 | 79 |
| 3 | 种族/肤色 | 57 |
| 4 | 性取向 | 81 |
| 5 | 年龄 | 70.1 |
| 6 | 国籍 | 64.2 |
| 7 | 残疾 | 66.7 |
| 8 | 外貌 | 77.8 |
| 9 | 社会经济地位 | 71.5 |
| LLaMA 平均值 | 66.6 |
表 3 - 模型输出偏见摘要
伦理考量
数据 用于训练模型的数据收集自各种来源,主要来自网络。因此,它包含冒犯性、有害和有偏见的内容。我们预计模型会表现出训练数据中的这些偏见。
人类生命 该模型不用于就与人类生命相关的事项做出决策,也不应以这种方式使用。
缓解措施 我们根据与维基百科文本和引用的接近程度过滤了来自网络的数据。为此,我们使用了 Kneser-Ney 语言模型和 fastText 线性分类器。
风险和危害 大型语言模型的风险和危害包括生成有害、冒犯或有偏见的内容。这些模型通常容易生成错误信息,有时被称为幻觉。我们预计我们的模型在这方面也不例外。
用例 LLaMA 是一个基础模型,因此,在没有进一步调查和风险缓解措施的情况下,不应将其用于下游应用。这些风险和潜在的棘手用例包括但不限于:生成错误信息以及生成有害、有偏见或冒犯性内容。
nenkoru/alpaca-lora-7b-onnx-fp32-with-past
作者 nenkoru
创建时间: 2023-03-25 13:42:12+00:00
更新时间: 2023-03-29 19:54:29+00:00
在 Hugging Face 上查看