说明文档

INT8 GPT-J 6B

GPT-J 6B 是使用 Ben Wang 的 Mesh Transformer JAX 训练的 Transformer 模型。"GPT-J" 指的是模型类别，而 "6B" 表示可训练参数的数量。

本仓库包含适用于构建 TensorRT int8+fp32 引擎的 GPT-J 6B onnx 模型。模型的量化由 ENOT-AutoDL 框架完成。用于构建 TensorRT 引擎的代码和示例已发布在 GitHub 上。

	TensorRT INT8+FP32	torch FP16	torch FP32
Lambada 准确率	78.46%	79.53%	-
模型大小 (GB)	8.5	12.1	24.2

输入序列长度	生成 token 数量	TensorRT INT8+FP32 ms	torch FP16 ms	加速比
64	64	1040	1610	1.55
64	128	2089	3224	1.54
64	256	4236	6479	1.53
128	64	1060	1619	1.53
128	128	2120	3241	1.53
128	256	4296	6510	1.52
256	64	1109	1640	1.49
256	128	2204	3276	1.49
256	256	4443	6571	1.49

推理和精度测试的示例已发布在 GitHub 上：

git clone https://github.com/ENOT-AutoDL/ENOT-transformers

作者 ENOT-AutoDL

text-generation transformers

↓ 0 ♥ 7

创建时间: 2023-03-28 09:45:49+00:00

更新时间: 2023-06-08 14:01:56+00:00

.gitattributes

NVIDIA_GeForce_RTX_2080_Ti-8_5_3_1-i8f32.engine

NVIDIA_GeForce_RTX_3080_Ti-8_5_3_1-i8f32.engine

NVIDIA_GeForce_RTX_4090-8_5_3_1-i8f32.engine

README.md

gptj-i8.data

gptj-i8.onnx ONNX