返回模型
说明文档
INT8 GPT-J 6B
GPT-J 6B 是使用 Ben Wang 的 Mesh Transformer JAX 训练的 Transformer 模型。"GPT-J" 指的是模型类别,而 "6B" 表示可训练参数的数量。
本仓库包含适用于构建 TensorRT int8+fp32 引擎的 GPT-J 6B onnx 模型。模型的量化由 ENOT-AutoDL 框架完成。用于构建 TensorRT 引擎的代码和示例已发布在 GitHub 上。
指标:
| TensorRT INT8+FP32 | torch FP16 | torch FP32 | |
|---|---|---|---|
| Lambada 准确率 | 78.46% | 79.53% | - |
| 模型大小 (GB) | 8.5 | 12.1 | 24.2 |
测试环境
- GPU RTX 4090
- CPU 11th Gen Intel(R) Core(TM) i7-11700K
- TensorRT 8.5.3.1
- pytorch 1.13.1+cu116
延迟:
| 输入序列长度 | 生成 token 数量 | TensorRT INT8+FP32 ms | torch FP16 ms | 加速比 |
|---|---|---|---|---|
| 64 | 64 | 1040 | 1610 | 1.55 |
| 64 | 128 | 2089 | 3224 | 1.54 |
| 64 | 256 | 4236 | 6479 | 1.53 |
| 128 | 64 | 1060 | 1619 | 1.53 |
| 128 | 128 | 2120 | 3241 | 1.53 |
| 128 | 256 | 4296 | 6510 | 1.52 |
| 256 | 64 | 1109 | 1640 | 1.49 |
| 256 | 128 | 2204 | 3276 | 1.49 |
| 256 | 256 | 4443 | 6571 | 1.49 |
测试环境
- GPU RTX 4090
- CPU 11th Gen Intel(R) Core(TM) i7-11700K
- TensorRT 8.5.3.1
- pytorch 1.13.1+cu116
如何使用
推理和精度测试的示例已发布在 GitHub 上:
git clone https://github.com/ENOT-AutoDL/ENOT-transformers
ENOT-AutoDL/gpt-j-6B-tensorrt-int8
作者 ENOT-AutoDL
text-generation
transformers
↓ 0
♥ 7
创建时间: 2023-03-28 09:45:49+00:00
更新时间: 2023-06-08 14:01:56+00:00
在 Hugging Face 上查看文件 (7)
.gitattributes
NVIDIA_GeForce_RTX_2080_Ti-8_5_3_1-i8f32.engine
NVIDIA_GeForce_RTX_3080_Ti-8_5_3_1-i8f32.engine
NVIDIA_GeForce_RTX_4090-8_5_3_1-i8f32.engine
README.md
gptj-i8.data
gptj-i8.onnx
ONNX