ONNX 模型库
返回模型

说明文档

INT8 GPT-J 6B

GPT-J 6B 是使用 Ben Wang 的 Mesh Transformer JAX 训练的 Transformer 模型。"GPT-J" 指的是模型类别,而 "6B" 表示可训练参数的数量。

本仓库包含适用于构建 TensorRT int8+fp32 引擎的 GPT-J 6B onnx 模型。模型的量化由 ENOT-AutoDL 框架完成。用于构建 TensorRT 引擎的代码和示例已发布在 GitHub 上。

指标:

TensorRT INT8+FP32 torch FP16 torch FP32
Lambada 准确率 78.46% 79.53% -
模型大小 (GB) 8.5 12.1 24.2

测试环境

  • GPU RTX 4090
  • CPU 11th Gen Intel(R) Core(TM) i7-11700K
  • TensorRT 8.5.3.1
  • pytorch 1.13.1+cu116

延迟:

输入序列长度 生成 token 数量 TensorRT INT8+FP32 ms torch FP16 ms 加速比
64 64 1040 1610 1.55
64 128 2089 3224 1.54
64 256 4236 6479 1.53
128 64 1060 1619 1.53
128 128 2120 3241 1.53
128 256 4296 6510 1.52
256 64 1109 1640 1.49
256 128 2204 3276 1.49
256 256 4443 6571 1.49

测试环境

  • GPU RTX 4090
  • CPU 11th Gen Intel(R) Core(TM) i7-11700K
  • TensorRT 8.5.3.1
  • pytorch 1.13.1+cu116

如何使用

推理和精度测试的示例已发布在 GitHub 上:

git clone https://github.com/ENOT-AutoDL/ENOT-transformers

ENOT-AutoDL/gpt-j-6B-tensorrt-int8

作者 ENOT-AutoDL

text-generation transformers
↓ 0 ♥ 7

创建时间: 2023-03-28 09:45:49+00:00

更新时间: 2023-06-08 14:01:56+00:00

在 Hugging Face 上查看

文件 (7)

.gitattributes
NVIDIA_GeForce_RTX_2080_Ti-8_5_3_1-i8f32.engine
NVIDIA_GeForce_RTX_3080_Ti-8_5_3_1-i8f32.engine
NVIDIA_GeForce_RTX_4090-8_5_3_1-i8f32.engine
README.md
gptj-i8.data
gptj-i8.onnx ONNX