说明文档

Kaloscope 模型的 ONNX 转换版本。

🤗 Space 演示展示了 ONNX 和 PyTorch 推理实现（包括 timm+lsnet；OpenVINO 加速 CPU 推理；无需 Triton - 参见 ska.py 或此处）精简版独立 ONNX 推理脚本（无需 timm 或 lsnet；分数略有不同 - 可能是图像预处理方式不同）：onnx_barebones_inference.py

kaloscope_1-0.onnx：从原始 Kaloscope 发布的 best_checkpoint.pth 导出 | dynamo=False, dynamic_axes={"input": {0: "batch_size"}, "output": {0: "batch_size"},}, opset_version=None（此处使用的 torch 2.8.0 在为 None 时默认为 18），启用优化/常量折叠
kaloscope_1-1.onnx：从 224-85.65/best_checkpoint.pth（即 v1.1）导出 | 设置与 v1.0 相同
v2.0/kaloscope_2-0.onnx：从 Kaloscope2.0/448-90.13/best_checkpoint.pth（即 v2.0）导出 | 设置与 v1.0 相同

转换/导出脚本：colab notebook 还有一个额外的仅 PyTorch EMA 版本（best_checkpoint_ema.pth）的模型，大小约为原版的四分之一，但输出结果似乎不同；未进行详尽测试。推荐使用 ONNX 版本而非此版本（使用的脚本：save_ema.py）

<hr>

v1.0-v1.1 的原始描述（2.0 版本请参见 https://huggingface.co/heathcliff01/Kaloscope2.0）：

LSNet 艺术家风格分类模型 Model Card

模型概述

模型名称: Kaloscope Artist Style Classification Model
模型版本: v1.0
发布日期: 2025年10月
模型类型: 图像分类 (艺术家风格识别)
架构: LSNet (See Large, Focus Small)

模型描述

本模型基于LSNet架构构建，专门用于识别和分类不同艺术家的绘画风格。LSNet是一个轻量级视觉模型，灵感来源于人类视觉系统的动态异尺度能力，即"看大局，聚焦细节"的特性。

架构特点

设计理念: 基于人类视觉系统的"See Large, Focus Small"原理
模型系列: 支持LSNet-T、LSNet-S、LSNet-B三种规模
参数量: 约100M参数
优化目标: 在保持高精度的同时实现高效推理

训练数据

数据来源

数据集: Danbooru数据集 (截止到2024年10月)
数据筛选: 选取图像数量在50张以上的艺术家
总分类数: 31,770个艺术家类别
数据采样策略:
- 图像数量超过100张的艺术家：选取ID最靠后的100张图像
- 图像数量50-100张的艺术家：使用全部图像

数据预处理

图像尺寸: 224×224像素
数据增强: 标准ImageNet预处理流程
验证集划分: 5%的数据用于验证

训练配置

硬件环境

GPU配置: 8×H20 GPU
训练时长: 80个epoch
批次大小: 256 (每GPU)

训练参数

优化器: AdamW
学习率调度: Cosine Annealing
数据并行: 分布式训练 (8卡)
模型参数量: ~100M

性能指标

最终准确率: 84.2%
验证方式: Top-1准确率
评估数据: 验证集 (5%的数据)

模型性能

分类性能

指标	数值
Top-1 准确率	84.2%
总类别数	31,770
参数量	~100M
训练轮数	80 epochs

推理性能

输入格式: RGB图像，224×224像素
输出格式: 31,770维概率分布
推理速度: 高效推理 (具体数值取决于硬件)

使用方法

环境要求

pip install torch torchvision timm

基本使用

import torch
from timm.models import create_model
# 加载模型
model = create_model('lsnet_t_artist', pretrained=True, num_classes=31770)
model.eval()
# 推理
with torch.no_grad():
    output = model(input_tensor)
    probabilities = torch.softmax(output, dim=1)

Comfyui内使用

安装comfyui节点：https://github.com/spawner1145/comfyui-lsnet 下载本仓库模型即可使用

引用信息

@misc{wang2025lsnetlargefocussmall,
      title={LSNet: See Large, Focus Small}, 
      author={Ao Wang and Hui Chen and Zijia Lin and Jungong Han and Guiguang Ding},
      year={2025},
      eprint={2503.23135},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.23135}, 
}

更新日志

v1.0 (2025年10月)

初始版本发布
基于Danbooru数据集训练
支持31,770个艺术家类别
达到84.2%的分类准确率

v1.1 (2025年10月)

150epoch
达到85.6%的分类准确率

免责声明: 本模型仅供研究和教育用途。在商业应用中使用时，请确保遵守相关法律法规和伦理准则。

DraconicDragon/Kaloscope-onnx

作者 DraconicDragon

image-classification

↓ 0 ♥ 5

创建时间: 2025-10-19 08:38:35+00:00

更新时间: 2025-11-26 13:34:31+00:00

在 Hugging Face 上查看

文件 (16)

.gitattributes

README.md

best_checkpoint_ema.pth

class_mapping.csv

convert_scripts/README.md

convert_scripts/kaloscope_pth2onnx_colab.ipynb

convert_scripts/lsnet/lsnet.py

convert_scripts/lsnet/lsnet_artist.py

convert_scripts/lsnet/ska.py

kaloscope_1-0.onnx ONNX

kaloscope_1-1.onnx ONNX

onnx_barebones_inference.py

save_ema.py

v2.0/class_mapping.csv

v2.0/config.json

v2.0/kaloscope_2-0.onnx ONNX