说明文档
Kaloscope 模型的 ONNX 转换版本。
🤗 Space 演示 展示了 ONNX 和 PyTorch 推理实现(包括 timm+lsnet;OpenVINO 加速 CPU 推理;无需 Triton - 参见 ska.py 或 此处) 精简版独立 ONNX 推理脚本(无需 timm 或 lsnet;分数略有不同 - 可能是图像预处理方式不同):onnx_barebones_inference.py
kaloscope_1-0.onnx:从原始 Kaloscope 发布的best_checkpoint.pth导出 | dynamo=False, dynamic_axes={"input": {0: "batch_size"}, "output": {0: "batch_size"},}, opset_version=None(此处使用的 torch 2.8.0 在为 None 时默认为 18),启用优化/常量折叠kaloscope_1-1.onnx:从224-85.65/best_checkpoint.pth(即 v1.1)导出 | 设置与 v1.0 相同v2.0/kaloscope_2-0.onnx:从Kaloscope2.0/448-90.13/best_checkpoint.pth(即 v2.0)导出 | 设置与 v1.0 相同
转换/导出脚本:colab notebook
还有一个额外的仅 PyTorch EMA 版本(best_checkpoint_ema.pth)的模型,大小约为原版的四分之一,但输出结果似乎不同;未进行详尽测试。推荐使用 ONNX 版本而非此版本(使用的脚本:save_ema.py)
<hr>
v1.0-v1.1 的原始描述(2.0 版本请参见 https://huggingface.co/heathcliff01/Kaloscope2.0):
LSNet 艺术家风格分类模型 Model Card
模型概述
模型名称:
Kaloscope Artist Style Classification Model
模型版本: v1.0
发布日期: 2025年10月
模型类型: 图像分类 (艺术家风格识别)
架构: LSNet (See Large, Focus Small)
模型描述
本模型基于LSNet架构构建,专门用于识别和分类不同艺术家的绘画风格。LSNet是一个轻量级视觉模型,灵感来源于人类视觉系统的动态异尺度能力,即"看大局,聚焦细节"的特性。
架构特点
- 设计理念: 基于人类视觉系统的"See Large, Focus Small"原理
- 模型系列: 支持LSNet-T、LSNet-S、LSNet-B三种规模
- 参数量: 约100M参数
- 优化目标: 在保持高精度的同时实现高效推理
训练数据
数据来源
- 数据集: Danbooru数据集 (截止到2024年10月)
- 数据筛选: 选取图像数量在50张以上的艺术家
- 总分类数: 31,770个艺术家类别
- 数据采样策略:
- 图像数量超过100张的艺术家:选取ID最靠后的100张图像
- 图像数量50-100张的艺术家:使用全部图像
数据预处理
- 图像尺寸: 224×224像素
- 数据增强: 标准ImageNet预处理流程
- 验证集划分: 5%的数据用于验证
训练配置
硬件环境
- GPU配置: 8×H20 GPU
- 训练时长: 80个epoch
- 批次大小: 256 (每GPU)
训练参数
- 优化器: AdamW
- 学习率调度: Cosine Annealing
- 数据并行: 分布式训练 (8卡)
- 模型参数量: ~100M
性能指标
- 最终准确率: 84.2%
- 验证方式: Top-1准确率
- 评估数据: 验证集 (5%的数据)
模型性能
分类性能
| 指标 | 数值 |
|---|---|
| Top-1 准确率 | 84.2% |
| 总类别数 | 31,770 |
| 参数量 | ~100M |
| 训练轮数 | 80 epochs |
推理性能
- 输入格式: RGB图像,224×224像素
- 输出格式: 31,770维概率分布
- 推理速度: 高效推理 (具体数值取决于硬件)
使用方法
环境要求
pip install torch torchvision timm
基本使用
import torch
from timm.models import create_model
# 加载模型
model = create_model('lsnet_t_artist', pretrained=True, num_classes=31770)
model.eval()
# 推理
with torch.no_grad():
output = model(input_tensor)
probabilities = torch.softmax(output, dim=1)
Comfyui内使用
安装comfyui节点:https://github.com/spawner1145/comfyui-lsnet 下载本仓库模型即可使用
相关资源
- 论文: LSNet: See Large, Focus Small
- 代码仓库: (https://github.com/spawner1145/lsnet-test)
- 预训练模型: 可通过Hugging Face Hub获取
引用信息
@misc{wang2025lsnetlargefocussmall,
title={LSNet: See Large, Focus Small},
author={Ao Wang and Hui Chen and Zijia Lin and Jungong Han and Guiguang Ding},
year={2025},
eprint={2503.23135},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2503.23135},
}
更新日志
v1.0 (2025年10月)
- 初始版本发布
- 基于Danbooru数据集训练
- 支持31,770个艺术家类别
- 达到84.2%的分类准确率
v1.1 (2025年10月)
- 150epoch
- 达到85.6%的分类准确率
免责声明: 本模型仅供研究和教育用途。在商业应用中使用时,请确保遵守相关法律法规和伦理准则。
DraconicDragon/Kaloscope-onnx
作者 DraconicDragon
创建时间: 2025-10-19 08:38:35+00:00
更新时间: 2025-11-26 13:34:31+00:00
在 Hugging Face 上查看