返回模型
说明文档
DKSplit
用于拼接文本的分词模型。可将域名、品牌名和短语拆分为单词。
当前版本:0.2.3
模型描述
- 架构: BiLSTM-CRF(384 维嵌入,768 维隐藏层,3 层)
- 格式: ONNX,INT8 量化
- 大小: ~9MB
- 输入: 小写 a-z,0-9(最长 64 个字符)
使用方法
安装
pip install dksplit
Python
import dksplit
dksplit.split("chatgptlogin")
# ['chatgpt', 'login']
dksplit.split_batch(["openaikey", "microsoftoffice"])
# [['openai', 'key'], ['microsoft', 'office']]
直接使用 ONNX
import onnxruntime as ort
import numpy as np
session = ort.InferenceSession("dksplit-int8.onnx")
# 完整推理代码请参见 GitHub
文件
dksplit-int8.onnx- ONNX 模型(INT8 量化)dksplit.npz- CRF 参数
限制
- 输入:仅支持 a-z,0-9
- 最大长度:64 个字符
- 非拉丁文字:请使用罗马化形式
链接
许可证
Apache License 2.0 · 版权所有 2026 ABTdomain
引用请注明: DKSplit by ABTdomain
ABTdomain/dksplit
作者 ABTdomain
token-classification
onnx
↓ 0
♥ 1
创建时间: 2026-01-07 16:47:05+00:00
更新时间: 2026-02-11 14:50:01+00:00
在 Hugging Face 上查看文件 (4)
.gitattributes
README.md
dksplit-int8.onnx
ONNX
dksplit.npz