说明文档

wav2vec2-base-10k-voxpopuli-ft-pl (ONNX)

这是 facebook/wav2vec2-base-10k-voxpopuli-ft-pl 的 ONNX 版本。它通过这个 Hugging Face Space 自动转换并上传。

使用 Transformers.js

请参阅 automatic-speech-recognition 的 pipeline 文档：https://huggingface.co/docs/transformers.js/api/pipelines#module_pipelines.AutomaticSpeechRecognitionPipeline

Wav2Vec2-Base-VoxPopuli-Finetuned

Facebook 的 Wav2Vec2 基础模型，在 VoxPopuli 语料库的 10K 无标注子集上进行预训练，并在波兰语的转录数据上进行微调（更多详情请参阅论文中的表 1）。

论文: VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation

作者: Changhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux 来自 Facebook AI

更多信息请参阅官方网站

推理用法

以下展示如何在 Common Voice 数据集的样本上使用该模型进行推理

#!/usr/bin/env python3
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torchaudio
import torch

# 重采样音频

# 加载模型和处理器
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-pl")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-10k-voxpopuli-ft-pl")

# 加载数据集
ds = load_dataset("common_voice", "pl", split="validation[:1%]")

# Common Voice 的采样率与目标采样率不匹配
common_voice_sample_rate = 48000
target_sample_rate = 16000

resampler = torchaudio.transforms.Resample(common_voice_sample_rate, target_sample_rate)


# 定义映射函数来读取音频文件并重采样
def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    speech = resampler(speech)
    batch["speech"] = speech[0]
    return batch


# 加载所有音频文件
ds = ds.map(map_to_array)

# 对前 5 个数据样本运行推理
inputs = processor(ds[:5]["speech"], sampling_rate=target_sample_rate, return_tensors="pt", padding=True)

# 推理
logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, axis=-1)

print(processor.batch_decode(predicted_ids))

onnx-community/wav2vec2-base-10k-voxpopuli-ft-pl-ONNX

作者 onnx-community

automatic-speech-recognition transformers.js

↓ 1 ♥ 0

创建时间: 2025-10-26 14:48:13+00:00

更新时间: 2025-10-26 14:48:22+00:00

在 Hugging Face 上查看

文件 (17)

.gitattributes

README.md

config.json

onnx/model.onnx ONNX

onnx/model_bnb4.onnx ONNX

onnx/model_fp16.onnx ONNX

onnx/model_int8.onnx ONNX

onnx/model_q4.onnx ONNX

onnx/model_q4f16.onnx ONNX

onnx/model_quantized.onnx ONNX

onnx/model_uint8.onnx ONNX

preprocessor_config.json

quantize_config.json

special_tokens_map.json

tokenizer.json

tokenizer_config.json

vocab.json