说明文档

在多语言 Common Voice 上微调的 Wav2Vec2-Large-LV60

该检查点基于预训练检查点 wav2vec2-large-lv60，并在 CommonVoice 上进行微调，以识别多种语言的音素标签。

使用该模型时，请确保您的语音输入采样率为 16kHz。请注意，该模型输出的是音素标签字符串。需要使用音素标签到单词的字典，将音素输出标签映射为输出单词。

作者：Qiantong Xu, Alexei Baevski, Michael Auli

摘要自训练、自监督预训练和无监督学习的最新进展使得无需任何标注数据即可构建性能良好的语音识别系统。然而，在许多情况下，相关语言的标注数据是可用的，但这些方法并未加以利用。本文扩展了之前关于零样本跨语言迁移学习的工作，通过微调多语言预训练的 wav2vec 2.0 模型来转录未见过的语言。具体方法是通过发音特征将训练语言的音素映射到目标语言。实验表明，这种简单的方法显著优于之前引入特定任务架构且仅使用单语预训练模型部分的工作。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

使用方法

要转录音频文件，该模型可以作为独立的声学模型使用，如下所示：

 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values
 
 # retrieve logits
 with torch.no_grad():
   logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)
 # => should give ['m ɪ s t ɚ k w ɪ l t ɚ ɹ ɪ z ð ɪ ɐ p ɑː s əl ʌ v ð ə m ɪ d əl k l æ s ᵻ z æ n d w iː ɑːɹ ɡ l æ d t ə w ɛ l k ə m h ɪ z ɡ ɑː s p əl]

mattkimcreates/wav2vec2-lv-60-espeak-cv-ft-js

作者 mattkimcreates

automatic-speech-recognition transformers.js

↓ 1 ♥ 0

创建时间: 2025-09-27 00:58:07+00:00

更新时间: 2025-09-27 01:14:15+00:00

在 Hugging Face 上查看

文件 (8)

.gitattributes

README.md

config.json

generate_feature_mapping.py

preprocessor_config.json

special_tokens_map.json

tokenizer_config.json

vocab.json