bezzam
/

VibeVoice-SemanticTokenizer

Feature Extraction

vibevoice_semantic_tokenizer

audio tokenizer

Model card Files Files and versions

bezzam HF Staff commited on 9 days ago

Commit

fecb8fe

·

verified ·

1 Parent(s): acea1e6

Update README.md

Files changed (1) hide show

README.md +47 -1

README.md CHANGED Viewed

@@ -34,4 +34,50 @@ The model can synthesize speech up to **90 minutes** long with up to **4 distinc
 | VibeVoice-7B| 32K | ~45 min | [HF link](https://huggingface.co/microsoft/VibeVoice-7B) |
 | VibeVoice-AcousticTokenizer | - | - | [HF link](https://huggingface.co/microsoft/VibeVoice-AcousticTokenizer) |
 | VibeVoice-SemanticTokenizer | - | - | This model |
-| VibeVoice-0.5B-Streaming | - | - | On the way |

 | VibeVoice-7B| 32K | ~45 min | [HF link](https://huggingface.co/microsoft/VibeVoice-7B) |
 | VibeVoice-AcousticTokenizer | - | - | [HF link](https://huggingface.co/microsoft/VibeVoice-AcousticTokenizer) |
 | VibeVoice-SemanticTokenizer | - | - | This model |
+# Usage
+Below is example usage to encode audio for extracting semantic features:
+```python
+import torch
+from transformers import AutoFeatureExtractor, VibeVoiceSemanticTokenizerModel
+from transformers.audio_utils import load_audio_librosa
+model_id = "bezzam/VibeVoice-SemanticTokenizer"
+sampling_rate = 24000
+# load audio
+audio = load_audio_librosa(
+    "https://hf.co/datasets/bezzam/vibevoice_samples/resolve/main/voices/en-Alice_woman.wav",
+    sampling_rate=sampling_rate,
+)
+# load model
+device = "cuda" if torch.cuda.is_available() else "cpu"
+feature_extractor = AutoFeatureExtractor.from_pretrained(model_id)
+model = VibeVoiceSemanticTokenizerModel.from_pretrained(
+    model_id,
+    device_map=device,
+).eval()
+# preprocess audio
+inputs = feature_extractor(
+    audio,
+    sampling_rate=sampling_rate,
+    padding=True,
+    pad_to_multiple_of=3200,
+    return_attention_mask=False,
+    return_tensors="pt",
+).to(device)
+print("Input audio shape:", inputs.input_features.shape)
+# Input audio shape: torch.Size([1, 1, 224000])
+# encode
+with torch.no_grad():
+    encoded_outputs = model.encode(inputs.input_features)
+print("Latent shape:", encoded_outputs.latents.shape)
+# Latent shape: torch.Size([1, 70, 128])
+```