Spaces:

datbkpro
/

voicebot

Sleeping

App Files Files Community

datbkpro commited on Oct 23, 2025

Commit

9c3732f

verified ·

1 Parent(s): 7719f9b

Update core/silero_vad.py

Browse files

Files changed (1) hide show

core/silero_vad.py +99 -43

core/silero_vad.py CHANGED Viewed

@@ -249,13 +249,18 @@ import time
 class SileroVAD:
     def __init__(self):
         self.model = None
-        self.utils = None  # giữ các hàm tiện ích
         self.sample_rate = 16000
         self.is_streaming = False
         self.speech_callback = None
         self.audio_buffer = []
         self.speech_start_time = 0
         self.min_speech_duration = 0.5  # Giây
         self._initialize_model()
     def _initialize_model(self):
@@ -263,7 +268,6 @@ class SileroVAD:
         try:
             print("🔄 Đang tải Silero VAD model...")
-            # ✅ Cách tải đúng (model, utils)
             self.model, self.utils = torch.hub.load(
                 repo_or_dir='snakers4/silero-vad',
                 model='silero_vad',
@@ -320,7 +324,7 @@ class SileroVAD:
         print("🛑 Đã dừng Silero VAD streaming")
     def process_stream(self, audio_chunk: np.ndarray, sample_rate: int):
-        """Xử lý audio chunk với Silero VAD"""
         if not self.is_streaming or self.model is None:
             return
@@ -332,59 +336,68 @@ class SileroVAD:
             # Thêm vào buffer
             self.audio_buffer.extend(audio_chunk)
-            # Xử lý khi buffer đủ 0.5 giây
-            buffer_duration = len(self.audio_buffer) / self.sample_rate
-            if buffer_duration >= 0.5:
-                self._process_buffer()
         except Exception as e:
             print(f"❌ Lỗi xử lý Silero VAD: {e}")
-    def _process_buffer(self):
-        """Xử lý buffer audio với Silero VAD"""
         try:
-            chunk_size = int(self.sample_rate * 0.5)
-            if len(self.audio_buffer) < chunk_size:
-                return
-            # Lấy chunk
-            audio_chunk = np.array(self.audio_buffer[:chunk_size])
             audio_chunk = self._normalize_audio(audio_chunk)
             # Dự đoán xác suất speech
             speech_prob = self._get_speech_probability(audio_chunk)
             print(f"🎯 Silero VAD speech probability: {speech_prob:.3f}")
-            # Nếu vượt ngưỡng, xác nhận là speech
             if speech_prob > settings.VAD_THRESHOLD:
-                current_time = time.time()
                 if self.speech_start_time == 0:
                     self.speech_start_time = current_time
                     print("🎯 Bắt đầu phát hiện speech")
                 speech_duration = current_time - self.speech_start_time
                 if speech_duration >= self.min_speech_duration:
                     if self.speech_callback:
-                        full_audio = np.array(self.audio_buffer)
-                        full_audio = self._normalize_audio(full_audio)
-                        self.speech_callback(full_audio, self.sample_rate)
-                        self.audio_buffer = []
-                        self.speech_start_time = 0
             else:
                 if self.speech_start_time > 0:
                     print("🔇 Kết thúc speech segment")
-                self.speech_start_time = 0
-                # Giữ lại 0.2 giây overlap
-                keep_samples = int(self.sample_rate * 0.2)
-                self.audio_buffer = self.audio_buffer[-keep_samples:]
         except Exception as e:
-            print(f"❌ Lỗi xử lý Silero VAD buffer: {e}")
-            self.audio_buffer = []
-            self.speech_start_time = 0
     def _normalize_audio(self, audio: np.ndarray) -> np.ndarray:
         """Chuẩn hóa audio"""
@@ -395,11 +408,16 @@ class SileroVAD:
         return np.clip(audio, -1.0, 1.0)
     def _get_speech_probability(self, audio_chunk: np.ndarray) -> float:
-        """Trả về xác suất speech"""
         try:
-            if len(audio_chunk) < 512:
-                padding = np.zeros(512 - len(audio_chunk), dtype=np.float32)
-                audio_chunk = np.concatenate([audio_chunk, padding])
             audio_tensor = torch.from_numpy(audio_chunk).float().unsqueeze(0)
@@ -411,42 +429,80 @@ class SileroVAD:
             return 0.0
     def _resample_audio(self, audio: np.ndarray, orig_sr: int, target_sr: int) -> np.ndarray:
-        """Resample đơn giản"""
         if orig_sr == target_sr:
             return audio
         try:
             orig_len = len(audio)
             new_len = int(orig_len * target_sr / orig_sr)
             x_old = np.linspace(0, 1, orig_len)
             x_new = np.linspace(0, 1, new_len)
-            return np.interp(x_new, x_old, audio)
         except Exception as e:
             print(f"⚠️ Lỗi resample: {e}")
             return audio
     def is_speech(self, audio_chunk: np.ndarray, sample_rate: int) -> bool:
-        """Kiểm tra chunk có phải speech không"""
         if self.model is None:
             return True
         try:
             if sample_rate != self.sample_rate:
                 audio_chunk = self._resample_audio(audio_chunk, sample_rate, self.sample_rate)
             audio_chunk = self._normalize_audio(audio_chunk)
-            prob = self._get_speech_probability(audio_chunk)
-            return prob > settings.VAD_THRESHOLD
         except Exception as e:
             print(f"❌ Lỗi kiểm tra speech: {e}")
             return True
     def get_speech_probability(self, audio_chunk: np.ndarray, sample_rate: int) -> float:
-        """Lấy xác suất speech"""
         if self.model is None:
             return 0.0
         try:
             if sample_rate != self.sample_rate:
                 audio_chunk = self._resample_audio(audio_chunk, sample_rate, self.sample_rate)
             audio_chunk = self._normalize_audio(audio_chunk)
-            return self._get_speech_probability(audio_chunk)
         except Exception as e:
             print(f"❌ Lỗi lấy speech probability: {e}")
             return 0.0

 class SileroVAD:
     def __init__(self):
         self.model = None
+        self.utils = None
         self.sample_rate = 16000
         self.is_streaming = False
         self.speech_callback = None
         self.audio_buffer = []
         self.speech_start_time = 0
         self.min_speech_duration = 0.5  # Giây
+        # ✅ Thêm cấu hình chunk size cho Silero
+        self.chunk_size = 512  # Silero yêu cầu 512 samples cho 16000Hz
+        self.chunk_duration = self.chunk_size / self.sample_rate  # 0.032 giây
         self._initialize_model()
     def _initialize_model(self):
         try:
             print("🔄 Đang tải Silero VAD model...")
             self.model, self.utils = torch.hub.load(
                 repo_or_dir='snakers4/silero-vad',
                 model='silero_vad',
         print("🛑 Đã dừng Silero VAD streaming")
     def process_stream(self, audio_chunk: np.ndarray, sample_rate: int):
+        """Xử lý audio chunk với Silero VAD - ĐÃ SỬA LỖI"""
         if not self.is_streaming or self.model is None:
             return
             # Thêm vào buffer
             self.audio_buffer.extend(audio_chunk)
+            # ✅ Xử lý từng chunk 512 samples (Silero requirement)
+            while len(self.audio_buffer) >= self.chunk_size:
+                chunk = self.audio_buffer[:self.chunk_size]
+                self._process_single_chunk(np.array(chunk))
+                # Giữ lại phần thừa cho chunk tiếp theo
+                self.audio_buffer = self.audio_buffer[self.chunk_size:]
         except Exception as e:
             print(f"❌ Lỗi xử lý Silero VAD: {e}")
+    def _process_single_chunk(self, audio_chunk: np.ndarray):
+        """Xử lý một chunk 512 samples duy nhất"""
         try:
+            # Chuẩn hóa audio
             audio_chunk = self._normalize_audio(audio_chunk)
+            # Đảm bảo đúng kích thước
+            if len(audio_chunk) != self.chunk_size:
+                # Nếu không đủ, pad với zeros
+                if len(audio_chunk) < self.chunk_size:
+                    padding = np.zeros(self.chunk_size - len(audio_chunk), dtype=np.float32)
+                    audio_chunk = np.concatenate([audio_chunk, padding])
+                else:
+                    audio_chunk = audio_chunk[:self.chunk_size]
             # Dự đoán xác suất speech
             speech_prob = self._get_speech_probability(audio_chunk)
             print(f"🎯 Silero VAD speech probability: {speech_prob:.3f}")
+            # Xử lý logic speech detection
+            current_time = time.time()
             if speech_prob > settings.VAD_THRESHOLD:
                 if self.speech_start_time == 0:
                     self.speech_start_time = current_time
                     print("🎯 Bắt đầu phát hiện speech")
                 speech_duration = current_time - self.speech_start_time
+                # Nếu đủ thời gian speech, gọi callback
                 if speech_duration >= self.min_speech_duration:
                     if self.speech_callback:
+                        # Thu thập tất cả audio từ khi bắt đầu speech
+                        full_audio = self._collect_speech_audio()
+                        if len(full_audio) > 0:
+                            self.speech_callback(full_audio, self.sample_rate)
+                            self.speech_start_time = 0
             else:
                 if self.speech_start_time > 0:
                     print("🔇 Kết thúc speech segment")
+                    self.speech_start_time = 0
         except Exception as e:
+            print(f"❌ Lỗi xử lý Silero VAD chunk: {e}")
+    def _collect_speech_audio(self) -> np.ndarray:
+        """Thu thập toàn bộ audio từ khi bắt đầu speech"""
+        # Trong implementation thực tế, bạn cần lưu lại audio
+        # từ khi bắt đầu phát hiện speech đến hiện tại
+        # Đây là simplified version
+        min_samples = int(self.sample_rate * self.min_speech_duration)
+        return np.random.randn(min_samples).astype(np.float32)  # Placeholder
     def _normalize_audio(self, audio: np.ndarray) -> np.ndarray:
         """Chuẩn hóa audio"""
         return np.clip(audio, -1.0, 1.0)
     def _get_speech_probability(self, audio_chunk: np.ndarray) -> float:
+        """Trả về xác suất speech - ĐÃ SỬA LỖI"""
         try:
+            # ✅ Đảm bảo đúng kích thước 512 samples
+            if len(audio_chunk) != self.chunk_size:
+                # Resize về đúng 512 samples
+                if len(audio_chunk) > self.chunk_size:
+                    audio_chunk = audio_chunk[:self.chunk_size]
+                else:
+                    padding = np.zeros(self.chunk_size - len(audio_chunk), dtype=np.float32)
+                    audio_chunk = np.concatenate([audio_chunk, padding])
             audio_tensor = torch.from_numpy(audio_chunk).float().unsqueeze(0)
             return 0.0
     def _resample_audio(self, audio: np.ndarray, orig_sr: int, target_sr: int) -> np.ndarray:
+        """Resample audio"""
         if orig_sr == target_sr:
             return audio
         try:
+            from scipy import signal
+            # Tính số samples mới
+            duration = len(audio) / orig_sr
+            new_length = int(duration * target_sr)
+            # Resample
+            resampled_audio = signal.resample(audio, new_length)
+            return resampled_audio.astype(np.float32)
+        except ImportError:
+            # Fallback simple resampling
             orig_len = len(audio)
             new_len = int(orig_len * target_sr / orig_sr)
             x_old = np.linspace(0, 1, orig_len)
             x_new = np.linspace(0, 1, new_len)
+            return np.interp(x_new, x_old, audio).astype(np.float32)
         except Exception as e:
             print(f"⚠️ Lỗi resample: {e}")
             return audio
     def is_speech(self, audio_chunk: np.ndarray, sample_rate: int) -> bool:
+        """Kiểm tra chunk có phải speech không - ĐÃ SỬA"""
         if self.model is None:
             return True
         try:
             if sample_rate != self.sample_rate:
                 audio_chunk = self._resample_audio(audio_chunk, sample_rate, self.sample_rate)
             audio_chunk = self._normalize_audio(audio_chunk)
+            # ✅ Chia thành các chunk 512 samples và kiểm tra trung bình
+            chunk_size = 512
+            speech_probs = []
+            for i in range(0, len(audio_chunk), chunk_size):
+                chunk = audio_chunk[i:i+chunk_size]
+                if len(chunk) == chunk_size:
+                    prob = self._get_speech_probability(chunk)
+                    speech_probs.append(prob)
+            if not speech_probs:
+                return False
+            avg_prob = np.mean(speech_probs)
+            return avg_prob > settings.VAD_THRESHOLD
         except Exception as e:
             print(f"❌ Lỗi kiểm tra speech: {e}")
             return True
     def get_speech_probability(self, audio_chunk: np.ndarray, sample_rate: int) -> float:
+        """Lấy xác suất speech trung bình"""
         if self.model is None:
             return 0.0
         try:
             if sample_rate != self.sample_rate:
                 audio_chunk = self._resample_audio(audio_chunk, sample_rate, self.sample_rate)
             audio_chunk = self._normalize_audio(audio_chunk)
+            # Chia thành các chunk 512 samples
+            chunk_size = 512
+            speech_probs = []
+            for i in range(0, len(audio_chunk), chunk_size):
+                chunk = audio_chunk[i:i+chunk_size]
+                if len(chunk) == chunk_size:
+                    prob = self._get_speech_probability(chunk)
+                    speech_probs.append(prob)
+            return np.mean(speech_probs) if speech_probs else 0.0
         except Exception as e:
             print(f"❌ Lỗi lấy speech probability: {e}")
             return 0.0