đầy đủ – rõ ràng – chi tiết – theo dạng cấu trúc hệ thống
✔ Kiến trúc tổng thể ✔ Các phần mềm cần cài ✔ Thư viện Python ✔ Định hướng hoạt động ✔ Luồng xử lý dữ liệu ✔ Vị trí lưu trữ (SSD/HDD) ✔ Các module AI (diarization, gender, whisper, TTS…) ✔ WebUI Đây là bản thiết kế hoàn chỉnh để bạn làm một hệ thống AI dịch & lồng tiếng video hỗ trợ phân biệt nhân vật. ⭐ 1) CẤU TRÚC TỔNG THỂ CỦA TOÀN BỘ HỆ THỐNG AI- Video -Dubber │ ├── 1 . Video Input │ └── File video gốc ( .mp4 / .mkv / .mov ) │ ├── 2 . Audio Processing │ ├── FFmpeg → tách audio │ └── Whisper .cpp / Faster-Whisper → speech- to -text │ ├── 3 . Speaker Diarization │ └── Pyannote .audio → phân biệt nhân vật (Speaker 0 , 1 , 2 …) │ ├── 4 . Gender/Age Detection │ └── ONNX gender-age model → male/female + young/adult/old │ ├── 5 . Translation │ └── Argos Translate / NLLB distilled │ ├── 6 . Voice Assignment │ └── Gán tên nhân vật + profile giọng │ (Nam – Nữ – Già – Tr ẻ) │ ├── 7 . Text- to -Speech │ └── Coqui TTS (CPU-frie...