Phần mềm Adapt-TTS chuyển đổi văn bản thành tiếng nói tiếng Việt - hướng nghiên cứu nổi lên gần đây về giọng đọc nhân tạo được cá nhân hóa

26/12/2023
Trong hội nghị tổng kết công tác năm 2023 và triển khai kế hoạch năm 2024, lần đầu tiên RÚT TIỀN 188BET sử dụng AI để tự động đọc báo cáo toàn văn với giọng đọc mô phỏng giống hệt Chủ tịch Viện. Đây là kết quả nghiên cứu của PGS.TS Lương Chi Mai - Viện Công nghệ thông tin và cộng sự, có tên là phần mềm thích nghi chuyển đổi văn bản thành tiếng nói tiếng Việt, thuật ngữ tiếng Anh là Adaptation Text-to-Speech (hay gọi tắt là là Adapt-TTS).

Trình diễn tự động đọc báo cáo toàn văn với giọng đọc mô phỏng giống hệt Chủ tịch Viện tại Hội nghị tổng kết công tác năm 2023 và triển khai kế hoạch năm 2024 của Viện Hàn lâm KHCNVN

Đây là hướng nghiên cứu nổi lên gần đây về giọng đọc nhân tạo được cá nhân hóa. Nhóm của PGS. Lương Chi Mai đã phát triển những khảo sát, nghiên cứu để trả lời cho một số câu hỏi – trong đó có câu hỏi về số lượng mẫu (thời gian thu âm) và thời gian huấn luyện của giọng cá nhân hóa cần đạt trong ngưỡng bao nhiêu để có thể có ứng dụng thực tế, trong khi vẫn đảm bảo giọng mới mang các đặc trưng của giọng nói mẫu. Hệ thống tổng hợp tiếng nói Text-to-speech(TTS) thông thường phải xây dựng trên các bộ CSDL lớn khó thu thập, đây là bài toán khó nói chung cho các ngôn ngữ cũng như cho tiếng Việt nói riêng, do tiếng Việt có tính đặc thù của ngôn ngữ như thanh điệu, ngữ điệu và tài nguyên hạn chế.

Để tạo ra giọng mới với mẫu quá nhỏ không đủ từ vựng thì kỹ thuật đề xuất cho phép những gì chưa có của giọng mới sẽ được mượn từ những người khác. Thích nghi cho tiếng Việt với dữ liệu mẫu cá nhân nhỏ có thông qua huấn luyện hoặc không huấn luyện sử dụng các mô hình học sâu (Deep learning) với kiến trúc End-to-End để tạo ra giọng đặc trưng riêng cũng là kỹ thuật tiên tiến và là chủ đề có tính thời sự hiện nay trên thế giới. 

PGS.TS Lương Chi Mai trình bày kết quả nghiên cứu tại Hội nghị tổng kết

Kết quả nghiên cứu cho phép tạo giọng đọc mới với việc lấy mẫu giọng nói khá ngắn dưới 10 phút thay vì phải lấy mẫu dữ liệu lên đến khoảng 10 giờ như trước đây, và đã được chuyển giao thương mại cho một số Đài PTTH. Giọng nói mô phỏng Chủ tịch RÚT TIỀN 188BET được trình diễn trước các lãnh đạo các Bộ, ngành, cơ quan trung ương đã một lần nữa khẳng định sự tiên phong trong nghiên cứu, triển khai ứng dụng công nghệ mới của một cơ quan nghiên cứu khoa học công nghệ hàng đầu Việt Nam.

Nguồn: NCV. Phạm Ngọc Phương, Viện Công nghệ thông tin
Xử lý tin: Mai Lan



Tags:
Tin liên quan