Tổng quan
FPT.AI Speech - Chuyển văn bản thành giọng nói
Giới thiệu
Tổng hợp tiếng nói (Speech Synthesis) là bài toán cơ bản trong bài toán lớn về giao tiếp giữa người và máy (Human Machine Interface). Với tham vọng riêng của mình, Ban công nghệ FPT (FTI) đã nỗ lực nghiên cứu và ra mắt sản phẩm FPT Speech Synthesis. Sản phẩm là sự kết hợp của:
- Ngôn ngữ học (Linguistics): Âm vị học (Phonology), Hình thái học (Morphology), Ngữ dụng học (Pragmatics),
- Vật lý học: Âm học (Acoustics),
- Công nghệ: Xử lý ngôn ngữ tự nhiên (Natural Language Processing), Học máy (Machine Learning), Xử lý tín hiệu số (Digital Signal Processing).
Được đánh giá là hệ thống tổng hợp tiếng nói tiếng Việt có chất lượng tốt nhất thị trường hiện nay, hệ thống tổng hợp tiếng Việt mới của FPT đang được mở trên https://voicemaker.fpt.ai/. Các nhà phát triển có thể khai thác nguồn tài nguyên này để xây dựng ứng dụng của riêng mình trên các nền tảng khác nhau.
Ứng dụng
Tổng hợp tiếng nói có nhiều ứng dụng, ví dụ như:
- Xây dựng hệ thống giao tiếp tự động: tổng đài tự động, máy phục vụ tự động, robot giúp việc...
- Tăng cường trải nghiệm: đọc nội dung cho người dùng khi không thể theo dõi màn hình, các ứng dụng đọc sách báo tự động, …
- Phục vụ tương tác bằng âm thanh dành cho người khiếm thị