Công cụ AI mới của Microsoft chỉ cần nghe 3 giây giọng nói của bạn để bắt chước bạn

V
VNR Content
Phản hồi: 0
VALL-E có thể bảo tồn giai điệu cảm xúc của người nói ban đầu, thậm chí mô phỏng môi trường âm thanh của họ.
Bất chấp những tiến bộ trong việc tạo video AI đã đạt được như thế nào, nó vẫn yêu cầu khá nhiều tài liệu nguồn, chẳng hạn như ảnh chụp trực diện từ nhiều góc độ khác nhau hoặc cảnh quay video để tạo ra một phiên bản deepfake thuyết phục về chân dung của một người. Khi nói đến việc giả giọng nói, đó lại là một câu chuyện khác, vì các nhà nghiên cứu của Microsoft gần đây đã tiết lộ một công cụ AI mới có thể mô phỏng giọng nói của ai đó chỉ bằng cách sử dụng một đoạn mẫu họ nói trong 3 giây.
Công cụ AI mới của Microsoft chỉ cần nghe 3 giây giọng nói của bạn để bắt chước bạn
Công cụ mới, một “mô hình ngôn ngữ codec thần kinh” có tên là VALL-E, được xây dựng trên công nghệ nén âm thanh EnCodec của Meta, được tiết lộ vào cuối năm ngoái, sử dụng AI để nén âm thanh chất lượng tốt hơn CD thành tốc độ dữ liệu nhỏ hơn 10 lần so với tốc độ truyền dữ liệu file MP3 mà không làm giảm chất lượng đáng kể. Meta đã hình dung EnCodec là một cách để cải thiện chất lượng cuộc gọi điện thoại ở những khu vực có vùng phủ sóng di động thưa thớt hoặc là một cách để giảm nhu cầu băng thông cho các dịch vụ phát nhạc trực tuyến, nhưng Microsoft đang tận dụng công nghệ này như một cách để biến quá trình tổng hợp văn bản thành giọng nói nghe hay hơn thực tế dựa trên một mẫu nguồn rất hạn chế.
Các hệ thống chuyển văn bản thành giọng nói hiện tại có thể tạo ra giọng nói rất chân thực, đó là lý do tại sao các trợ lý thông minh có âm thanh rất chân thực mặc dù các phản hồi bằng lời nói được tạo ra một cách nhanh chóng. Nhưng chúng yêu cầu dữ liệu đào tạo chất lượng cao và rất rõ ràng, dữ liệu này thường được ghi lại trong phòng thu âm với thiết bị chuyên nghiệp. Cách tiếp cận của Microsoft giúp VALL-E có khả năng mô phỏng giọng nói của hầu hết mọi người mà không cần họ phải dành hàng tuần trong phòng thu. Thay vào đó, công cụ này được đào tạo bằng cách sử dụng bộ dữ liệu Libri-light của Meta, chứa 60.000 giờ bài phát biểu bằng tiếng Anh được ghi âm từ hơn 7.000 người nói duy nhất, “được trích xuất và xử lý từ sách nói LibriVox”, tất cả đều thuộc phạm vi công cộng.
Microsoft đã chia sẻ một bộ sưu tập phong phú các mẫu do VALL-E tạo ra để bạn có thể tự mình nghe thấy khả năng mô phỏng giọng nói có khả năng như thế nào, nhưng kết quả hiện tại là một túi hỗn hợp. Đôi khi, công cụ này gặp sự cố khi tạo lại các dấu, kể cả những dấu tinh tế từ các mẫu nguồn mà người nói phát ra âm thanh Ailen và khả năng thay đổi cảm xúc của một cụm từ nhất định đôi khi gây cười. Nhưng thông thường, các mẫu do VALL-E tạo ra có âm thanh tự nhiên, ấm áp và hầu như không thể phân biệt được với loa gốc trong ba clip nguồn thứ hai.
Ở dạng hiện tại, được đào tạo trên Libri-light, VALL-E bị giới hạn trong việc mô phỏng giọng nói bằng tiếng Anh và mặc dù hiệu suất vẫn chưa hoàn hảo, nhưng chắc chắn nó sẽ cải thiện khi bộ dữ liệu mẫu được mở rộng hơn nữa. Tuy nhiên, việc cải thiện VALL-E sẽ tùy thuộc vào các nhà nghiên cứu của Microsoft vì nhóm không phát hành mã nguồn của công cụ. Trong một bài báo nghiên cứu được phát hành gần đây trình bày chi tiết về sự phát triển của VALL-E, những người tạo ra nó hoàn toàn hiểu những rủi ro mà nó gây ra:
“ Vì VALL-E có thể tổng hợp giọng nói để duy trì danh tính của người nói nên nó có thể tiềm ẩn rủi ro khi sử dụng sai, chẳng hạn như nhận dạng giọng nói giả mạo hoặc mạo danh một người nói cụ thể. Để giảm thiểu những rủi ro như vậy, có thể xây dựng mô hình phát hiện để phân biệt xem clip âm thanh có được tổng hợp bởi VALL-E hay không. Chúng tôi cũng sẽ áp dụng các Nguyên tắc Trí tuệ nhân tạo của Microsoft vào thực tiễn khi tiếp tục phát triển các mô hình”, theo Microsoft.
 
Sửa lần cuối bởi điều hành viên:


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

Điểm danh 6 tính năng phổ biến nhất của máy lọc không khí hiện nay, ai chuẩn bị mua cần chú ý

  • 121
  • 0
1. Công nghệ lọc không khí HEPA – Chuẩn mực vàng trong lọc bụi mịn HEPA (High-Efficiency Particulate Air) là công nghệ lọc không khí tiên tiến, có...

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

  • 145
  • 0
Hiện nay, máy lọc không khí đang được ngày càng nhiều gia đình sử dụng bởi tính năng lọc sạch không khí tuyệt vời, làm thoáng đãng không gian đặc...

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

  • 144
  • 0
Elmich là một thương hiệu gia dụng cao cấp đến từ Cộng hòa Séc, được thành lập vào năm 1995 tại thành phố Ostrava. Với gần 30 năm phát triển...

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

  • 143
  • 0
Theo báo cáo của Epoch AI (viện nghiên cứu tại San Francisco, công bố cuối tháng 4/2025), đến năm 2030, các siêu máy tính hàng đầu dùng để huấn...

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

  • 134
  • 0
Samsung vừa thông báo rằng dòng TV QLED mới nhất của hãng đã nhận được chứng nhận ‘Màn hình Chấm lượng tử Đích thực’ (Real Quantum Dot Display) từ...
Back
Top