Thuật toán trí tuệ nhân tạo dựng lại chân dung người chỉ bằng giọng nói từ video Youtube

V
VNR Content
Phản hồi: 0
Các nhà khoa học tại Học viện Công nghệ Massachusetts (MIT-Mỹ) lần đầu tiên thành công trong việc ứng dụng thuật toán để tái tạo lại chân dung chỉ từ giọng nói.
Thuật toán trí tuệ nhân tạo dựng lại chân dung người chỉ bằng giọng nói từ video Youtube
Thuật toán AI được đặt tên là Speech2Face được các nhà khoa học trí tuệ nhân tạo (AI) tại Phòng thí nghiệm Khoa học máy tính và Trí tuệ nhân tạo (CSAIL) của MIT phát triển, giúp tái tạo lại khuôn mặt một người chỉ bằng một đoạn ghi âm ngắn giọng nói và kết quả rất ấn tượng.
Đầu tiên, các nhà nghiên cứu thiết kế và đào tạo một mạng neuron nhân tạo học sâu, bằng cách sử dụng hàng triệu video từ YouTube và internet lúc mọi người đang nói chuyện.
Trong quá trình đào tạo này, AI đã học được mối tương quan giữa âm thanh của giọng nói và người nói trông như thế nào. Những mối tương quan đó cho phép AI đưa ra những phỏng đoán tốt nhất về độ tuổi, giới tính và quốc tịch của người nói.
Thuật toán trí tuệ nhân tạo dựng lại chân dung người chỉ bằng giọng nói từ video Youtube
Hình ảnh thực tế của người nói (trái) và hình được tái tạo bởi AI từ giọng nói của họ (phải). (Ảnh: Speech2Face).
Không có sự tham gia của con người trong quá trình đào tạo. AI chỉ được cung cấp một lượng lớn video và có nhiệm vụ tìm ra mối tương quan giữa đặc điểm giọng nói và đặc điểm khuôn mặt.
Sau khi được đào tạo, AI đã rất giỏi trong việc tạo ra các bức chân dung chỉ dựa trên các bản ghi âm giọng nói giống với những gì người nói thực sự trông như thế nào.
Để phân tích thêm độ chính xác của việc tái tạo khuôn mặt, các nhà nghiên cứu đã xây dựng "bộ giải mã khuôn mặt". Bộ giải mã sẽ tạo ra một bản tái tạo tiêu chuẩn cho khuôn mặt của một người từ hình ảnh tĩnh của họ khi bỏ qua "các biến thể không liên quan", chẳng hạn như tư thế chụp ảnh và ánh sáng. Điều này cho phép các nhà khoa học dễ dàng so sánh các bản tái tạo giọng nói với các đặc trưng thực tế của người nói.
Thuật toán trí tuệ nhân tạo dựng lại chân dung người chỉ bằng giọng nói từ video Youtube
Một lần nữa, kết quả của AI rất gần với khuôn mặt thật trong rất nhiều các trường hợp được nghiên cứu từ nhiều độ tuổi, giới tính và dân tộc khác nhau.
AI tái tạo chân dung từ giọng nói, có thể tạo ra hình ảnh hoạt hình của một người trên điện thoại hoặc cuộc gọi hội nghị truyền hình khi danh tính của người đó không xác định và họ không muốn chia sẻ khuôn mặt thực của mình.
Các nhà nghiên cứu đã viết trong bài báo được công bố tại một hội thảo về thị giác máy tính và nhận diện mẫu (CVPR): "Các khuôn mặt được tái tạo cũng có thể được sử dụng trực tiếp để gán cho giọng nói do máy tạo ra được sử dụng trong các thiết bị gia đình và trợ lý ảo".
Thuật toán trí tuệ nhân tạo dựng lại chân dung người chỉ bằng giọng nói từ video Youtube
AI tạo chân dung chỉ từ giọng nói. (Ảnh: Nhóm nghiên cứu Speech2Face)
Cơ quan thực thi pháp luật cũng có thể sử dụng AI để tạo ra một bức chân dung của kẻ tình nghi từ bằng chứng duy nhất là một đoạn ghi âm giọng nói. Tuy nhiên, các ứng dụng của chính phủ chắc chắn sẽ là chủ đề của rất nhiều tranh cãi và tranh luận liên quan đến quyền riêng tư và đạo đức.

>> Các nhà khoa học Mỹ đã phát triển thuật toán dự đoán tội phạm với độ chính xác lên đến 90%

 
Sửa lần cuối bởi điều hành viên:


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

Bị coi là quốc gia kém phát triển, Triều Tiên lấy đâu ra tiền phát triển vũ khí khiến phương Tây e ngại?

  • 238
  • 0
Bất chấp việc được biết đến là một trong những quốc gia nghèo nhất châu Á, Triều Tiên trong những năm gần đây lại liên tục khiến thế giới kinh...

Điểm danh 6 tính năng phổ biến nhất của máy lọc không khí hiện nay, ai chuẩn bị mua cần chú ý

  • 122
  • 0
1. Công nghệ lọc không khí HEPA – Chuẩn mực vàng trong lọc bụi mịn HEPA (High-Efficiency Particulate Air) là công nghệ lọc không khí tiên tiến, có...

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

  • 146
  • 0
Hiện nay, máy lọc không khí đang được ngày càng nhiều gia đình sử dụng bởi tính năng lọc sạch không khí tuyệt vời, làm thoáng đãng không gian đặc...

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

  • 145
  • 0
Elmich là một thương hiệu gia dụng cao cấp đến từ Cộng hòa Séc, được thành lập vào năm 1995 tại thành phố Ostrava. Với gần 30 năm phát triển...

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

  • 144
  • 0
Theo báo cáo của Epoch AI (viện nghiên cứu tại San Francisco, công bố cuối tháng 4/2025), đến năm 2030, các siêu máy tính hàng đầu dùng để huấn...

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...
Back
Top