OpenAI cho biết ChatGPT hiện có thể 'nói', nghe và xử lý hình ảnh

Thoại Viết Hoàng
Thoại Viết Hoàng
Phản hồi: 0
ChatGPT của OpenAI giờ đây có thể “nhìn, nghe và nói” hoặc ít nhất là hiểu lời nói, trả lời bằng giọng nói tổng hợp và xử lý hình ảnh.
OpenAI cho biết ChatGPT hiện có thể 'nói', nghe và xử lý hình ảnh
Bản cập nhật cho chatbot — bản cập nhật lớn nhất của OpenAI kể từ khi giới thiệu GPT-4 — cho phép người dùng chọn tham gia cuộc trò chuyện bằng giọng nói trên ứng dụng di động của ChatGPT và chọn từ năm giọng nói tổng hợp khác nhau để bot phản hồi. Người dùng cũng sẽ có thể chia sẻ hình ảnh với ChatGPT và đánh dấu các khu vực cần tập trung hoặc phân tích (hãy nghĩ: “Đây là những loại đám mây nào?”).
OpenAI cho biết những thay đổi này sẽ được triển khai cho người dùng trả phí trong hai tuần tới. Mặc dù chức năng giọng nói sẽ bị giới hạn ở ứng dụng iOS và Android, nhưng khả năng xử lý hình ảnh sẽ có sẵn trên tất cả các nền tảng.
Sự thúc đẩy tính năng lớn đi kèm với cuộc chạy đua vũ trang trí tuệ nhân tạo ngày càng gia tăng giữa các nhà lãnh đạo chatbot như OpenAI, Microsoft, Google và nhân loại. Trong nỗ lực khuyến khích người tiêu dùng áp dụng AI vào cuộc sống hàng ngày, các gã khổng lồ công nghệ đang chạy đua để tung ra không chỉ các ứng dụng chatbot mới mà còn cả các tính năng mới, đặc biệt là vào mùa hè này. Google đã công bố một loạt bản cập nhật cho chatbot Bard của mình và Microsoft đã thêm tính năng tìm kiếm trực quan vào Bing.
Đầu năm nay, khoản đầu tư mở rộng của Microsoft vào OpenAI – thêm 10 tỷ USD – đã khiến đây trở thành khoản đầu tư AI lớn nhất trong năm, theo PitchBook. Vào tháng 4, công ty khởi nghiệp này được cho là đã hoàn tất đợt bán cổ phiếu trị giá 300 triệu USD với mức định giá từ 27 tỷ đến 29 tỷ USD, với sự đầu tư từ các công ty như Sequoia Capital và Andreessen Horowitz.
Các chuyên gia đã nêu lên mối lo ngại về giọng nói tổng hợp do AI tạo ra, trong trường hợp này có thể cho phép người dùng trải nghiệm tự nhiên hơn nhưng cũng cho phép tạo ra các tác phẩm sâu thuyết phục hơn. Các tác nhân và nhà nghiên cứu về mối đe dọa mạng đã bắt đầu khám phá cách sử dụng deepfake để xâm nhập các hệ thống an ninh mạng.
OpenAI thừa nhận những lo ngại đó trong thông báo hôm thứ Hai, nói rằng giọng nói tổng hợp “được tạo ra bởi các diễn viên lồng tiếng mà chúng tôi đã trực tiếp làm việc cùng” chứ không phải được thu thập từ những người lạ.
Bản phát hành cũng cung cấp rất ít thông tin về cách OpenAI sẽ sử dụng đầu vào bằng giọng nói của người tiêu dùng hoặc cách công ty bảo mật dữ liệu đó nếu nó được sử dụng. Điều khoản dịch vụ của công ty nói rằng người tiêu dùng sở hữu đầu vào của họ “trong phạm vi được luật hiện hành cho phép”.
OpenAI đã giới thiệu cho CNBC hướng dẫn của công ty về tương tác bằng giọng nói, trong đó nêu rõ rằng OpenAI không giữ lại các đoạn âm thanh và bản thân các đoạn âm thanh đó không được sử dụng để cải thiện mô hình.
Nhưng công ty cũng lưu ý rằng phiên âm được coi là đầu vào và có thể được sử dụng để cải thiện các mô hình ngôn ngữ lớn.
Tham khảo bài viết gốc tại đây:
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

  • 145
  • 0
Hiện nay, máy lọc không khí đang được ngày càng nhiều gia đình sử dụng bởi tính năng lọc sạch không khí tuyệt vời, làm thoáng đãng không gian đặc...

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

  • 144
  • 0
Elmich là một thương hiệu gia dụng cao cấp đến từ Cộng hòa Séc, được thành lập vào năm 1995 tại thành phố Ostrava. Với gần 30 năm phát triển...

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

  • 143
  • 0
Theo báo cáo của Epoch AI (viện nghiên cứu tại San Francisco, công bố cuối tháng 4/2025), đến năm 2030, các siêu máy tính hàng đầu dùng để huấn...

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

  • 134
  • 0
Samsung vừa thông báo rằng dòng TV QLED mới nhất của hãng đã nhận được chứng nhận ‘Màn hình Chấm lượng tử Đích thực’ (Real Quantum Dot Display) từ...

Sếp Apple dự đoán "ngày tàn" của iPhone chỉ trong 10 năm tới: Lý do từ kẻ mà "ai cũng biết là ai"

  • 1,237
  • 0
Phó chủ tịch cấp cao phụ trách mảng dịch vụ của Apple, ông Eddy Cue, vừa đưa ra một nhận định gây sửng sốt về tương lai của chính sản phẩm chủ lực...
Back
Top