Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Mr. Darcy
Mr. Darcy
Phản hồi: 0

Mr. Darcy

Editor
Thành viên BQT
Mr. Darcy

Mr. Darcy Đã xác thực

Một động thái lớn mà Google đã chờ đợi bấy lâu nay, mẫu Gemini cuối cùng cũng được ra mắt! Một hình ảnh và một video là bắt mắt nhất:
Trong hình bên dưới, trong bài kiểm tra tập dữ liệu hiểu ngôn ngữ đa tác vụ MMLU, Gemini Ultra không chỉ vượt qua ChatGPT-4 mà thậm chí còn vượt qua cả các chuyên gia con người.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Trong video này, AI bình luận và phàn nàn về các hình vẽ bậy và cử chỉ của con người trong thời gian thực, nó mượt mà và hài hước, gần giống nhất với một tập phim của Jarvis.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Tuy nhiên, khi mọi người bình tĩnh lại vì ngạc nhiên và đọc kỹ bản báo cáo kỹ thuật dài 60 trang được phát hành sau đó, họ đã phát hiện ra có điều gì đó không ổn.
Trong bài kiểm tra MMLU, dòng chữ nhỏ màu xám bên dưới kết quả của Gemini có tên danh nghĩa là CoT@32. Khi được mở rộng, điều đó có nghĩa là kỹ thuật nhắc nhở chuỗi suy nghĩ đã được sử dụng và đã thực hiện 32 lần thử để chọn ra kết quả tốt nhất.
Để so sánh, ChatGPT-4 không có kỹ thuật nhắc lời (promt engineering) và chỉ thử 5 lần, theo tiêu chuẩn này, Gemini Ultra thực sự không tốt bằng ChatGPT-4.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Tỷ lệ của ảnh gốc cũng hơi không công bằng, chỉ có một chút khác biệt giữa 90,0% và điểm chuẩn của con người là 89,8%, nhưng nó lại nằm xa hơn trên trục y.
Giám đốc kỹ thuật HuggingFace Philipp Schmid đã sửa hình ảnh này bằng cách sử dụng dữ liệu được tiết lộ trong báo cáo kỹ thuật để công bằng và phù hợp hơn:
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Mỗi lần như thế này, anh chàng làm biểu tượng cảm xúc lại lao ra" chiến trường":
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Nhưng may mắn thay, khi sử dụng kỹ thuật nhắc nhở chuỗi tư duy tương tự + 32 lần thử, Gemini Ultra đã vượt qua GPT-4.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Jeff Dean đã trả lời câu hỏi này trong một cuộc thảo luận, nhưng mọi người đều không tin.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Ngoài ra, liên quan đến video đó, một số người cũng nhận thấy có vấn đề trong phần văn bản từ chối trách nhiệm ở phần đầu.
Giảng viên máy học Santiago Valdarrama tin rằng tuyên bố này có thể ám chỉ rằng màn hình hiển thị là một kết quả tốt được lựa chọn cẩn thận và nó không được ghi lại trong thời gian thực mà đã được chỉnh sửa.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Sau đó, Google giải thích quy trình tương tác đa phương thức trong một bài đăng trên blog, gần như thừa nhận rằng việc sử dụng hình ảnh tĩnh và nhiều từ nhắc nhở có thể đạt được hiệu quả như vậy.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Nhưng dù thế nào đi nữa, việc phát hành Google Gemini vẫn mang lại cho các nhóm khác rất nhiều niềm tin, ChatGPT-4 không còn là duy nhất và không thể đạt được.
Như Aravind Srinivas, người sáng lập sản phẩm tìm kiếm AI PerplexityAI, tóm tắt:
1. Gemini chứng minh rằng các nhóm bên ngoài OpenAI có thể tạo ra các mô hình vượt qua ChatGPT-4
2. Một mô hình dày đặc được đào tạo tốt có thể vượt qua kiến trúc mô hình thưa thớt của ChatGPT-4
Hệ quả: Chắt lọc các mô hình dày đặc quy mô nhỏ từ mô hình giáo viên lớn sẽ trở thành xu hướng trong tương lai để đạt được sự kết hợp tốt nhất giữa hiệu quả và năng lực.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Chủ đề được cư dân mạng quan tâm hơn là có cần tiếp tục trả 20 USD/tháng cho ChatGPT Plus hay không?
Hiện tại, phiên bản Gemini Pro đã được cập nhật cho robot trò chuyện Google Bard, trình độ có tốt như quảng cáo hay không, bạn có thể phải xem tình hình thực tế để tự đánh giá.

Gemini có thực sự vượt qua ChatGPT?​

Trước hết, hãy làm rõ rằng những gì mọi người hiện có thể chơi là phiên bản Gemini Pro, đây là phiên bản cốc trung bình và được so sánh với GPT-3.5.
Gemini Ultra, phiên bản lớn của GPT-4, phải đến năm sau mới được phát hành.
Ngoài ra, Gemini hiện chỉ hỗ trợ tiếng Anh, tiếng Việt và các ngôn ngữ khác sẽ được phát hành sau.
Mặc dù Gemini Ultra hiện chưa có sẵn nhưng Dimitris Papailiopoulos, phó giáo sư tại Đại học Wisconsin-Madison, đã tìm ra một cách hay:
Các câu hỏi ban đầu hiển thị khi Gemini được phát hành đã được gửi đến ChatGPT-4 để so sánh. Trong số 14 câu hỏi, ChatGPT-4 đạt xấp xỉ 12 điểm.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Có 2 câu hỏi vì ảnh chụp màn hình không thể rõ ràng hơn nên ChatGPT-4 được thưởng 0,5 điểm.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Ngoài ra còn có một câu toán ChatGPT-4 làm sai, các câu khác về cơ bản là bằng nhau.
Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.
Tiếp theo, có thể nói rằng cách tốt nhất để thể hiện khả năng toàn diện của một mô hình lớn là viết mã.
Theo kết quả kiểm tra của mọi người, trình độ lập trình của Gemini vẫn được đảm bảo.
Một số nhà phát triển đã thử nghiệm sử dụng Pytorch để triển khai mạng CNN đơn giản, Gemini chỉ mất 2 giây và chất lượng mã cao hơn.
Tất nhiên, tốc độ nhanh có thể là do kích thước nhỏ hơn của Gemini Pro do Bard trang bị, chúng ta đều biết ChatGPT-4 hiện nay chậm đến mức nào. Nhưng đối với nhiệm vụ tiếp theo là viết câu lệnh SQL, nhà phát triển cảm thấy hiệu suất của Gemini không được tốt cho lắm.
Có một tin tốt cho các nhà phát triển: Gemini là một cải tiến vượt bậc so với trước khi nâng cấp Bard.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

Điểm danh 6 tính năng phổ biến nhất của máy lọc không khí hiện nay, ai chuẩn bị mua cần chú ý

  • 121
  • 0
1. Công nghệ lọc không khí HEPA – Chuẩn mực vàng trong lọc bụi mịn HEPA (High-Efficiency Particulate Air) là công nghệ lọc không khí tiên tiến, có...

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

  • 145
  • 0
Hiện nay, máy lọc không khí đang được ngày càng nhiều gia đình sử dụng bởi tính năng lọc sạch không khí tuyệt vời, làm thoáng đãng không gian đặc...

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

  • 144
  • 0
Elmich là một thương hiệu gia dụng cao cấp đến từ Cộng hòa Séc, được thành lập vào năm 1995 tại thành phố Ostrava. Với gần 30 năm phát triển...

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

  • 143
  • 0
Theo báo cáo của Epoch AI (viện nghiên cứu tại San Francisco, công bố cuối tháng 4/2025), đến năm 2030, các siêu máy tính hàng đầu dùng để huấn...

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

  • 134
  • 0
Samsung vừa thông báo rằng dòng TV QLED mới nhất của hãng đã nhận được chứng nhận ‘Màn hình Chấm lượng tử Đích thực’ (Real Quantum Dot Display) từ...
Back
Top