Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Mr. Darcy · 07/12/2023

Một động thái lớn mà Google đã chờ đợi bấy lâu nay, mẫu Gemini cuối cùng cũng được ra mắt! Một hình ảnh và một video là bắt mắt nhất:
Trong hình bên dưới, trong bài kiểm tra tập dữ liệu hiểu ngôn ngữ đa tác vụ MMLU, Gemini Ultra không chỉ vượt qua ChatGPT-4 mà thậm chí còn vượt qua cả các chuyên gia con người.

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Trong video này, AI bình luận và phàn nàn về các hình vẽ bậy và cử chỉ của con người trong thời gian thực, nó mượt mà và hài hước, gần giống nhất với một tập phim của Jarvis.

Tuy nhiên, khi mọi người bình tĩnh lại vì ngạc nhiên và đọc kỹ bản báo cáo kỹ thuật dài 60 trang được phát hành sau đó, họ đã phát hiện ra có điều gì đó không ổn.
Trong bài kiểm tra MMLU, dòng chữ nhỏ màu xám bên dưới kết quả của Gemini có tên danh nghĩa là CoT@32. Khi được mở rộng, điều đó có nghĩa là kỹ thuật nhắc nhở chuỗi suy nghĩ đã được sử dụng và đã thực hiện 32 lần thử để chọn ra kết quả tốt nhất.
Để so sánh, ChatGPT-4 không có kỹ thuật nhắc lời (promt engineering) và chỉ thử 5 lần, theo tiêu chuẩn này, Gemini Ultra thực sự không tốt bằng ChatGPT-4.

Tỷ lệ của ảnh gốc cũng hơi không công bằng, chỉ có một chút khác biệt giữa 90,0% và điểm chuẩn của con người là 89,8%, nhưng nó lại nằm xa hơn trên trục y.
Giám đốc kỹ thuật HuggingFace Philipp Schmid đã sửa hình ảnh này bằng cách sử dụng dữ liệu được tiết lộ trong báo cáo kỹ thuật để công bằng và phù hợp hơn:

Mỗi lần như thế này, anh chàng làm biểu tượng cảm xúc lại lao ra" chiến trường":

Nhưng may mắn thay, khi sử dụng kỹ thuật nhắc nhở chuỗi tư duy tương tự + 32 lần thử, Gemini Ultra đã vượt qua GPT-4.

Jeff Dean đã trả lời câu hỏi này trong một cuộc thảo luận, nhưng mọi người đều không tin.

Ngoài ra, liên quan đến video đó, một số người cũng nhận thấy có vấn đề trong phần văn bản từ chối trách nhiệm ở phần đầu.
Giảng viên máy học Santiago Valdarrama tin rằng tuyên bố này có thể ám chỉ rằng màn hình hiển thị là một kết quả tốt được lựa chọn cẩn thận và nó không được ghi lại trong thời gian thực mà đã được chỉnh sửa.

Sau đó, Google giải thích quy trình tương tác đa phương thức trong một bài đăng trên blog, gần như thừa nhận rằng việc sử dụng hình ảnh tĩnh và nhiều từ nhắc nhở có thể đạt được hiệu quả như vậy.

Nhưng dù thế nào đi nữa, việc phát hành Google Gemini vẫn mang lại cho các nhóm khác rất nhiều niềm tin, ChatGPT-4 không còn là duy nhất và không thể đạt được.
Như Aravind Srinivas, người sáng lập sản phẩm tìm kiếm AI PerplexityAI, tóm tắt:
1. Gemini chứng minh rằng các nhóm bên ngoài OpenAI có thể tạo ra các mô hình vượt qua ChatGPT-4
2. Một mô hình dày đặc được đào tạo tốt có thể vượt qua kiến trúc mô hình thưa thớt của ChatGPT-4
Hệ quả: Chắt lọc các mô hình dày đặc quy mô nhỏ từ mô hình giáo viên lớn sẽ trở thành xu hướng trong tương lai để đạt được sự kết hợp tốt nhất giữa hiệu quả và năng lực.

Chủ đề được cư dân mạng quan tâm hơn là có cần tiếp tục trả 20 USD/tháng cho ChatGPT Plus hay không?
Hiện tại, phiên bản Gemini Pro đã được cập nhật cho robot trò chuyện Google Bard, trình độ có tốt như quảng cáo hay không, bạn có thể phải xem tình hình thực tế để tự đánh giá.

Gemini có thực sự vượt qua ChatGPT?

Trước hết, hãy làm rõ rằng những gì mọi người hiện có thể chơi là phiên bản Gemini Pro, đây là phiên bản cốc trung bình và được so sánh với GPT-3.5.
Gemini Ultra, phiên bản lớn của GPT-4, phải đến năm sau mới được phát hành.
Ngoài ra, Gemini hiện chỉ hỗ trợ tiếng Anh, tiếng Việt và các ngôn ngữ khác sẽ được phát hành sau.
Mặc dù Gemini Ultra hiện chưa có sẵn nhưng Dimitris Papailiopoulos, phó giáo sư tại Đại học Wisconsin-Madison, đã tìm ra một cách hay:
Các câu hỏi ban đầu hiển thị khi Gemini được phát hành đã được gửi đến ChatGPT-4 để so sánh. Trong số 14 câu hỏi, ChatGPT-4 đạt xấp xỉ 12 điểm.

Có 2 câu hỏi vì ảnh chụp màn hình không thể rõ ràng hơn nên ChatGPT-4 được thưởng 0,5 điểm.

Ngoài ra còn có một câu toán ChatGPT-4 làm sai, các câu khác về cơ bản là bằng nhau.

Tiếp theo, có thể nói rằng cách tốt nhất để thể hiện khả năng toàn diện của một mô hình lớn là viết mã.
Theo kết quả kiểm tra của mọi người, trình độ lập trình của Gemini vẫn được đảm bảo.
Một số nhà phát triển đã thử nghiệm sử dụng Pytorch để triển khai mạng CNN đơn giản, Gemini chỉ mất 2 giây và chất lượng mã cao hơn.
Tất nhiên, tốc độ nhanh có thể là do kích thước nhỏ hơn của Gemini Pro do Bard trang bị, chúng ta đều biết ChatGPT-4 hiện nay chậm đến mức nào. Nhưng đối với nhiệm vụ tiếp theo là viết câu lệnh SQL, nhà phát triển cảm thấy hiệu suất của Gemini không được tốt cho lắm.
Có một tin tốt cho các nhà phát triển: Gemini là một cải tiến vượt bậc so với trước khi nâng cấp Bard.

Có thể bạn quan tâm

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Mr. Darcy

Editor

Mr. Darcy

Gemini có thực sự vượt qua ChatGPT?

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

Hàng trăm CEO cùng ký thư ngỏ đề nghị dạy khoa học máy tính và AI từ lớp mẫu giáo

Netflix đang biến Tivi thành TikTok kết hợp AI – đây là cách họ làm điều đó !

AI có thể bấm chuột như người thật? Hugging Face vừa ra mắt công cụ miễn phí làm được điều đó!

Agentic RAG là gì mà Google phải viết hẳn 76 trang sách trắng để giải thích?

Người mẫu thật sắp thất nghiệp vì AI? Zalando tiết lộ cách AI giúp tiết kiệm 90% chi phí quảng cáo

Điểm danh 6 tính năng phổ biến nhất của máy lọc không khí hiện nay, ai chuẩn bị mua cần chú ý

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

📝 Đánh giá nổi bật

Trải nghiệm TV TCL QD-Mini LED C6K: tham vọng bình dân hóa tấm nền Mini-LED

Đánh giá ống kính Sony 28-70 F/2 GM: Quái vật "hút máu" mới của Sony, nhưng liệu đã đủ hấp dẫn

Trải nghiệm cục phát 4G TOTOLINK: “Vũ khí” cân mọi hành trình

Trải nghiệm Jaecoo J7: Có đủ sức cạnh tranh trong phân khúc?

Đánh giá Xiaomi Redmi Note 14 5G: ngoài 5G thì còn nâng cấp gì so với bản 4G nữa?

Có thể bạn quan tâm

Google Gemini vừa ra mắt đã gây ra nhiều nghi ngờ: tiêu chuẩn thử nghiệm thiên vị và video hiệu ứng bị nghi ngờ đã qua chỉnh sửa.

Editor

Gemini có thực sự vượt qua ChatGPT?​

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

Hàng trăm CEO cùng ký thư ngỏ đề nghị dạy khoa học máy tính và AI từ lớp mẫu giáo

Netflix đang biến Tivi thành TikTok kết hợp AI – đây là cách họ làm điều đó !

AI có thể bấm chuột như người thật? Hugging Face vừa ra mắt công cụ miễn phí làm được điều đó!

Agentic RAG là gì mà Google phải viết hẳn 76 trang sách trắng để giải thích?

Người mẫu thật sắp thất nghiệp vì AI? Zalando tiết lộ cách AI giúp tiết kiệm 90% chi phí quảng cáo

Gemini có thực sự vượt qua ChatGPT?