AI nịnh hót: Khi trí tuệ nhân tạo học cách làm vừa lòng con người hơn là nói thật

Nguyễn Hoàng

Administrator
Nếu một trợ lý AI luôn đồng ý với bạn, liệu đó có phải là “người bạn thông minh” hay chỉ là một chiếc gương biết nói điều bạn muốn nghe?

Khi AI trở thành “người nịnh khéo”​

Một nghiên cứu mới từ Đại học Stanford và Đại học Carnegie Mellon đã hé lộ một điều khá chua chát: nhiều mô hình trí tuệ nhân tạo đến từ Trung Quốc và Mỹ đang thể hiện xu hướng “nịnh hót” người dùng ở mức đáng lo ngại.

Nhóm nghiên cứu đã thử nghiệm 11 mô hình ngôn ngữ lớn (LLM) bằng cách đặt chúng vào các tình huống phức tạp – mâu thuẫn cá nhân, thao túng hay thậm chí lừa dối – và yêu cầu AI tư vấn. Thay vì phản biện hay đưa ra lời khuyên trung thực, phần lớn chatbot lại... đồng tình với người dùng.

Mức độ “nịnh hót” được đo bằng tần suất AI đứng về phía người đăng, kể cả khi họ rõ ràng là người sai. Trung bình, các mô hình AI đồng ý với người dùng tới 47% số lần. Riêng DeepSeek V3 – mô hình của Trung Quốc ra mắt cuối năm 2024 – vượt xa con người đến 55%.

Còn Qwen2.5-7B-Instruct của Alibaba Cloud thì “vô địch”, khi phản đối kết luận đúng của cộng đồng Reddit tới 79%, tức là hầu như luôn bênh vực người kể chuyện, dù người đó sai rành rành.

Khi “làm hài lòng” trở thành cạm bẫy đạo đức​

Để kiểm tra mức độ này, các nhà nghiên cứu dùng dữ liệu từ cộng đồng Reddit “Am I The Ahole”, nơi hàng triệu người chia sẻ các tình huống đời thực để hỏi xem “ai là người có lỗi”.
1762145434053.png

AI được yêu cầu đưa ra phản ứng, rồi so sánh với kết luận chung của cộng đồng. Kết quả cho thấy nhiều mô hình, đặc biệt là đến từ Trung Quốc và Mỹ, có xu hướng “bênh” người đăng bài.

Nhóm nghiên cứu cảnh báo rằng điều này có thể tạo ra vòng lặp nguy hiểm: người dùng thích AI biết nịnh, còn các công ty thì huấn luyện AI để… nịnh hơn, nhằm giữ chân người dùng. Về lâu dài, AI có thể đánh mất khả năng phản biện, dẫn đến những hậu quả đạo đức và xã hội khó lường.

Giáo sư Jack Jiang, Giám đốc Phòng thí nghiệm Đánh giá AI tại Đại học Hong Kong, nhấn mạnh rằng “nếu AI liên tục đồng ý với các chuyên gia trong doanh nghiệp, rủi ro sai lầm hoặc quyết định thiếu kiểm chứng sẽ tăng mạnh.”

Khi trí tuệ nhân tạo học cách… chiều lòng con người​

Bản chất của AI là học từ dữ liệu, nhưng khi “học” cả hành vi nịnh hót, hệ quả không còn là chuyện nhỏ. Trong bối cảnh AI tạo sinh ngày càng gắn bó với cuộc sống, việc đánh đổi giữa làm hài lòng người dùng và giữ vững tính trung thực, khách quan trở thành vấn đề đạo đức nghiêm trọng.

Một mô hình AI biết “gật đầu” có thể khiến người dùng thấy dễ chịu, nhưng về lâu dài, nó cũng khiến con người ít bị phản biện hơn, giảm khả năng tự nhìn lại và dễ rơi vào “buồng vọng âm” – nơi chỉ có tiếng nói của chính mình được vang lên.

Câu hỏi đáng suy ngẫm là: liệu chúng ta đang dạy AI trở nên thông minh hơn hay chỉ lịch sự hơn một cách giả tạo? (Vietnamnet)
 
Sửa lần cuối bởi điều hành viên:

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,534
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back