Đối xử thô lỗ, thậm tệ với ChatGPT sẽ làm tăng độ chính xác của kết quả như thế nào?

Tháp rơi tự do

Intern Writer
Một nghiên cứu mới cho thấy việc cộc cằn hoặc thô lỗ có thể khiến mô hình AI mới chính xác hơn, trái ngược với những phát hiện trước đây về sự lịch sự với AI.

Biểu tượng cảm xúc và bong bóng trò chuyện trên màn hình máy tính xách tay.


Các nhà khoa học phát hiện ra rằng chatbot trí tuệ nhân tạo (AI) có thể đưa ra câu trả lời chính xác hơn khi bạn thô lỗ với chúng, mặc dù họ cảnh báo về những tác hại tiềm ẩn của việc sử dụng ngôn ngữ hạ thấp.

Trong một nghiên cứu mới được công bố ngày 6 tháng 10 trên cơ sở dữ liệu bản thảo arXiv , các nhà khoa học muốn kiểm tra xem liệu sự lịch sự hay thô lỗ có tạo nên sự khác biệt trong hiệu suất hoạt động của một hệ thống AI hay không. Nghiên cứu này vẫn chưa được bình duyệt.

Để kiểm tra xem giọng điệu của người dùng ảnh hưởng như thế nào đến độ chính xác của câu trả lời, các nhà nghiên cứu đã phát triển 50 câu hỏi trắc nghiệm cơ bản và sau đó điều chỉnh chúng bằng các tiền tố để phù hợp với năm loại giọng điệu: rất lịch sự, lịch sự, trung lập, thô lỗ và rất thô lỗ. Các câu hỏi bao gồm các lĩnh vực toán học, lịch sử và khoa học.

Mỗi câu hỏi được đưa ra với bốn lựa chọn, trong đó có một lựa chọn đúng. Họ đưa 250 câu hỏi thu được 10 lần vào ChatGPT-4o, một trong những mô hình ngôn ngữ lớn (LLM) tiên tiến nhất do OpenAI phát triển.

"Các thí nghiệm của chúng tôi chỉ mang tính sơ bộ và cho thấy giọng điệu có thể ảnh hưởng đáng kể đến hiệu suất được đo lường bằng điểm số của câu trả lời cho 50 câu hỏi", các nhà nghiên cứu viết trong bài báo của họ. "Điều đáng ngạc nhiên là kết quả của chúng tôi cho thấy giọng điệu thô lỗ dẫn đến kết quả tốt hơn giọng điệu lịch sự."

"Mặc dù phát hiện này có giá trị khoa học, chúng tôi không ủng hộ việc triển khai các giao diện thù địch hoặc độc hại trong các ứng dụng thực tế", họ nói thêm. "Việc sử dụng ngôn ngữ xúc phạm hoặc hạ thấp phẩm giá trong tương tác giữa người và AI có thể gây ra những tác động tiêu cực đến trải nghiệm người dùng, khả năng tiếp cận và tính bao hàm, đồng thời có thể góp phần tạo nên các chuẩn mực giao tiếp có hại. Thay vào đó, chúng tôi coi kết quả này là bằng chứng cho thấy các LLM vẫn nhạy cảm với những tín hiệu nhắc nhở hời hợt, điều này có thể tạo ra sự đánh đổi ngoài ý muốn giữa hiệu suất và sự thoải mái của người dùng."

1761670651106.png

Trước khi đưa ra lời nhắc, các nhà nghiên cứu yêu cầu chatbot hoàn toàn bỏ qua các trao đổi trước đó để tránh bị ảnh hưởng bởi các giọng điệu trước đó. Các chatbot cũng được yêu cầu, mà không có lời giải thích, chọn một trong bốn tùy chọn.

Độ chính xác của các câu trả lời dao động từ 80,8% cho những câu hỏi rất lịch sự đến 84,8% cho những câu hỏi rất thô lỗ. Đáng chú ý, độ chính xác tăng dần theo từng bước, tránh xa giọng điệu lịch sự nhất. Các câu trả lời lịch sự có tỷ lệ chính xác là 81,4%, tiếp theo là 82,2% cho câu hỏi trung lập và 82,8% cho câu hỏi thô lỗ.

Nhóm đã sử dụng nhiều ngôn ngữ khác nhau trong tiền tố để thay đổi giọng điệu, ngoại trừ trung tính, không sử dụng tiền tố và câu hỏi được trình bày riêng.

Ví dụ, đối với những lời nhắc nhở rất lịch sự, họ sẽ bắt đầu bằng câu hỏi: "Tôi có thể nhờ anh/chị giúp tôi câu hỏi này không?" hoặc "Anh/chị vui lòng giải câu hỏi sau được không?" Ở mức độ thô lỗ nhất, nhóm sẽ sử dụng những ngôn ngữ như "Này, anh bạn, hãy tự tìm hiểu xem" hoặc "Tôi biết anh/chị không thông minh, nhưng hãy thử làm xem".

Nghiên cứu này là một phần của lĩnh vực mới nổi gọi là kỹ thuật gợi ý, chuyên nghiên cứu cách cấu trúc, phong cách và ngôn ngữ của gợi ý ảnh hưởng đến kết quả đầu ra của một LLM. Nghiên cứu cũng trích dẫn các nghiên cứu trước đây về sự lịch sự so với sự thô lỗ và nhận thấy kết quả của họ nhìn chung trái ngược với những phát hiện đó.

Trong các nghiên cứu trước đây, các nhà nghiên cứu nhận thấy rằng "những lời nhắc nhở khiếm nhã thường dẫn đến hiệu suất kém, nhưng ngôn ngữ quá lịch sự không đảm bảo kết quả tốt hơn". Tuy nhiên, nghiên cứu trước đây đã được thực hiện bằng cách sử dụng các mô hình AI khác nhau — ChatGPT 3.5 và Llama 2-70B — và sử dụng phạm vi tám tông giọng. Tuy nhiên, vẫn có một số điểm trùng lặp. Cài đặt lời nhắc nhở khiếm nhã nhất cũng được phát hiện là tạo ra kết quả chính xác hơn (76,47%) so với cài đặt lịch sự nhất (75,82%).

Các nhà nghiên cứu thừa nhận những hạn chế của nghiên cứu. Ví dụ, một bộ 250 câu hỏi là một tập dữ liệu khá hạn chế, và việc tiến hành thí nghiệm với một LLM duy nhất đồng nghĩa với việc kết quả không thể được khái quát hóa cho các mô hình AI khác.

Với những hạn chế đó, nhóm dự định mở rộng nghiên cứu sang các mô hình khác, bao gồm Claude LLM của Anthropic và ChatGPT o3 của OpenAI. Họ cũng nhận thấy rằng việc chỉ đưa ra các câu hỏi trắc nghiệm sẽ giới hạn việc đo lường hiệu suất mô hình ở một khía cạnh và không nắm bắt được các thuộc tính khác, chẳng hạn như tính trôi chảy, lập luận và tính mạch lạc.
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back