AI có thể tin cậy giải được ô chữ sudoku

Trúc Hà Nhân

Intern Writer
Có một nghiên cứu thú vị về trí tuệ nhân tạo và khả năng giải quyết các câu đố Sudoku đang thu hút sự chú ý của nhiều người. Nhóm các nhà khoa học máy tính từ Đại học Colorado Boulder đã quyết định thử nghiệm xem các mô hình ngôn ngữ lớn như ChatGPT của OpenAI hay Gemini của Google có thể giải Sudoku không. Họ đã tạo ra gần 2.300 câu đố Sudoku gốc, yêu cầu người chơi điền số vào lưới theo những quy tắc nhất định, và giao nhiệm vụ này cho một số công cụ AI để điền vào.

Kết quả thì không hề đơn giản. Một số mô hình AI có thể giải được những câu đố dễ, nhưng ngay cả những mô hình tốt nhất cũng gặp khó khăn trong việc giải thích cách chúng đã làm điều đó. Thay vào đó, chúng đưa ra những mô tả khó hiểu, không chính xác hoặc thậm chí là phi lý về cách chúng đạt được câu trả lời. Nghiên cứu này đặt ra nhiều câu hỏi về độ tin cậy của thông tin do AI tạo ra, như những gì Maria Pacheco, một trong những tác giả nghiên cứu cho biết. Bà nhấn mạnh rằng đối với một số loại câu đố Sudoku, phần lớn các mô hình LLM vẫn còn thiếu sót, đặc biệt là trong việc tạo ra những giải thích có thể sử dụng được cho con người. Tại sao nó lại đưa ra giải pháp đó? Những bước nào cần thực hiện để đến đó?
sudoku.jpg

Các nhà nghiên cứu không cố gắng gian lận trong trò chơi, mà họ dùng những bài tập logic này để khám phá cách mà các nền tảng AI suy nghĩ. Fabio Somenzi, một trong những tác giả nghiên cứu, cho biết rằng kết quả này có thể dẫn đến việc phát triển những chương trình máy tính đáng tin cậy hơn trong tương lai. "Các câu đố là thú vị, nhưng chúng cũng là một mô hình thu nhỏ cho việc nghiên cứu quy trình ra quyết định trong học máy," ông nói. "Nếu bạn để AI chuẩn bị thuế cho mình, bạn sẽ muốn có thể giải thích với IRS về lý do tại sao AI lại viết như vậy."

Somenzi, một người tự nhận là fan của Sudoku, cho biết rằng các câu đố này khai thác một cách suy nghĩ rất con người. Việc điền vào lưới Sudoku yêu cầu người chơi học và tuân theo một tập hợp các quy tắc logic. Ví dụ, bạn không thể điền số 2 vào một ô trống nếu trong cùng một hàng hoặc cột đã có số 2. Phần lớn các mô hình LLM ngày nay gặp khó khăn trong loại suy nghĩ này, phần lớn là do cách mà chúng được đào tạo. Để xây dựng ChatGPT, các lập trình viên đã cung cấp cho AI hầu như tất cả thông tin có trên Internet. Khi ChatGPT trả lời một câu hỏi, nó dự đoán câu trả lời hợp lý nhất dựa trên tất cả dữ liệu đó, giống như một phiên bản máy tính của trí nhớ học thuộc lòng.

Pacheco, Somenzi và các đồng nghiệp của họ đang tham gia vào một nỗ lực ngày càng tăng trong lĩnh vực khoa học máy tính nhằm kết hợp hai cách suy nghĩ này - kết hợp trí nhớ của LLM với khả năng logic của bộ não con người, một nỗ lực được gọi là AI "neurosymbolic".

Để bắt đầu, các nhà nghiên cứu đã tạo ra các câu đố Sudoku với độ khó khác nhau, sử dụng một lưới 6x6 (một phiên bản đơn giản hơn của các câu đố 9x9 thường thấy trực tuyến). Họ sau đó đã giao các câu đố này cho một loạt các mô hình AI, bao gồm cả mẫu thử nghiệm của mô hình o1 của OpenAI - một trong những mô hình LLM tiên tiến nhất vào năm 2023. Mô hình o1 dẫn đầu, giải quyết khoảng 65% câu đố Sudoku đúng. Sau đó, nhóm đã yêu cầu các nền tảng AI giải thích cách chúng đã đạt được các câu trả lời của mình, và đó là lúc kết quả trở nên thật thú vị.

"Đôi khi, các giải thích của AI đã tạo ra những thông tin không có thật," Ashutosh Trivedi, một đồng tác giả của nghiên cứu cho biết. "Nó có thể nói, 'Không thể có số 2 ở đây vì trong cùng một hàng đã có số 2,' nhưng điều đó không phải là sự thật." Trong một ví dụ minh chứng, khi các nhà nghiên cứu đang thảo luận với một trong các công cụ AI về việc giải Sudoku, không rõ lý do gì mà nó đã trả lời bằng một dự báo thời tiết. "Tại thời điểm đó, AI đã trở nên hoàn toàn rối loạn và không còn kiểm soát," Somenzi nói.

Các nhà nghiên cứu hy vọng sẽ thiết kế một hệ thống AI của riêng họ có thể làm mọi thứ—giải quyết các câu đố phức tạp và giải thích cách thức. Họ bắt đầu với một loại câu đố khác gọi là hitori, cũng như Sudoku, liên quan đến một lưới số. "Mọi người nói về khả năng mới nổi của AI, khi chúng có thể giải quyết những thứ mà bạn không ngờ tới," Pacheco cho biết. "Đồng thời, không có gì ngạc nhiên khi chúng vẫn kém trong nhiều nhiệm vụ." Thông tin thêm: Anirudh Maiya và các tác giả khác, Nghiên cứu về Giải thích Giải pháp Câu đố trong Ngôn ngữ Tự nhiên: Một Nghiên cứu Khám phá về Sudoku 6x6 (2025).

Nguồn tham khảo: Techxplore
 
Sửa lần cuối bởi điều hành viên:

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,534
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back