Giải pháp hạn chế mô hình AI vượt quá giới hạn

Trí tuệ nhân tạo (AI) đang phát triển với tốc độ chóng mặt, mang lại những lợi ích to lớn nhưng cũng làm lộ ra nhiều vấn đề đáng lo ngại, từ phát ngôn thù hận, vi phạm bản quyền đến nội dung không phù hợp. Những hành vi ngoài ý muốn này đang trở thành thách thức lớn, đặc biệt khi thiếu quy định chặt chẽ và việc kiểm tra mô hình AI còn hạn chế. Trong bối cảnh đó, Project Moonshot – một bộ công cụ đánh giá mô hình ngôn ngữ lớn (LLM) do Cơ quan Phát triển Truyền thông Thông tin Singapore (IMDA) khởi xướng – nổi lên như một giải pháp hứa hẹn, kết hợp kỹ thuật và chính sách để đảm bảo AI an toàn hơn.

AI, đặc biệt là các mô hình ngôn ngữ lớn, đang thay đổi cách chúng ta làm việc, từ hỗ trợ khách hàng, tạo nội dung đến phân tích dữ liệu. Nhưng sự phát triển nhanh chóng này cũng đi kèm những rủi ro nghiêm trọng. Các mô hình AI có thể tạo ra nội dung chứa phát ngôn thù hận, vi phạm bản quyền hoặc thậm chí nội dung nhạy cảm không phù hợp. Vấn đề nằm ở chỗ các nhà phát triển thường khó dự đoán hết mọi hành vi sai lệch của AI. Một nhà nghiên cứu chuyên về tấn công đối kháng AI cho biết, sau gần 15 năm nghiên cứu, chúng ta vẫn chưa tìm ra cách khiến AI luôn hoạt động đúng như kỳ vọng. Điều này giống như việc bạn dạy một đứa trẻ thông minh nhưng nghịch ngợm – đôi khi nó làm những điều ngoài sức tưởng tượng!

1751377796255.png

Nguyên nhân chính là do các mô hình AI hiện nay, đặc biệt là LLM, được thiết kế để xử lý quá nhiều nhiệm vụ, từ viết văn, trả lời câu hỏi đến lập trình. Sự đa năng này khiến việc kiểm soát mọi kịch bản sử dụng trở nên gần như bất khả thi. Chẳng hạn, một mô hình có thể vô tình tạo ra nội dung thiên vị về giới tính hoặc sắc tộc nếu không được kiểm tra kỹ lưỡng. Thêm vào đó, việc thiếu quy định cụ thể cho AI, không giống như trong ngành dược phẩm hay hàng không (nơi sản phẩm phải trải qua hàng tháng thử nghiệm nghiêm ngặt), khiến các công ty công nghệ thường vội vàng tung ra sản phẩm mà không đảm bảo an toàn.

Một cách để đánh giá rủi ro của AI là thông qua red teaming – phương pháp kiểm tra bằng cách “tấn công” mô hình để tìm ra các lỗ hổng về an toàn và bảo mật. Red teaming giống như việc bạn thuê một nhóm hacker thử xâm nhập hệ thống để kiểm tra độ chắc chắn của nó. Trong lĩnh vực AI, red teaming mời các chuyên gia bên ngoài tương tác với mô hình để cố ý gây ra các phản hồi sai lệch, như phát ngôn độc hại hoặc thông tin sai lệch. Tuy nhiên, hiện nay số lượng người làm công việc này còn rất hạn chế. Các công ty khởi nghiệp AI thường chỉ sử dụng đội ngũ nội bộ hoặc thuê các nhóm thứ hai để kiểm tra, nhưng điều này chưa đủ.

Một nghiên cứu đề xuất rằng việc mở rộng red teaming cho các bên thứ ba – như người dùng thông thường, nhà báo, nhà nghiên cứu, hoặc thậm chí các hacker đạo đức – sẽ giúp phát hiện nhiều vấn đề hơn. Ví dụ, để nhận diện một số lỗi trong AI, cần đến sự tham gia của luật sư, bác sĩ hoặc các chuyên gia chuyên môn, vì người dùng thông thường khó có đủ kiến thức để đánh giá tính chính xác của các phản hồi phức tạp. Nghiên cứu này cũng gợi ý cần xây dựng các báo cáo chuẩn về “lỗ hổng AI”, kèm theo cơ chế khuyến khích và chia sẻ thông tin về các lỗi này, tương tự như cách ngành bảo mật phần mềm sử dụng chương trình săn lỗi (bug bounty). Cách tiếp cận này không chỉ giúp AI an toàn hơn mà còn tạo ra một cộng đồng rộng lớn cùng tham gia giám sát.

1751377855567.png


Để giải quyết các rủi ro trên, Singapore đã ra mắt Project Moonshot – một bộ công cụ đánh giá mô hình ngôn ngữ lớn, được phát triển bởi IMDA cùng các đối tác như IBM và DataRobot. Đây là một trong những công cụ mã nguồn mở đầu tiên trên thế giới tích hợp ba yếu tố: benchmarking (đánh giá hiệu suất dựa trên bộ câu hỏi chuẩn), red teaming (kiểm tra đối kháng), và baseline testing (kiểm tra mức cơ bản). Điểm đặc biệt của Project Moonshot là nó được thiết kế thân thiện, ngay cả với người không am hiểu kỹ thuật, cung cấp kết quả trực quan về chất lượng và độ an toàn của mô hình AI. Công cụ này sử dụng hệ thống chấm điểm 5 cấp, giống như chấm bài thi, giúp các nhà phát triển dễ dàng nhận biết điểm mạnh và yếu của mô hình.

Project Moonshot không chỉ là một công cụ kỹ thuật mà còn là một phần của nỗ lực thiết lập tiêu chuẩn kiểm tra AI toàn cầu. Với sự hợp tác của các tổ chức như AI Verify Foundation và MLCommons, công cụ này hướng đến việc tạo ra các tiêu chí đánh giá chung, giúp giảm chi phí tuân thủ cho các công ty hoạt động ở nhiều quốc gia. Một chuyên gia từ IBM cho biết nhiều công ty khởi nghiệp đã bắt đầu sử dụng Project Moonshot vì tính mã nguồn mở, nhưng vẫn còn tiềm năng để mở rộng hơn, đặc biệt là trong việc tùy chỉnh cho các ngành cụ thể như y tế, tài chính, hay giáo dục. Ngoài ra, công cụ này còn có kế hoạch hỗ trợ kiểm tra đa ngôn ngữ và đa văn hóa, rất cần thiết cho các khu vực đa dạng như châu Á – Thái Bình Dương.

Một vấn đề lớn với AI hiện nay là thiếu các quy định nghiêm ngặt, không giống như ngành dược phẩm hay hàng không, nơi sản phẩm phải trải qua nhiều vòng kiểm tra trước khi ra thị trường. Một giáo sư thống kê tại Singapore nhận định rằng các công ty công nghệ đang quá vội vàng tung ra mô hình AI mà không kiểm tra đầy đủ, dẫn đến nguy cơ lạm dụng hoặc sai lệch. Ông đề xuất rằng thay vì phát triển các mô hình AI đa năng, chúng ta nên tập trung vào các mô hình chuyên biệt cho từng nhiệm vụ cụ thể, như chẩn đoán y tế hoặc phân tích tài chính. Điều này giúp dễ dàng dự đoán và kiểm soát các rủi ro hơn.
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back