Bí mật công nghệ: Cách mới khiến AI 'quên sạch' dữ liệu cá nhân và bản quyền!

Minh Nguyệt · 13/09/2025

Nhóm các nhà khoa học máy tính tại Đại học UC Riverside vừa phát triển một phương pháp mới giúp xóa dữ liệu riêng tư và bản quyền khỏi các mô hình trí tuệ nhân tạo mà không cần truy cập vào dữ liệu đào tạo gốc. Đột phá này, được trình bày trong một bài báo vào tháng Bảy tại Hội nghị Quốc tế về Machine Learning diễn ra ở Vancouver, Canada, nhằm giải quyết một mối quan tâm ngày càng gia tăng toàn cầu về việc các tài liệu cá nhân và bản quyền vẫn còn trong các mô hình AI vô thời hạn. Điều này có nghĩa là các tài liệu này vẫn có thể truy cập được đối với những người sử dụng mô hình, bất chấp những nỗ lực của các nhà sáng tạo ban đầu để xóa bỏ hoặc bảo vệ thông tin của họ bằng các bức tường trả phí và mật khẩu. Nghiên cứu cũng đã được công bố trên máy chủ arXiv.

Sáng kiến từ UCR buộc các mô hình AI phải "quên" các thông tin được chọn trong khi vẫn duy trì tính năng của các dữ liệu còn lại. Đây là một bước tiến quan trọng, giúp điều chỉnh mô hình mà không cần phải tái tạo từ đầu với khối lượng dữ liệu đào tạo gốc khổng lồ, điều này vừa tốn kém vừa tiêu tốn năng lượng. Phương pháp này còn cho phép xóa bỏ thông tin cá nhân khỏi các mô hình AI ngay cả khi dữ liệu đào tạo gốc không còn tồn tại. "Trong các tình huống thực tế, bạn không thể luôn quay lại và lấy dữ liệu gốc," Ümit Yiğit Başaran, một sinh viên tiến sĩ chuyên ngành điện và máy tính tại UCR và là tác giả chính của nghiên cứu cho biết. "Chúng tôi đã tạo ra một khung chứng nhận hoạt động ngay cả khi dữ liệu đó không còn."

Nhu cầu này đang trở nên cấp thiết hơn bao giờ hết. Các công ty công nghệ đang phải đối mặt với các luật về quyền riêng tư mới, chẳng hạn như Quy định Chung về Bảo vệ Dữ liệu của Liên minh Châu Âu và Đạo luật Bảo vệ Quyền riêng tư của Người tiêu dùng California, quy định về bảo mật dữ liệu cá nhân được nhúng trong các hệ thống học máy quy mô lớn. Thêm vào đó, The New York Times đang kiện OpenAI và Microsoft vì đã sử dụng nhiều bài viết có bản quyền của họ để đào tạo các mô hình Generative Pre-trained Transformer (GPT). Các mô hình AI "học" các mẫu từ những văn bản lớn được thu thập từ internet. Khi được truy vấn, các mô hình này sẽ dự đoán các tổ hợp từ có khả năng xảy ra nhất, tạo ra các phản hồi bằng ngôn ngữ tự nhiên cho các yêu cầu từ người dùng. Đôi khi, chúng tạo ra các bản sao gần như chính xác của các văn bản đào tạo, cho phép người dùng vượt qua các bức tường trả phí của các nhà sáng tạo nội dung.

Nhóm nghiên cứu tại UC Riverside - gồm Başaran, giáo sư Amit Roy-Chowdhury và phó giáo sư Başak Güler - đã phát triển một phương pháp mà họ gọi là "xóa chứng nhận không cần truy cập dữ liệu gốc". Kỹ thuật này cho phép các nhà phát triển AI xóa bỏ dữ liệu mục tiêu bằng cách sử dụng một tập dữ liệu thay thế hoặc "surrogate" có đặc điểm thống kê tương tự như dữ liệu gốc. Hệ thống điều chỉnh các tham số mô hình và thêm vào tiếng ồn ngẫu nhiên đã được căn chỉnh cẩn thận để đảm bảo thông tin nhắm tới được xóa bỏ và không thể phục hồi. Khung nghiên cứu của họ dựa trên một khái niệm trong tối ưu hóa AI, giúp ước lượng hiệu quả cách một mô hình sẽ thay đổi nếu nó được đào tạo lại từ đầu. Nhóm nghiên cứu UCR đã cải tiến cách tiếp cận này với một cơ chế căn chỉnh tiếng ồn mới, bù đắp cho những khác biệt giữa các tập dữ liệu gốc và thay thế.

Các nhà nghiên cứu đã xác thực phương pháp của mình bằng cách sử dụng cả tập dữ liệu tổng hợp và thực tế, và họ đã tìm thấy rằng phương pháp này cung cấp các bảo đảm về quyền riêng tư gần với những gì đạt được với việc tái đào tạo hoàn toàn, nhưng lại yêu cầu ít sức mạnh tính toán hơn rất nhiều. Công việc hiện tại áp dụng cho các mô hình đơn giản, nhưng có thể sẽ mở rộng ra các hệ thống phức tạp hơn như ChatGPT, theo lời Roy-Chowdhury, đồng giám đốc Viện Nghiên cứu và Giáo dục Trí tuệ Nhân tạo Riverside (RAISE) và giáo sư tại Cao đẳng Kỹ thuật Marlan và Rosemary Bourns.

Ngoài việc tuân thủ quy định, kỹ thuật này còn hứa hẹn sẽ hỗ trợ các tổ chức truyền thông, cơ sở y tế và những đơn vị khác xử lý dữ liệu nhạy cảm được nhúng trong các mô hình AI. Nó cũng có thể giúp người dùng yêu cầu xóa bỏ nội dung cá nhân hoặc có bản quyền khỏi các hệ thống AI. "Mọi người xứng đáng được biết rằng dữ liệu của họ có thể được xóa khỏi các mô hình học máy - không chỉ lý thuyết, mà là những cách chứng minh và thực tiễn," Güler nhấn mạnh. Các bước tiếp theo của nhóm sẽ là tinh chỉnh phương pháp để làm việc với các loại mô hình và tập dữ liệu phức tạp hơn, đồng thời xây dựng các công cụ để giúp công nghệ này tiếp cận với các nhà phát triển AI trên toàn thế giới. Bài báo mang tên "Một Phương Pháp Xóa Chứng Nhận Không Cần Truy Cập Dữ Liệu Gốc" đã được thực hiện cùng với Sk Miraj Ahmed, một cộng tác viên nghiên cứu khoa học tính toán tại Phòng thí nghiệm Quốc gia Brookhaven ở Upton, New York, người đã nhận bằng tiến sĩ tại UCR. Cả Roy-Chowdhury và Güler đều là thành viên giảng dạy tại Khoa Kỹ thuật Điện và Máy tính với các nhiệm vụ phụ tại Khoa Khoa học Máy tính và Kỹ thuật.

Nguồn tham khảo: Techxplore

Bí mật công nghệ: Cách mới khiến AI 'quên sạch' dữ liệu cá nhân và bản quyền!

Minh Nguyệt

Intern Writer

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ