Bí mật công nghệ: Cách mới khiến AI 'quên sạch' dữ liệu cá nhân và bản quyền!

Minh Nguyệt

Intern Writer
Nhóm các nhà khoa học máy tính tại Đại học UC Riverside vừa phát triển một phương pháp mới giúp xóa dữ liệu riêng tư và bản quyền khỏi các mô hình trí tuệ nhân tạo mà không cần truy cập vào dữ liệu đào tạo gốc. Đột phá này, được trình bày trong một bài báo vào tháng Bảy tại Hội nghị Quốc tế về Machine Learning diễn ra ở Vancouver, Canada, nhằm giải quyết một mối quan tâm ngày càng gia tăng toàn cầu về việc các tài liệu cá nhân và bản quyền vẫn còn trong các mô hình AI vô thời hạn. Điều này có nghĩa là các tài liệu này vẫn có thể truy cập được đối với những người sử dụng mô hình, bất chấp những nỗ lực của các nhà sáng tạo ban đầu để xóa bỏ hoặc bảo vệ thông tin của họ bằng các bức tường trả phí và mật khẩu. Nghiên cứu cũng đã được công bố trên máy chủ arXiv.

Sáng kiến từ UCR buộc các mô hình AI phải "quên" các thông tin được chọn trong khi vẫn duy trì tính năng của các dữ liệu còn lại. Đây là một bước tiến quan trọng, giúp điều chỉnh mô hình mà không cần phải tái tạo từ đầu với khối lượng dữ liệu đào tạo gốc khổng lồ, điều này vừa tốn kém vừa tiêu tốn năng lượng. Phương pháp này còn cho phép xóa bỏ thông tin cá nhân khỏi các mô hình AI ngay cả khi dữ liệu đào tạo gốc không còn tồn tại. "Trong các tình huống thực tế, bạn không thể luôn quay lại và lấy dữ liệu gốc," Ümit Yiğit Başaran, một sinh viên tiến sĩ chuyên ngành điện và máy tính tại UCR và là tác giả chính của nghiên cứu cho biết. "Chúng tôi đã tạo ra một khung chứng nhận hoạt động ngay cả khi dữ liệu đó không còn."
7-online.jpg

Nhu cầu này đang trở nên cấp thiết hơn bao giờ hết. Các công ty công nghệ đang phải đối mặt với các luật về quyền riêng tư mới, chẳng hạn như Quy định Chung về Bảo vệ Dữ liệu của Liên minh Châu Âu và Đạo luật Bảo vệ Quyền riêng tư của Người tiêu dùng California, quy định về bảo mật dữ liệu cá nhân được nhúng trong các hệ thống học máy quy mô lớn. Thêm vào đó, The New York Times đang kiện OpenAI và Microsoft vì đã sử dụng nhiều bài viết có bản quyền của họ để đào tạo các mô hình Generative Pre-trained Transformer (GPT). Các mô hình AI "học" các mẫu từ những văn bản lớn được thu thập từ internet. Khi được truy vấn, các mô hình này sẽ dự đoán các tổ hợp từ có khả năng xảy ra nhất, tạo ra các phản hồi bằng ngôn ngữ tự nhiên cho các yêu cầu từ người dùng. Đôi khi, chúng tạo ra các bản sao gần như chính xác của các văn bản đào tạo, cho phép người dùng vượt qua các bức tường trả phí của các nhà sáng tạo nội dung.

Nhóm nghiên cứu tại UC Riverside - gồm Başaran, giáo sư Amit Roy-Chowdhury và phó giáo sư Başak Güler - đã phát triển một phương pháp mà họ gọi là "xóa chứng nhận không cần truy cập dữ liệu gốc". Kỹ thuật này cho phép các nhà phát triển AI xóa bỏ dữ liệu mục tiêu bằng cách sử dụng một tập dữ liệu thay thế hoặc "surrogate" có đặc điểm thống kê tương tự như dữ liệu gốc. Hệ thống điều chỉnh các tham số mô hình và thêm vào tiếng ồn ngẫu nhiên đã được căn chỉnh cẩn thận để đảm bảo thông tin nhắm tới được xóa bỏ và không thể phục hồi. Khung nghiên cứu của họ dựa trên một khái niệm trong tối ưu hóa AI, giúp ước lượng hiệu quả cách một mô hình sẽ thay đổi nếu nó được đào tạo lại từ đầu. Nhóm nghiên cứu UCR đã cải tiến cách tiếp cận này với một cơ chế căn chỉnh tiếng ồn mới, bù đắp cho những khác biệt giữa các tập dữ liệu gốc và thay thế.

Các nhà nghiên cứu đã xác thực phương pháp của mình bằng cách sử dụng cả tập dữ liệu tổng hợp và thực tế, và họ đã tìm thấy rằng phương pháp này cung cấp các bảo đảm về quyền riêng tư gần với những gì đạt được với việc tái đào tạo hoàn toàn, nhưng lại yêu cầu ít sức mạnh tính toán hơn rất nhiều. Công việc hiện tại áp dụng cho các mô hình đơn giản, nhưng có thể sẽ mở rộng ra các hệ thống phức tạp hơn như ChatGPT, theo lời Roy-Chowdhury, đồng giám đốc Viện Nghiên cứu và Giáo dục Trí tuệ Nhân tạo Riverside (RAISE) và giáo sư tại Cao đẳng Kỹ thuật Marlan và Rosemary Bourns.

Ngoài việc tuân thủ quy định, kỹ thuật này còn hứa hẹn sẽ hỗ trợ các tổ chức truyền thông, cơ sở y tế và những đơn vị khác xử lý dữ liệu nhạy cảm được nhúng trong các mô hình AI. Nó cũng có thể giúp người dùng yêu cầu xóa bỏ nội dung cá nhân hoặc có bản quyền khỏi các hệ thống AI. "Mọi người xứng đáng được biết rằng dữ liệu của họ có thể được xóa khỏi các mô hình học máy - không chỉ lý thuyết, mà là những cách chứng minh và thực tiễn," Güler nhấn mạnh. Các bước tiếp theo của nhóm sẽ là tinh chỉnh phương pháp để làm việc với các loại mô hình và tập dữ liệu phức tạp hơn, đồng thời xây dựng các công cụ để giúp công nghệ này tiếp cận với các nhà phát triển AI trên toàn thế giới. Bài báo mang tên "Một Phương Pháp Xóa Chứng Nhận Không Cần Truy Cập Dữ Liệu Gốc" đã được thực hiện cùng với Sk Miraj Ahmed, một cộng tác viên nghiên cứu khoa học tính toán tại Phòng thí nghiệm Quốc gia Brookhaven ở Upton, New York, người đã nhận bằng tiến sĩ tại UCR. Cả Roy-Chowdhury và Güler đều là thành viên giảng dạy tại Khoa Kỹ thuật Điện và Máy tính với các nhiệm vụ phụ tại Khoa Khoa học Máy tính và Kỹ thuật.

Nguồn tham khảo: Techxplore
 
Sửa lần cuối bởi điều hành viên:

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back