Meta tuyên bố lấy dữ liệu bài viết công khai của người dùng trên Facebook và Instagram để đào tạo AI

Thế Việt · 15/04/2025

Tập đoàn Meta, công ty mẹ của Facebook và Instagram đã chính thức thông báo về kế hoạch sử dụng dữ liệu công khai của người dùng tại châu Âu để phục vụ việc huấn luyện các mô hình trí tuệ nhân tạo (AI) của mình. Đây là một bước đi đáng chú ý, diễn ra sau gần một năm hãng này phải tạm hoãn kế hoạch tương tự do vấp phải những rào cản pháp lý liên quan đến các quy định bảo vệ dữ liệu và quyền riêng tư nghiêm ngặt của Liên minh châu Âu (EU).

Những điểm chính

Meta (công ty mẹ Facebook, Instagram) chính thức thông báo (14/4) sẽ sử dụng dữ liệu công khai của người dùng châu Âu (từ 18 tuổi trở lên) để huấn luyện các mô hình AI của hãng.
Dữ liệu được sử dụng bao gồm bài đăng, bình luận công khai trên Facebook/Instagram và các tương tác với trợ lý Meta AI.
Người dùng tại châu Âu sẽ nhận được thông báo và có quyền từ chối (opt-out) việc dữ liệu của mình bị sử dụng cho mục đích này thông qua một biểu mẫu trực tuyến.
Meta cho biết mục đích là để AI hiểu rõ hơn về văn hóa và ngôn ngữ châu Âu, và hãng khẳng định đã đáp ứng các yêu cầu pháp lý về quyền riêng tư của EU sau khi phải trì hoãn kế hoạch từ năm 2024.
Động thái này diễn ra trong bối cảnh các công ty AI đang rất cần dữ liệu huấn luyện; Meta tự nhận cách làm của mình (thông báo, cho phép từ chối) là "minh bạch hơn" so với các đối thủ.

Theo thông báo, Meta sẽ sử dụng các nội dung được người dùng (từ 18 tuổi trở lên) chia sẻ công khai trên nền tảng Facebook và Instagram, bao gồm bài đăng (post) và bình luận (comment). Ngoài ra, thông tin mà người dùng đã trao đổi với công cụ trợ lý Meta AI cũng sẽ được đưa vào nguồn dữ liệu huấn luyện.

Meta cho biết người dùng tại châu Âu sẽ nhận được thông báo về việc này qua ứng dụng hoặc email. Quan trọng hơn, công ty cung cấp một cơ chế để người dùng có thể phản đối (opt-out) việc dữ liệu của họ bị sử dụng cho mục đích huấn luyện AI, thông qua việc điền vào một biểu mẫu trực tuyến được cung cấp.

Lý giải cho quyết định này, Meta cho rằng việc sử dụng dữ liệu từ châu Âu là cần thiết để các mô hình AI của họ có thể hiểu và phản ánh tốt hơn nền văn hóa, ngôn ngữ và các sắc thái đa dạng của cộng đồng người dùng trong khu vực. "Các mô hình AI tạo sinh của chúng tôi được đào tạo trên nhiều loại dữ liệu để có thể hiểu được những sắc thái và sự phức tạp đáng kinh ngạc và đa dạng, tạo nên các cộng đồng châu Âu," Meta viết trong thông báo, nhấn mạnh rằng điều này sẽ giúp hỗ trợ tốt hơn cho hàng triệu người dùng và doanh nghiệp tại đây.

Thực tế, việc sử dụng dữ liệu người dùng công khai để huấn luyện AI không phải là mới đối với Meta. Công ty đã và đang làm điều này với dữ liệu từ hầu hết các khu vực khác trên thế giới trong nhiều năm (một số điều tra cho thấy dữ liệu có thể được thu thập từ các bài đăng công khai từ năm 2007). Châu Âu là một ngoại lệ lớn do có các quy định bảo vệ dữ liệu chặt chẽ như GDPR. Kế hoạch ban đầu của Meta là bắt đầu sử dụng dữ liệu người dùng châu Âu từ tháng 6 năm 2024 nhưng đã phải hoãn lại. Lần này, Meta khẳng định họ "đã đáp ứng nghĩa vụ pháp lý của mình" trước khi triển khai.

Động thái của Meta diễn ra trong bối cảnh các công ty phát triển AI đang đối mặt với "cơn khát" dữ liệu huấn luyện ("đói dữ liệu") ngày càng tăng. Việc tìm kiếm các nguồn dữ liệu mới, chất lượng cao và hợp pháp là một thách thức lớn. Sử dụng dữ liệu công khai từ người dùng trên các nền tảng của mình là một giải pháp rõ ràng, nhưng cũng làm dấy lên những tranh cãi. Trang tin Gizmodo gọi đây là hành động đưa dữ liệu người dùng vào "máy xay nội dung", một cách ngầm tuyên bố rằng nội dung công khai của người dùng thuộc về nền tảng và có thể được sử dụng cho mục đích thương mại của công ty.

Cuối tuần trước, cuộc tranh luận về dữ liệu huấn luyện AI càng nóng lên khi Jack Dorsey, người sáng lập Twitter, kêu gọi "xóa tất cả luật về sở hữu trí tuệ", và nhận được sự đồng tình từ Elon Musk. Đề xuất cực đoan này phản ánh phần nào sự khó khăn của các nhà phát triển AI trong việc tiếp cận các nguồn dữ liệu có bản quyền.

Trong thông báo của mình, Meta cũng không quên khẳng định vị thế về sự minh bạch: "Chúng tôi tự hào cách tiếp cận của mình minh bạch hơn nhiều so với các đối thủ trong ngành". Việc công khai thông báo và cung cấp cơ chế phản đối cho người dùng châu Âu được Meta xem là bằng chứng cho tuyên bố này.

Dù vậy, quyết định của Meta chắc chắn sẽ tiếp tục được các cơ quan quản lý và các nhà hoạt động về quyền riêng tư tại châu Âu theo dõi sát sao. Việc cân bằng giữa nhu cầu phát triển công nghệ AI với quyền kiểm soát dữ liệu cá nhân của người dùng vẫn là một bài toán phức tạp trong kỷ nguyên số.

Có thể bạn quan tâm

Meta tuyên bố lấy dữ liệu bài viết công khai của người dùng trên Facebook và Instagram để đào tạo AI

Thế Việt

Writer

Bị coi là quốc gia kém phát triển, Triều Tiên lấy đâu ra tiền phát triển vũ khí khiến phương Tây e ngại?

Điểm danh 6 tính năng phổ biến nhất của máy lọc không khí hiện nay, ai chuẩn bị mua cần chú ý

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

📝 Đánh giá nổi bật

Trải nghiệm TV TCL QD-Mini LED C6K: tham vọng bình dân hóa tấm nền Mini-LED

Đánh giá ống kính Sony 28-70 F/2 GM: Quái vật "hút máu" mới của Sony, nhưng liệu đã đủ hấp dẫn

Trải nghiệm cục phát 4G TOTOLINK: “Vũ khí” cân mọi hành trình

Trải nghiệm Jaecoo J7: Có đủ sức cạnh tranh trong phân khúc?

Đánh giá Xiaomi Redmi Note 14 5G: ngoài 5G thì còn nâng cấp gì so với bản 4G nữa?