Dữ liệu "sạch" do con người tạo ra sắp thành "hoài niệm" trên Internet: Khi AI tự "ăn" chính mình và nguy cơ sụp đổ hàng loạt

Mai Nhung · 14/06/2025

Sự bùng nổ của nội dung do AI tạo ra đang gây ra một vấn nạn về độ tin cậy. Dữ liệu thuần túy từ con người ngày càng trở nên khan hiếm và quý giá, được ví như loại "thép sạch" từ các con tàu đắm trước kỷ nguyên hạt nhân.

Internet trước nguy cơ bị "ô nhiễm" bởi AI

Sự xuất hiện của ChatGPT vào cuối năm 2022 đã kéo theo một cuộc bùng nổ của các nội dung được tạo ra bởi Trí tuệ Nhân tạo (AI) trên khắp Internet. Theo dự đoán của công ty phân tích công nghệ Gartner, đến năm 2026, có tới 90% nội dung trên Internet sẽ được tạo ra bởi AI, bao gồm cả văn bản, hình ảnh và video.

AI vốn được huấn luyện dựa trên một khối lượng dữ liệu khổng lồ do con người tạo ra để có thể hiểu được cách con người suy nghĩ và giao tiếp. Tuy nhiên, một câu hỏi lớn đang được đặt ra: Nếu không còn đủ dữ liệu "sạch" do con người tạo ra, và các mô hình AI bắt đầu phải "học" từ chính những nội dung cũ do bản thân chúng hoặc các AI khác đã tạo ra, điều gì sẽ xảy ra? Câu trả lời là chúng sẽ giống như một chiếc máy photocopy tự sao chép lại chính bản sao của nó – chất lượng sẽ ngày càng suy giảm, dẫn đến nguy cơ sụp đổ mô hình (model collapse).

Nhiều nhà nghiên cứu hiện đang so sánh những nội dung nguyên bản do con người tạo ra với một loại thép "sạch" (low-background steel) trong thời hiện đại, một thứ tương đương về sự quý hiếm và khó tìm. Họ lo sợ rằng nếu không ai có thể lưu trữ được một bản sao của các dữ liệu "sạch" từ trước năm 2022, Internet sẽ mất đi hoàn toàn sự trong sạch và độ tin cậy vốn có của nó.

Thảm họa "thép nhiễm bẩn" và bài học lịch sử tái hiện

Phép so sánh này bắt nguồn từ một câu chuyện có thật trong lịch sử. Trong kỷ nguyên hậu hạt nhân, các nhà khoa học đã phát hiện ra rằng tất cả các loại thép được sản xuất sau năm 1945 đều đã bị nhiễm bẩn phóng xạ. Các vụ nổ bom nguyên tử đã làm cho bầu khí quyển của Trái Đất bị nhiễm các hạt phóng xạ, và chúng đã lan sang cả các kim loại được sản xuất trong môi trường đó.

Điều này đã dẫn đến việc phần lớn các loại thép hiện đại không thể được sử dụng cho các thiết bị đo lường đòi hỏi độ chính xác cực kỳ cao, như máy đếm phóng xạ Geiger và nhiều loại cảm biến nhạy cảm khác. Giải pháp duy nhất của các nhà khoa học khi đó là phải đi thu hồi những loại thép cũ từ các chiến hạm đã bị đánh chìm từ trước thời kỳ chiến tranh, vốn nằm sâu dưới đáy đại dương và không bị ảnh hưởng bởi các bụi phóng xạ.

Chiến hạm bị đắm Hindenburg thời Thế chiến I đã được trục vớt. Ảnh: Reuters Connect.

Đối với các nhà phát triển AI ngày nay, một vấn đề tương tự đang diễn ra. Hầu hết các mô hình AI đều được huấn luyện bằng một kho dữ liệu khổng lồ do con người tạo ra và thu thập trên Internet. Nhưng nếu các phần mềm của ngày hôm nay lại phải "học" từ những văn bản do chính chúng đã tạo ra trong quá khứ, các mô hình này sẽ có nguy cơ bị sụp đổ, làm loãng đi tính nguyên bản, sự đa dạng và chiều sâu kiến thức.

Điều này đã khiến cho các nội dung do con người tạo ra, đặc biệt là những nội dung từ trước năm 2022, trở nên có giá trị hơn bao giờ hết. Ông Will Allen, phó chủ tịch của Cloudflare, một đơn vị đang vận hành một trong những mạng lưới Internet lớn nhất thế giới, cho rằng những dữ liệu "sạch" này giúp cho các mô hình AI, cũng như toàn xã hội, có thể bám vào một thực tại chung. Mọi thứ sẽ trở nên vô cùng phức tạp nếu chúng ta không còn nền tảng đó.

Hiểm họa đã hiện hữu

Hiểm họa này cũng đang đến gần với thực tế hơn chúng ta tưởng. Chỉ một năm sau khi ChatGPT ra mắt, nhà đầu tư mạo hiểm nổi tiếng Paul Graham đã kể rằng ông đã phải tìm kiếm các nội dung cũ hơn cho một tra cứu đơn giản chỉ để có thể tránh được những "mồi nhử SEO do AI tạo ra". Ông Malte Ubl, Giám đốc Công nghệ của startup AI Vercel, đã phản hồi rằng ông Graham thực chất đang phải "lọc" Internet để có thể tìm được những nội dung "trước khi bị ô nhiễm bởi AI".

Ông Matt Rickard, một cựu kỹ sư của Google, cũng đồng tình với quan điểm này. Anh đã viết trong một bài blog từ năm 2023, cho rằng AI đang lấy dữ liệu từ Internet, nhưng ngày càng có nhiều nội dung trên đó lại do chính AI tạo ra. “Đầu ra của các chatbot rất khó để có thể phát hiện. Việc tìm ra được các dữ liệu huấn luyện chưa bị AI can thiệp sẽ ngày càng trở nên khó khăn hơn,” Rickard giải thích.

Công cuộc "mò thép đáy biển" của kỷ nguyên số

Câu trả lời cho vấn đề trên nằm ở việc phải bảo tồn các phiên bản dữ liệu "sạch" do con người tạo ra trước thời kỳ bùng nổ của AI. Một trong những người tiên phong trong công cuộc này là ông John Graham-Cumming, Giám đốc Công nghệ của Cloudflare.

Dự án của ông, trang web có tên LowBackgroundSteel.ai, đang liệt kê các bộ dữ liệu, các đường dẫn và các phương tiện truyền thông được xác định là đã tồn tại từ trước năm 2022. Một ví dụ được đưa ra là Arctic Code Vault của GitHub, một kho lưu trữ các phần mềm mã nguồn mở đã được chôn sâu trong một mỏ than bỏ hoang ở Na Uy, lưu giữ các dữ liệu từ tháng 2 năm 2020.

Dự án bảo tồn dữ liệu con người của Graham-Cumming. Ảnh: Lowbackgroundsteel.ai.

Một nguồn dữ liệu "sạch" khác mà ông liệt kê là dự án “wordfreq”, một dự án chuyên theo dõi tần suất sử dụng của các từ ngữ trên mạng. Nhà ngôn ngữ học Robyn Speer, người đã duy trì dự án này đến năm 2021, cho biết: “AI tạo sinh đã làm ô nhiễm dữ liệu.” Cô đưa ra một ví dụ là việc ChatGPT dường như bị "ám ảnh" với từ “delve” (có nghĩa là "đi sâu vào"), dẫn đến sự xuất hiện của từ này nhiều hơn một cách bất thường trong thời gian gần đây. Điều này làm cho dữ liệu trên Internet bị lệch đi, khiến nó trở nên kém tin cậy hơn trong việc phản ánh cách con người thực sự viết và suy nghĩ.

Việc bảo tồn quá khứ có thể sẽ là cách duy nhất để chúng ta có thể xây dựng được một tương lai đáng tin cậy cho AI và cho cả tri thức của nhân loại.

Dữ liệu "sạch" do con người tạo ra sắp thành "hoài niệm" trên Internet: Khi AI tự "ăn" chính mình và nguy cơ sụp đổ hàng loạt

Mai Nhung

Topaz

Internet trước nguy cơ bị "ô nhiễm" bởi AI

Thảm họa "thép nhiễm bẩn" và bài học lịch sử tái hiện

Hiểm họa đã hiện hữu

Công cuộc "mò thép đáy biển" của kỷ nguyên số

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

Dữ liệu "sạch" do con người tạo ra sắp thành "hoài niệm" trên Internet: Khi AI tự "ăn" chính mình và nguy cơ sụp đổ hàng loạt

Topaz

Internet trước nguy cơ bị "ô nhiễm" bởi AI​

Thảm họa "thép nhiễm bẩn" và bài học lịch sử tái hiện​

Hiểm họa đã hiện hữu​

Công cuộc "mò thép đáy biển" của kỷ nguyên số​

Internet trước nguy cơ bị "ô nhiễm" bởi AI

Thảm họa "thép nhiễm bẩn" và bài học lịch sử tái hiện

Hiểm họa đã hiện hữu

Công cuộc "mò thép đáy biển" của kỷ nguyên số