"Thuật ngữ ma" 75 năm tuổi "ám" cả ChatGPT: lời cảnh báo về dữ liệu huấn luyện AI

Thảo Nông
Thảo Nông
Phản hồi: 0
Bạn đã bao giờ nghe đến cụm từ "kính hiển vi điện tử thực vật" (vegetative electron microscopy) chưa? Nghe có vẻ rất khoa học và chuyên sâu, nhưng sự thật là thuật ngữ này hoàn toàn vô nghĩa và không tồn tại trong bất kỳ ngành khoa học nào. Tuy nhiên, điều đáng kinh ngạc là cụm từ "ma" này đã âm thầm tồn tại suốt nhiều thập kỷ, len lỏi vào hàng chục bài báo khoa học, và giờ đây, nó còn "ám" vào cả bộ não của các mô hình Trí tuệ Nhân tạo (AI) hàng đầu như ChatGPT và Claude, đặt ra những câu hỏi đáng lo ngại về tính toàn vẹn của dữ liệu huấn luyện và độ tin cậy của AI.

sei248413003-1745726339118142132210-1745731959846-1745731959944912526695_jpg_75.jpg

Nguồn gốc ngớ ngẩn và hành trình lan truyền


Cuộc truy tìm nguồn gốc của "kính hiển vi điện tử thực vật" do các nhà khoa học Nga khởi xướng đã dẫn đến một phát hiện trớ trêu. Thuật ngữ này dường như được sinh ra từ lỗi của phần mềm nhận dạng ký tự quang học (OCR) cũ kỹ khi quét các bài báo khoa học từ những năm 1950. Phần mềm này đã vô tình ghép từ "vegetative" (thực vật) ở một cột văn bản với cụm "electron microscopy" (kính hiển vi điện tử) ở cột khác, tạo ra một thuật ngữ lai ghép vô nghĩa.

Nhiều thập kỷ sau, thuật ngữ ma này bất ngờ tái xuất hiện trong một số bài báo khoa học của các tác giả Iran vào năm 2017 và 2019, nghi ngờ do một lỗi dịch thuật từ tiếng Farsi (từ chỉ "quét" và "thực vật" rất giống nhau). Từ đó, nó bắt đầu lan truyền rộng hơn, xuất hiện trong ít nhất 22 bài báo được Google Scholar ghi nhận, bao gồm cả những bài đăng trên tạp chí của các nhà xuất bản uy tín như Springer Nature và Elsevier (sau đó đã phải thu hồi hoặc đính chính). Nó cũng trở nên phổ biến hơn trong các tạp chí "săn mồi" (predatory journals) chất lượng thấp sau năm 2020.

file-20250415-68-de9mph-1745726826717854982197-1745731964373-1745731964544612606662_jpg_75.jpg

AI bị "nhiễm bẩn" và "hóa thạch số"

Sự lan truyền của "kính hiển vi điện tử thực vật" trên internet, đặc biệt là trong các văn bản khoa học (dù là chất lượng thấp), đã không thể tránh khỏi việc lọt vào các tập dữ liệu khổng lồ dùng để huấn luyện các mô hình AI ngôn ngữ lớn (LLM). Các nhà khoa học tại Đại học Công nghệ Queensland (Úc), dẫn đầu bởi Tiến sĩ Aaron Snoswell, đã tiến hành kiểm tra và xác nhận điều này.

Bằng cách đưa ra các đoạn văn bản gốc chứa lỗi và yêu cầu AI hoàn thành, họ phát hiện ra rằng các mô hình từ GPT-3 trở đi (bao gồm cả GPT-4o và Claude 3.5) đã "học" và liên tục gợi ý hoặc tự động hoàn thành bằng cụm từ vô nghĩa "kính hiển vi điện tử thực vật". Trong khi đó, các mô hình cũ hơn như GPT-2 hay BERT, vốn được huấn luyện trên dữ liệu cũ hơn, lại không hề biết đến thuật ngữ này. Nghiên cứu chỉ ra nguồn lây nhiễm khả dĩ nhất là tập dữ liệu CommonCrawl, một bộ sưu tập khổng lồ các trang web được thu thập tự động.

common-crawl-spiderwidth-1200-17457267427541478185199-1745731963555-1745731963661623140048_png...jpg

Việc AI học và tiếp tục lan truyền những thuật ngữ vô nghĩa này đặt ra một vấn đề nghiêm trọng. Do quy mô dữ liệu huấn luyện quá lớn và sự thiếu minh bạch từ các công ty AI, việc tìm và sửa chữa những "lỗi" như thế này là cực kỳ khó khăn, gần như bất khả thi. Tiến sĩ Snoswell gọi chúng là "hóa thạch số" (digital fossils) – những thông tin sai lệch bị kẹt lại vĩnh viễn trong nền tảng tri thức số của nhân loại và có nguy cơ được AI khuếch đại mãi mãi.

Câu chuyện về "kính hiển vi điện tử thực vật" là một lời cảnh báo mạnh mẽ về tầm quan trọng của chất lượng dữ liệu trong huấn luyện AI. Nó cho thấy AI, dù mạnh mẽ, vẫn chưa thể thay thế hoàn toàn khả năng đánh giá và kiểm duyệt của con người, đặc biệt là trong các lĩnh vực chuyên môn. Chúng ta cần phải hết sức cẩn trọng và luôn kiểm chứng thông tin do AI cung cấp, bởi rất có thể còn nhiều "thuật ngữ ma" khác đang ẩn mình trong đó, chờ ngày được "khai quật".
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

  • 134
  • 0
Samsung vừa thông báo rằng dòng TV QLED mới nhất của hãng đã nhận được chứng nhận ‘Màn hình Chấm lượng tử Đích thực’ (Real Quantum Dot Display) từ...

Sếp Apple dự đoán "ngày tàn" của iPhone chỉ trong 10 năm tới: Lý do từ kẻ mà "ai cũng biết là ai"

  • 1,237
  • 0
Phó chủ tịch cấp cao phụ trách mảng dịch vụ của Apple, ông Eddy Cue, vừa đưa ra một nhận định gây sửng sốt về tương lai của chính sản phẩm chủ lực...

"Cú lừa" của Apple và Samsung về dung lượng lưu trữ điện thoại

  • 287
  • 0
Chi phí tăng đáng kể khi nâng cấp bộ nhớ được cho là chiến lược tối đa hóa lợi nhuận của các hãng smartphone, đặc biệt ở phân khúc cao cấp...

Hãng xe lớn nhất thế giới bay mất 1,3 tỷ USD lợi nhuận chỉ trong 2 tháng vì thuế Mỹ

  • 212
  • 0
Một năm trước, hãng sản xuất ô tô lớn nhất thế giới Toyota đã có một năm thành công rực rỡ. Người tiêu dùng Mỹ đã mua xe hybrid của Toyota và đồng...

Thị trường Nhật Bản "nín thở" chờ BYD công phá hàng rào bảo vệ các hãng xe nội địa

  • 167
  • 0
Thị trường xe siêu nhỏ (kei car) là một rào cản phi thuế quan lớn, bảo vệ ngành ô tô Nhật Bản trước các nhà sản xuất nước ngoài. Xe siêu nhỏ chiếm...
Back
Top