OpenAI tuyên bố tìm ra cách ngăn chặn DeepSeek "chưng cất" dữ liệu của ChatGPT

Hoàng Anh · 19/04/2025

Trong cuộc đua Trí tuệ Nhân tạo (AI) ngày càng khốc liệt, việc bảo vệ tài sản trí tuệ và lợi thế cạnh tranh của các mô hình ngôn ngữ lớn (LLM) đang trở thành ưu tiên hàng đầu. OpenAI, công ty tiên phong với ChatGPT, dường như vừa có một động thái mới nhằm giải quyết vấn đề này: triển khai yêu cầu xác minh danh tính bằng giấy tờ chính phủ (ID verification) đối với các nhà phát triển muốn truy cập vào API của các mô hình AI tiên tiến nhất.

Mặc dù lý do chính thức được OpenAI đưa ra là nhằm ngăn chặn việc lạm dụng API, nhiều nhà quan sát tin rằng mục đích sâu xa hơn là ngăn chặn các đối thủ cạnh tranh, đặc biệt là DeepSeek đến từ Trung Quốc, thu thập (scraping) dữ liệu đầu ra từ các mô hình của OpenAI (như câu trả lời của ChatGPT) để sử dụng làm dữ liệu huấn luyện cho chính các mô hình AI của họ. Kỹ thuật này được gọi là "chưng cất" (distillation) mô hình.

Nghiên cứu chỉ ra sự tương đồng đáng ngờ

Nghi ngờ về việc DeepSeek "chưng cất" mô hình của OpenAI càng có cơ sở khi một nghiên cứu mới từ Copyleaks, công ty chuyên về phát hiện nội dung do AI tạo ra, được công bố. Sử dụng một hệ thống phân tích "dấu vân tay" dựa trên phong cách ngôn ngữ, Copyleaks phát hiện ra rằng có tới khoảng 74% nội dung đầu ra từ mô hình DeepSeek-R1 có thể được phân loại là mang phong cách của OpenAI.

Con số này đặc biệt nổi bật khi so sánh với các mô hình khác được kiểm tra. Mô hình phi-4 của Microsoft và Grok-1 của Elon Musk gần như không cho thấy sự tương đồng (tỷ lệ "không đồng thuận" lần lượt là 99,3% và 100%). Mô hình Mixtral của Mistral (Pháp) có một số điểm tương đồng nhất định, nhưng tỷ lệ của DeepSeek vẫn cao một cách đáng kinh ngạc. Nghiên cứu này cho thấy, ngay cả khi được yêu cầu viết theo các giọng điệu khác nhau, các mô hình AI vẫn để lại những "chữ ký" phong cách riêng biệt có thể truy vết được.

Kỹ thuật "chưng cất" và lo ngại của OpenAI

"Chưng cất" là kỹ thuật phổ biến trong nghiên cứu AI, nơi một mô hình nhỏ hơn (student model) được huấn luyện để bắt chước đầu ra của một mô hình lớn hơn, mạnh mẽ hơn (teacher model). Điều này giúp tạo ra các mô hình nhỏ gọn, hiệu quả hơn mà vẫn giữ được một phần năng lực của mô hình gốc. Tuy nhiên, việc các công ty sử dụng đầu ra từ mô hình độc quyền của đối thủ (như OpenAI) để "chưng cất" mô hình thương mại của mình mà không có sự cho phép rõ ràng là hành vi vi phạm điều khoản dịch vụ và đặt ra vấn đề nghiêm trọng về sở hữu trí tuệ.

Chính OpenAI đã công khai bày tỏ sự quan ngại này vào đầu năm nay, sau khi DeepSeek gây ấn tượng mạnh với các mô hình có hiệu suất lý luận tương đương sản phẩm của họ. OpenAI cho biết họ "đang xem xét những dấu hiệu cho thấy DeepSeek có thể đã không phù hợp khi 'chưng cất' các mô hình của chúng tôi." Bài báo nghiên cứu về R1 của DeepSeek chỉ đề cập đến việc chưng cất từ các mô hình mã nguồn mở và công ty này đã không phản hồi các cáo buộc từ OpenAI.

Rào cản ID và cuộc tranh luận đạo đức

Việc yêu cầu xác minh ID chính phủ để truy cập API được xem là một rào cản kỹ thuật hiệu quả nhằm ngăn chặn việc scraping dữ liệu quy mô lớn để chưng cất mô hình. Nó khiến việc tạo hàng loạt tài khoản ẩn danh để thu thập dữ liệu trở nên khó khăn và tốn kém hơn nhiều cho các đối thủ cạnh tranh.

Tuy nhiên, động thái này của OpenAI cũng làm dấy lên cuộc tranh luận về tính nhất quán và đạo đức. Nhiều nhà phê bình chỉ ra rằng chính OpenAI trong giai đoạn đầu đã xây dựng các mô hình GPT của mình bằng cách thu thập lượng lớn dữ liệu từ khắp nơi trên internet, bao gồm cả nội dung có bản quyền từ các nhà xuất bản, tác giả, nghệ sĩ... thường không có sự đồng ý rõ ràng. Liệu có phải là "đạo đức giả" khi giờ đây OpenAI lại ngăn cản người khác sử dụng đầu ra của mình?

Ông Alon Yamin, CEO của Copyleaks, đưa ra một góc nhìn phân biệt: việc huấn luyện trên nội dung có bản quyền do con người tạo ra mà không xin phép là một vấn đề (liên quan đến bản quyền tác giả), nhưng việc sử dụng đầu ra của một hệ thống AI độc quyền của đối thủ để huấn luyện mô hình cạnh tranh lại là một vấn đề khác, giống như việc giải mã ngược (reverse-engineering) sản phẩm của đối thủ. Ông cho rằng hành vi thứ hai trực tiếp chuyển giao giá trị R&D một cách không công bằng và gây rủi ro cạnh tranh.

Cuộc chiến về dữ liệu huấn luyện và sở hữu trí tuệ trong ngành AI đang ngày càng trở nên gay gắt. Các công cụ như "dấu vân tay" kỹ thuật số của Copyleaks đang mở ra khả năng truy vết nguồn gốc nội dung do AI tạo ra. Động thái yêu cầu xác minh ID của OpenAI có thể chỉ là bước đi đầu tiên trong một cuộc chiến dài hơi nhằm bảo vệ tài sản trí tuệ và duy trì lợi thế trong cuộc đua AI toàn cầu.

Có thể bạn quan tâm

OpenAI tuyên bố tìm ra cách ngăn chặn DeepSeek "chưng cất" dữ liệu của ChatGPT

Hoàng Anh

Writer

Bị coi là quốc gia kém phát triển, Triều Tiên lấy đâu ra tiền phát triển vũ khí khiến phương Tây e ngại?

Điểm danh 6 tính năng phổ biến nhất của máy lọc không khí hiện nay, ai chuẩn bị mua cần chú ý

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

📝 Đánh giá nổi bật

Trải nghiệm TV TCL QD-Mini LED C6K: tham vọng bình dân hóa tấm nền Mini-LED

Đánh giá ống kính Sony 28-70 F/2 GM: Quái vật "hút máu" mới của Sony, nhưng liệu đã đủ hấp dẫn

Trải nghiệm cục phát 4G TOTOLINK: “Vũ khí” cân mọi hành trình

Trải nghiệm Jaecoo J7: Có đủ sức cạnh tranh trong phân khúc?

Đánh giá Xiaomi Redmi Note 14 5G: ngoài 5G thì còn nâng cấp gì so với bản 4G nữa?