OpenAI tuyên bố tìm ra cách ngăn chặn DeepSeek "chưng cất" dữ liệu của ChatGPT

Hoàng Anh
Hoàng Anh
Phản hồi: 0

Hoàng Anh

Writer
Trong cuộc đua Trí tuệ Nhân tạo (AI) ngày càng khốc liệt, việc bảo vệ tài sản trí tuệ và lợi thế cạnh tranh của các mô hình ngôn ngữ lớn (LLM) đang trở thành ưu tiên hàng đầu. OpenAI, công ty tiên phong với ChatGPT, dường như vừa có một động thái mới nhằm giải quyết vấn đề này: triển khai yêu cầu xác minh danh tính bằng giấy tờ chính phủ (ID verification) đối với các nhà phát triển muốn truy cập vào API của các mô hình AI tiên tiến nhất.

2-1738427396-934-width740height495_jpg_75.jpg

Mặc dù lý do chính thức được OpenAI đưa ra là nhằm ngăn chặn việc lạm dụng API, nhiều nhà quan sát tin rằng mục đích sâu xa hơn là ngăn chặn các đối thủ cạnh tranh, đặc biệt là DeepSeek đến từ Trung Quốc, thu thập (scraping) dữ liệu đầu ra từ các mô hình của OpenAI (như câu trả lời của ChatGPT) để sử dụng làm dữ liệu huấn luyện cho chính các mô hình AI của họ. Kỹ thuật này được gọi là "chưng cất" (distillation) mô hình.

Nghiên cứu chỉ ra sự tương đồng đáng ngờ

Nghi ngờ về việc DeepSeek "chưng cất" mô hình của OpenAI càng có cơ sở khi một nghiên cứu mới từ Copyleaks, công ty chuyên về phát hiện nội dung do AI tạo ra, được công bố. Sử dụng một hệ thống phân tích "dấu vân tay" dựa trên phong cách ngôn ngữ, Copyleaks phát hiện ra rằng có tới khoảng 74% nội dung đầu ra từ mô hình DeepSeek-R1 có thể được phân loại là mang phong cách của OpenAI.

Con số này đặc biệt nổi bật khi so sánh với các mô hình khác được kiểm tra. Mô hình phi-4 của Microsoft và Grok-1 của Elon Musk gần như không cho thấy sự tương đồng (tỷ lệ "không đồng thuận" lần lượt là 99,3% và 100%). Mô hình Mixtral của Mistral (Pháp) có một số điểm tương đồng nhất định, nhưng tỷ lệ của DeepSeek vẫn cao một cách đáng kinh ngạc. Nghiên cứu này cho thấy, ngay cả khi được yêu cầu viết theo các giọng điệu khác nhau, các mô hình AI vẫn để lại những "chữ ký" phong cách riêng biệt có thể truy vết được.

Kỹ thuật "chưng cất" và lo ngại của OpenAI

"Chưng cất" là kỹ thuật phổ biến trong nghiên cứu AI, nơi một mô hình nhỏ hơn (student model) được huấn luyện để bắt chước đầu ra của một mô hình lớn hơn, mạnh mẽ hơn (teacher model). Điều này giúp tạo ra các mô hình nhỏ gọn, hiệu quả hơn mà vẫn giữ được một phần năng lực của mô hình gốc. Tuy nhiên, việc các công ty sử dụng đầu ra từ mô hình độc quyền của đối thủ (như OpenAI) để "chưng cất" mô hình thương mại của mình mà không có sự cho phép rõ ràng là hành vi vi phạm điều khoản dịch vụ và đặt ra vấn đề nghiêm trọng về sở hữu trí tuệ.

Chung-cat-1_jpg_75.jpg

Chính OpenAI đã công khai bày tỏ sự quan ngại này vào đầu năm nay, sau khi DeepSeek gây ấn tượng mạnh với các mô hình có hiệu suất lý luận tương đương sản phẩm của họ. OpenAI cho biết họ "đang xem xét những dấu hiệu cho thấy DeepSeek có thể đã không phù hợp khi 'chưng cất' các mô hình của chúng tôi." Bài báo nghiên cứu về R1 của DeepSeek chỉ đề cập đến việc chưng cất từ các mô hình mã nguồn mở và công ty này đã không phản hồi các cáo buộc từ OpenAI.

Rào cản ID và cuộc tranh luận đạo đức

Việc yêu cầu xác minh ID chính phủ để truy cập API được xem là một rào cản kỹ thuật hiệu quả nhằm ngăn chặn việc scraping dữ liệu quy mô lớn để chưng cất mô hình. Nó khiến việc tạo hàng loạt tài khoản ẩn danh để thu thập dữ liệu trở nên khó khăn và tốn kém hơn nhiều cho các đối thủ cạnh tranh.

Tuy nhiên, động thái này của OpenAI cũng làm dấy lên cuộc tranh luận về tính nhất quán và đạo đức. Nhiều nhà phê bình chỉ ra rằng chính OpenAI trong giai đoạn đầu đã xây dựng các mô hình GPT của mình bằng cách thu thập lượng lớn dữ liệu từ khắp nơi trên internet, bao gồm cả nội dung có bản quyền từ các nhà xuất bản, tác giả, nghệ sĩ... thường không có sự đồng ý rõ ràng. Liệu có phải là "đạo đức giả" khi giờ đây OpenAI lại ngăn cản người khác sử dụng đầu ra của mình?

Ông Alon Yamin, CEO của Copyleaks, đưa ra một góc nhìn phân biệt: việc huấn luyện trên nội dung có bản quyền do con người tạo ra mà không xin phép là một vấn đề (liên quan đến bản quyền tác giả), nhưng việc sử dụng đầu ra của một hệ thống AI độc quyền của đối thủ để huấn luyện mô hình cạnh tranh lại là một vấn đề khác, giống như việc giải mã ngược (reverse-engineering) sản phẩm của đối thủ. Ông cho rằng hành vi thứ hai trực tiếp chuyển giao giá trị R&D một cách không công bằng và gây rủi ro cạnh tranh.

Cuộc chiến về dữ liệu huấn luyện và sở hữu trí tuệ trong ngành AI đang ngày càng trở nên gay gắt. Các công cụ như "dấu vân tay" kỹ thuật số của Copyleaks đang mở ra khả năng truy vết nguồn gốc nội dung do AI tạo ra. Động thái yêu cầu xác minh ID của OpenAI có thể chỉ là bước đi đầu tiên trong một cuộc chiến dài hơi nhằm bảo vệ tài sản trí tuệ và duy trì lợi thế trong cuộc đua AI toàn cầu.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

Bị coi là quốc gia kém phát triển, Triều Tiên lấy đâu ra tiền phát triển vũ khí khiến phương Tây e ngại?

  • 238
  • 0
Bất chấp việc được biết đến là một trong những quốc gia nghèo nhất châu Á, Triều Tiên trong những năm gần đây lại liên tục khiến thế giới kinh...

Điểm danh 6 tính năng phổ biến nhất của máy lọc không khí hiện nay, ai chuẩn bị mua cần chú ý

  • 122
  • 0
1. Công nghệ lọc không khí HEPA – Chuẩn mực vàng trong lọc bụi mịn HEPA (High-Efficiency Particulate Air) là công nghệ lọc không khí tiên tiến, có...

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

  • 146
  • 0
Hiện nay, máy lọc không khí đang được ngày càng nhiều gia đình sử dụng bởi tính năng lọc sạch không khí tuyệt vời, làm thoáng đãng không gian đặc...

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

  • 145
  • 0
Elmich là một thương hiệu gia dụng cao cấp đến từ Cộng hòa Séc, được thành lập vào năm 1995 tại thành phố Ostrava. Với gần 30 năm phát triển...

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

  • 144
  • 0
Theo báo cáo của Epoch AI (viện nghiên cứu tại San Francisco, công bố cuối tháng 4/2025), đến năm 2030, các siêu máy tính hàng đầu dùng để huấn...

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...
Back
Top