Google DeepMind vừa ra mắt D4RT, và đây là lý do giới công nghệ nói rằng AI đã bắt đầu “hiểu thế giới như con người”

Checker

Writer
Google DeepMind vừa công bố một công nghệ mới có tên D4RT. Nghe có vẻ kỹ thuật, nhưng bản chất của nó rất đơn giản. D4RT giúp AI nhìn và hiểu video theo cả không gian lẫn thời gian, chứ không còn chỉ nhìn từng khung hình rời rạc như trước.
1769149591125.png

Trước đây, nếu muốn máy tính hiểu một video, các kỹ sư phải chia nhỏ công việc. Một hệ thống tính chuyển động, một hệ thống đo khoảng cách, một hệ thống xác định góc quay camera. Tất cả ghép lại vừa chậm vừa dễ lỗi. Làm xong một video ngắn có khi mất hàng giờ, thậm chí cả đêm.

D4RT thay đổi hoàn toàn cách làm đó. Nó dùng một cách tiếp cận mới, coi cả video như một “bức tranh sống” duy nhất. AI sẽ ghi nhớ toàn bộ cảnh, rồi khi cần, chỉ việc đặt câu hỏi kiểu như: điểm này đang ở đâu trong không gian 3D, nó đã di chuyển thế nào và sắp đi đâu tiếp theo. Mọi thứ được xử lý cùng lúc, không cần chia nhỏ từng bước.
1769149611347.png

Điều gây sốc nhất là tốc độ. DeepMind cho biết D4RT nhanh hơn các công nghệ trước đây từ vài chục đến hàng trăm lần. Một video dài một phút có thể được xử lý chỉ trong vài giây. Điều này không phải là nói quá, vì thay vì xử lý tuần tự từng bước, D4RT xử lý song song hàng nghìn điểm ảnh cùng lúc.

Không chỉ nhanh, độ chính xác của nó cũng rất cao. Với những cảnh phức tạp như động vật chạy, hoa lay trong gió hay người qua lại đông đúc, các hệ thống cũ thường tạo ra hình ảnh 3D bị nhòe, chồng bóng. D4RT thì khác. Nó phân biệt rõ đâu là chuyển động của vật thể, đâu là chuyển động của camera, nên mô hình 3D rất sạch và sát thực tế.
1769149630483.png

Một điểm thú vị là D4RT có thể theo dõi từng pixel. Bạn có thể chọn một điểm rất nhỏ trên cánh hoa trong video, và AI có thể vẽ lại quỹ đạo 3D của điểm đó từ quá khứ đến tương lai, kể cả khi nó bị che khuất trong vài khung hình. Cảm giác giống như AI không còn “xem video” nữa, mà đang thực sự hiểu cả cảnh vật đang diễn ra.

Ý nghĩa của điều này rất lớn. Với robot và xe tự lái, đây là mảnh ghép còn thiếu. Máy không chỉ biết vật đang ở đâu, mà còn dự đoán nó sẽ đi đâu trong khoảnh khắc tiếp theo. Điều này cực kỳ quan trọng cho an toàn và khả năng phản ứng.

Với thực tế tăng cường AR, D4RT mở đường cho những trải nghiệm chân thực hơn nhiều. Kính AR trong tương lai có thể hiểu chính xác căn phòng bạn đang đứng, biết đồ vật ở đâu, che khuất ra sao, và hiển thị nội dung ảo gần như không có độ trễ.
1769149646091.png

Ngay cả người dùng bình thường cũng sẽ hưởng lợi. Trong chỉnh sửa video hoặc ảnh trên điện thoại, bạn có thể xoay góc nhìn sau khi đã quay xong, xóa người thừa khỏi khung hình phức tạp, hoặc chỉnh ánh sáng như thể đang dựng phim chuyên nghiệp.
1769149654871.png

D4RT cho thấy AI đang bước sang một giai đoạn mới. Từ chỗ chỉ nhận dạng hình ảnh 2D, giờ nó bắt đầu hiểu thế giới theo 4 chiều, gồm không gian và thời gian. Với AI, quá khứ và tương lai không còn mơ hồ. Chúng chỉ là những câu hỏi khác nhau đặt ra trên cùng một bức tranh sống động của thế giới.

Tài liệu tham khảo:

 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back