Google vừa phát động cuộc cách mạng video AI siêu thực từ hình ảnh đến âm thanh

Hail the Judge

Ta chơi xong không trả tiền, vậy đâu có gọi là bán
Google vừa ra mắt mô hình tạo video mới nhất Veo 3 có thể tạo clip dài 8 giây ở độ phân giải 720p, tích hợp âm thanh đồng bộ như hiệu ứng, nhạc nền, hội thoại – lần đầu tiên trong các công cụ AI của hãng. Kèm theo đó là công cụ làm phim AI trực tuyến Flow kết hợp Veo 3 với Imagen 4 (tạo hình ảnh) và Gemini (ngôn ngữ), giúp người dùng dễ dàng mô tả cảnh quay, quản lý nhân vật, bối cảnh, phong cách.

Cả hai hiện có sẵn cho người dùng Mỹ với gói Google AI Ultra giá 250 USD/tháng, đi kèm 12.500 credit (150 credit/video, tương đương 83 video hoặc khoảng 1,5 USD/video). Nhưng liệu Veo 3 có đáng giá?

Hoạt động như thế nào?​


Veo 3 sử dụng công nghệ khuếch tán (diffusion) tương tự các mô hình tạo hình ảnh như Stable Diffusion hay Flux. Quá trình huấn luyện bắt đầu bằng việc thêm nhiễu dần vào video thật cho đến khi chỉ còn tĩnh, rồi huấn luyện mạng nơ-ron đảo ngược quá trình này, tái tạo video từ nhiễu. Khi tạo video, Veo 3 khởi đầu từ nhiễu ngẫu nhiên và prompt (mô tả văn bản hoặc hình ảnh), dần tinh chỉnh thành clip phù hợp. Theo TechCrunch, Google DeepMind không tiết lộ nguồn dữ liệu huấn luyện nhưng YouTube (thuộc Google) rất có thể là một nguồn, vì DeepMind từng xác nhận các mô hình như Veo “có thể” dùng nội dung YouTube.

1748942713964.png


Veo 3 là hệ thống gồm nhiều mô hình AI: mô hình ngôn ngữ lớn (LLM) phân tích prompt, mô hình khuếch tán video tạo hình ảnh động, mô hình tạo âm thanh thêm hiệu ứng, nhạc, hoặc hội thoại đồng bộ. Để ngăn lạm dụng, Google dùng công nghệ SynthID gắn dấu nước vô hình vào khung hình, bền vững qua nén hoặc chỉnh sửa, giúp nhận diện nội dung AI. Tuy nhiên, dấu nước này chưa đủ ngăn chặn hoàn toàn deepfake. Google cũng chặn các prompt vi phạm chính sách, như nội dung lãng mạn, bạo lực, hoặc đề cập đến thương hiệu, người nổi tiếng, sự kiện lịch sử nhạy cảm.

Vẫn còn chút sạn​


Điểm đột phá của Veo 3 là khả năng tạo âm thanh đồng bộ, vượt xa các đối thủ như Sora (OpenAI), Runway hay Pika. Meta từng giới thiệu tính năng tương tự với Movie Gen tháng 10/2024 và DeepMind cũng thử nghiệm tạo nhạc nền AI từ tháng 6/2024, nhưng Veo 3 là mô hình đầu tiên tích hợp tất cả: hiệu ứng, nhạc và hội thoại. Thử nghiệm cho thấy Veo 3 tạo được âm thanh sống động như tiếng xe cộ, chim hót hay giọng nhân vật, nhưng vẫn có lỗi nhỏ: mì Ý kêu “rộp rộp” khi ăn, hoặc hội thoại đôi khi phát ra từ miệng sai nhân vật. Chữ phụ đề trong video cũng hay bị méo mó, do mô hình bắt chước phụ đề từ dữ liệu huấn luyện.

1748942927783.png


Flow là “trợ thủ” đắc lực, cho phép người dùng tạo clip điện ảnh mà không cần kỹ năng quay phim. Bạn chỉ cần mô tả cảnh, chọn nhân vật, bối cảnh, hoặc phong cách (như origami, tranh sơn dầu), và Flow sẽ kết hợp Veo 3, Imagen 4 và Gemini để hiện thực hóa. Theo CineD, Flow hợp tác với các đạo diễn như Darren Aronofsky cho thấy tiềm năng trong sản xuất chuyên nghiệp. Tuy nhiên, Flow đặt câu hỏi: khi AI làm hết, vai trò của nhà làm phim nằm đâu?

Giá cả​


Gói AI Ultra (250 USD/tháng) hơi “chát” với người dùng cá nhân, nhưng hợp lý với nhà sáng tạo chuyên nghiệp, đặc biệt khi mỗi video chỉ tốn 1,5 USD. Theo Tubefilter, Veo 3 đang được các YouTuber và nhà làm phim ngắn sử dụng, như “Influenders” của The Dor Brothers, đạt hàng trăm ngàn lượt xem dù chỉ dùng Veo 3 với chỉnh sửa hậu kỳ. Tuy nhiên, Mashable cảnh báo Veo 3 có thể làm mờ ranh giới thật-giả, đòi hỏi người xem nâng cao kỹ năng nhận diện deepfake. SynthID và dấu nước hiển thị (trừ video Flow của Ultra) là nỗ lực của Google, nhưng chưa đủ, nhất là khi AI ngày càng tinh vi.
 

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,535
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back