Robot tích hợp AI có thể dọn bếp thay con người, cùng nhau dọn dẹp vệ sinh nhà cửa

The Storm Riders · 02/04/2025

Công ty Figure AI đã trình diễn khả năng của mô hình thị giác-ngôn ngữ-hành động (visual-language-action - VLA) Helix trong một nhiệm vụ gia đình đơn giản: cất đồ tạp hóa. Được khởi động chỉ bằng một lời nhắc duy nhất từ con người, các robot trong video của công ty đã đánh giá trực quan khung cảnh và sau đó hợp tác để xác định từng vật thể và di chuyển chúng đến vị trí thích hợp trong nhà bếp.

Có một vài điểm đáng chú ý từ video: Đầu tiên, các robot làm việc độc lập với các món đồ đặt trước mặt chúng, cho đến khi rõ ràng một robot cần chuyển giao một vài món đồ đến vị trí trong tầm với của robot kia.

Thứ hai, các robot không giao tiếp bằng lời nói, nhưng có những khoảng dừng đáng chú ý trong tương tác của chúng, nơi chúng nhìn chằm chằm vào nhau trong một tương tác "thần giao cách cảm" (telepathic) kỳ lạ. Figure cho biết kiến trúc AI giám sát chia mục tiêu tổng thể thành các nhiệm vụ phụ nhỏ hơn đồng thời điều khiển từng robot một cách độc lập.

Đây là một trong những lần đầu tiên chúng ta thấy hai robot hình người làm việc cộng tác với nhau.

Để hoàn thành nhiệm vụ được yêu cầu, các robot đã đóng ngăn kéo, đóng cửa tủ lạnh và đặt một cái bát vào bên cạnh quầy. Đây là những nhiệm vụ phụ vốn trực quan đối với con người, nhưng chúng không được chỉ định trong yêu cầu. Figure cho biết điều này đã chứng minh tính đầy đủ của các hành động huấn luyện. Trong bài viết blog riêng biệt, công ty đã giải thích kiến trúc cho hệ thống Helix giám sát dành cho các robot trong bản demo. Trái tim của hệ thống Helix là mô hình VLA, mà công ty cho biết đang nổi lên như một công nghệ chủ chốt cho tất cả các nhà sản xuất robot hình người.

The Robot Report đã chứng kiến buổi trình diễn đầu tiên về việc robot được hướng dẫn dựa trên Mô hình Ngôn ngữ Lớn (LLM) trên sân khấu tại sự kiện RoboBusiness 2023 ở Santa Clara, Calif. Trong bài phát biểu chính, Pras Velagapudi, giám đốc công nghệ tại Agility Robotics, đã làm khán giả kinh ngạc với một video cho thấy robot hình người Digit dọn dẹp một căn phòng bừa bộn bằng cách phản hồi một lệnh thoại đơn giản "Dọn dẹp phòng đi.”

Buổi trình diễn Figure Helix này không kém phần ấn tượng sau một năm rưỡi bởi vì giờ đây nó đang chạy trực tiếp trên robot (onboard), và vì VLA đã được mã hóa và thử nghiệm đầy đủ. Figure cho biết họ đã tạo ra VLA bằng cách thu thập khoảng 500 giờ dữ liệu chất lượng cao, đa robot, đa người vận hành về các hành vi điều khiển từ xa đa dạng.

Để tạo ra các cặp huấn luyện dựa trên điều kiện ngôn ngữ tự nhiên, công ty đã sử dụng một VLA tự động gán nhãn (auto-labeling) để tạo ra các hướng dẫn nhìn lại (hindsight instructions). VLA đã xử lý các đoạn video được phân đoạn từ camera trên robot và được gợi ý bằng câu hỏi: "Bạn sẽ đưa ra hướng dẫn nào cho robot để thực hiện hành động được thấy trong video này?"

Mô hình Helix VLA của Figure đại diện cho một tiến bộ đáng kể trong lĩnh vực robot và AI, đặc biệt là ở cách nó khác biệt so với các mô hình VLA trước đây. Dưới đây là phân tích các điểm khác biệt chính của nó:

Kiểm soát toàn bộ phần thân trên
- Sự khéo léo: Figure đã chứng minh mô hình Helix VLA cung cấp khả năng kiểm soát liên tục, tốc độ cao đối với toàn bộ phần thân trên của robot hình người. Điều này bao gồm thân, đầu, cổ tay và các ngón tay riêng lẻ, tự hào có 35 bậc tự do (DoF). Mức độ khéo léo này dường như cho phép thao tác các vật thể phức tạp và tinh tế hơn so với các mô hình trước đây.
- Chuyển động giống người: Khả năng kiểm soát toàn bộ phần thân trên cho phép Helix thực hiện các nhiệm vụ với chuyển động và sự phối hợp giống người hơn. Ví dụ, nó có thể dùng đầu theo dõi tay để căn chỉnh thị giác và điều chỉnh thân mình để tối ưu tầm với trong khi vẫn duy trì các chuyển động ngón tay chính xác để cầm nắm.
Cộng tác đa robot
- Nhiệm vụ hợp tác: Figure đã trình diễn Helix hoạt động đồng thời trên hai robot, cho phép chúng cộng tác trong các nhiệm vụ chung. Điều này mở ra khả năng cho các hành động phức tạp và phối hợp hơn, chẳng hạn như hai robot cùng nhau cất đồ tạp hóa hoặc lắp ráp một món đồ nội thất.
- Khả năng khái quát hóa không cần mẫu (Zero-shot generalization): Dựa trên thiết lập của buổi trình diễn, các robot cộng tác trong các nhiệm vụ liên quan đến các vật thể mà chúng chưa bao giờ (được cho là) gặp phải trước đây. Nếu robot chưa từng thấy những vật thể này, thì điều đó chứng tỏ khả năng của mô hình trong việc khái quát hóa và thích ứng với các tình huống mới.
Khả năng 'nhặt mọi thứ'
- Nhận dạng đối tượng chung: Buổi trình diễn cho thấy Helix cho phép robot hình người của Figure xác định và thao tác với một loạt các vật dụng gia đình. Việc sử dụng VLA là một cải tiến so với các mô hình trước đây thường yêu cầu huấn luyện cụ thể cho từng đối tượng.
- Lời nhắc bằng ngôn ngữ tự nhiên: Robot đã chứng minh khả năng hiểu và phản hồi các lệnh bằng ngôn ngữ tự nhiên, cho phép người dùng hướng dẫn nó "nhặt món tráng miệng" (“pick up the desert item”) hoặc "đưa túi bánh quy cho robot bên phải bạn" (“hand the bag of cookies to the robot on your right”) mà không cần cung cấp hướng dẫn chi tiết.
Mạng nơ-ron thống nhất
- Một mô hình duy nhất cho mọi hành vi: Không giống như các phương pháp trước đây thường yêu cầu các mô hình riêng biệt cho các nhiệm vụ khác nhau, Helix dường như sử dụng một bộ trọng số mạng nơ-ron duy nhất để xử lý tất cả các hành vi. Điều này đơn giản hóa mô hình và làm cho nó hiệu quả hơn.
- Không cần tinh chỉnh theo nhiệm vụ cụ thể: Helix có thể thực hiện một loạt các nhiệm vụ mà không cần phải tinh chỉnh (fine-tune) cho từng nhiệm vụ cụ thể. Điều này làm cho nó dễ thích ứng và dễ sử dụng hơn trong các môi trường khác nhau, Figure cho biết.
Sẵn sàng thương mại hóa
- Xử lý trên bo mạch (Onboard processing): Helix chạy hoàn toàn trên các GPU nhúng trong robot hình người Figure 02 với mức tiêu thụ điện năng thấp, làm cho nó phù hợp để triển khai trong thế giới thực mà không cần dựa vào tài nguyên máy tính bên ngoài. Đây là một bước quan trọng để đưa robot hình người trở nên khả thi về mặt thương mại để sử dụng trong gia đình và các môi trường khác.
- Giảm độ trễ: Việc xử lý trên bo mạch giúp giảm độ trễ, cho phép robot phản ứng nhanh với các lệnh và tương tác với môi trường của nó trong thời gian thực.

Figure đã công bố vào cuối năm 2024 rằng robot của họ đang chuyển từ giai đoạn phát triển và thử nghiệm sang sử dụng thương mại và đã giao hệ thống Figure 02 cho một khách hàng trả tiền.

Figure AI đã giành được giải thưởng RBR50 năm 2024 cho tốc độ đổi mới nhanh chóng của mình. Kể từ khi ra mắt công chúng (emerging from stealth) vào tháng 1 năm 2023, công ty có trụ sở tại Sunnyvale, Calif. đã xây dựng và lặp lại trên một robot hình người hoạt động và thử nghiệm robot của mình trên dây chuyền sản xuất.

Tháng trước, Figure cho biết họ có kế hoạch chứng nhận pin, hệ thống điều khiển an toàn chức năng và hệ thống điện của robot theo các tiêu chuẩn an toàn công nghiệp. Công ty cũng khẳng định rằng họ dự định xuất xưởng 100.000 robot hình người trong bốn năm tới và được cho là đang đàm phán để huy động 1,5 tỷ USD.

#robothìnhngười

Có thể bạn quan tâm

Robot tích hợp AI có thể dọn bếp thay con người, cùng nhau dọn dẹp vệ sinh nhà cửa

The Storm Riders

Writer

Điểm danh 6 tính năng phổ biến nhất của máy lọc không khí hiện nay, ai chuẩn bị mua cần chú ý

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

📝 Đánh giá nổi bật

Trải nghiệm TV TCL QD-Mini LED C6K: tham vọng bình dân hóa tấm nền Mini-LED

Đánh giá ống kính Sony 28-70 F/2 GM: Quái vật "hút máu" mới của Sony, nhưng liệu đã đủ hấp dẫn

Trải nghiệm cục phát 4G TOTOLINK: “Vũ khí” cân mọi hành trình

Trải nghiệm Jaecoo J7: Có đủ sức cạnh tranh trong phân khúc?

Đánh giá Xiaomi Redmi Note 14 5G: ngoài 5G thì còn nâng cấp gì so với bản 4G nữa?