ByteDance vừa công bố UI-TARS-1.5, bản cập nhật framework của đa phương tiện tiện ích tương thích với giao diện người dùng (GUI) và môi trường trò chơi.
Mô hình này là AI tạo hợp nhất thị giác và ngôn ngữ sinh học, có khả năng nhận dạng nội dung màn hình và thực hiện các thao tác điều khiển...
ai đa phương tiện
benchmarkosworld
bytedance
cơ chế nghĩ rồi hành động
mã hóa hình ảnh màn hình
nguồn mở apache 2.0
tích hợp thị giác và ngôn ngữ
tự học qua replay trace
tự động hóa gui
ui-tars-1.5