GPT-4o ("o" là viết tắt của chung, toàn năng) có thể chấp nhận bất kỳ sự kết hợp nào của văn bản, âm thanh và hình ảnh làm đầu vào và tạo ra bất kỳ sự kết hợp nào giữa văn bản, âm thanh và hình ảnh đầu ra.
Nó có thể phản hồi âm thanh đầu vào trong 232 mili giây và trung bình là 320 mili giây...