Ngay cả Jensen Huang cũng không hiểu nổi "tờ tiền token": Minh bạch về giá, mù mờ về giá trị

Mr. Darcy · 09:01, Thứ 5

Giá token AI trông rất minh bạch. Nhưng giá trị thực sự đằng sau nó thì không ai biết chắc, kể cả người bán.

Tháng 3 năm ngoái, Jensen Huang đứng trên sân khấu GTC 2026 và tuyên bố token là đơn vị kinh tế cốt lõi của kỷ nguyên AI. Mở bất kỳ trang giá nào của các mô hình lớn, bạn cũng thấy sự đồng nhất gần như tuyệt đối: mấy triệu token thì bao nhiêu tiền, đầu vào bao nhiêu, đầu ra bao nhiêu. Trông rất chuẩn mực, rất chuyên nghiệp.

Nhưng sự thật lại hoàn toàn ngược lại.

Tháng 4 năm 2026, GPT-5.4 của OpenAI có giá đầu vào 2,5 đô la mỗi triệu token, đầu ra 15 đô la. Claude Opus 4.6 của Anthropic thì 5 đô la và 25 đô la. Nhìn vào hai con số đó, Anthropic đắt gấp đôi. Nhưng chỉ so sánh vậy là vô nghĩa, vì chiến lược cửa sổ ngữ cảnh, logic tính phí công cụ và mức chiết khấu bộ nhớ đệm giữa hai bên đủ để xóa bỏ hoặc thậm chí đảo ngược chênh lệch đó.

Giá token rất rõ ràng. Còn giá trị bên trong mỗi token thì là hộp đen.

Cùng một token, trí thông minh khác nhau
Một token về mặt kỹ thuật không phải là điều bí ẩn. Số lượng token đầu vào và đầu ra có thể ước tính được, dù không hoàn toàn chính xác. Vấn đề là token không đơn giản là đơn vị đo lường như kilowatt-giờ hay gigabyte. Token đo lường trí thông minh, và "tỷ giá hối đoái" giữa token với khả năng thực sự của mô hình mới là điều không ai nắm rõ.

Đầu tháng 4 năm 2026, Stella Laurenzo, Giám đốc Chiến lược AI của AMD, công bố phân tích dựa trên gần 6.900 phiên Claude Code. Dữ liệu cho thấy từ cuối tháng 2, độ sâu suy luận của Claude Opus 4.6 giảm mạnh. Cụ thể, số lần mô hình đọc lại file trước khi chỉnh sửa mã giảm từ 6,6 xuống còn 2,0 lần, tức giảm khoảng 67%. Mô hình đã ngừng đọc kỹ trước khi sửa.

Lý do phía sau được Boris Cherny, người tạo ra Claude Code, xác nhận sau đó: Anthropic đã kích hoạt "tư duy thích ứng" từ ngày 9 tháng 2 và tiếp tục điều chỉnh mức nỗ lực mặc định từ cao xuống trung bình vào ngày 3 tháng 3. Người dùng muốn mô hình suy luận đầy đủ thì phải tự nhập lệnh thủ công.

Vấn đề không phải là Anthropic thay đổi cài đặt, mà là họ không thông báo rõ ràng. Nhiều lập trình viên chỉ bắt đầu nghi ngờ "mô hình kém thông minh hơn" sau khi chất lượng mã đã giảm sút rõ rệt, nhưng rất khó chứng minh vì bản chất xác suất của các mô hình lớn cho phép bác bỏ mọi nghi ngờ bằng lý do "môi trường kiểm thử không nhất quán".

Đây là biến số nguy hiểm nhất: cùng một triệu token, chất lượng suy luận có thể khác nhau đáng kể tùy lúc cao điểm hay thấp điểm, tùy cài đặt mặc định hay thủ công, tùy người dùng còn hạn mức hay gần chạm giới hạn. Số lượng và giá cả minh bạch, nhưng "trí thông minh" bên trong mỗi token thì không.

Trong kinh tế học, người ta gọi đây là "điều chỉnh chất lượng": khi chất lượng sản phẩm giảm mà giá danh nghĩa không đổi, thực chất giá thực đã tăng. Điều đó nguy hiểm hơn và khó phát hiện hơn so với tăng giá công khai.

Tỷ lệ truy cập bộ nhớ đệm quyết định bạn trả bao nhiêu
Còn một lớp chi phí ẩn khác nằm dưới bảng giá.

Tháng 2 năm 2026, một bản cập nhật Claude Code khiến tỷ lệ truy cập bộ nhớ đệm trên các nền tảng bên thứ ba giảm mạnh. Không phải Anthropic cố tình phá hoại, mà là tác dụng phụ từ việc tối ưu hóa hệ thống riêng của họ đã làm vỡ cấu trúc bộ nhớ đệm mà các mô hình khác đang dựa vào.

Hệ quả rất cụ thể. Một lập trình viên theo dõi dữ liệu sử dụng Claude Code trong một tuần và phát hiện rằng trong điều kiện bình thường, 91% token đến từ bộ nhớ đệm với giá chỉ bằng một phần mười giá thông thường. Nếu bộ nhớ đệm hoàn toàn thất bại, chi phí đầu vào tăng lên gấp 5,7 lần.
Boris Cherny chính ông cũng thừa nhận: khi dùng cửa sổ ngữ cảnh 1 triệu token, chi phí khi không tìm thấy bộ nhớ đệm là rất lớn. Nếu bạn rời máy hơn một giờ rồi quay lại phiên cũ, thông thường sẽ không có bộ nhớ đệm nào cả.

Theo một phân tích đang lan truyền trong cộng đồng, khi phát hiện người dùng vào chế độ vượt hạn mức, Claude Code âm thầm giảm thời gian lưu bộ nhớ đệm từ 1 giờ xuống còn 5 phút. Dừng quá 5 phút là tái tạo ngữ cảnh hoàn toàn, phí trừ thẳng vào số dư vượt mức. Tháng 4, một số người dùng Pro cho biết họ chỉ gửi được 2 yêu cầu trong 5 giờ.

Giá giảm 300 lần, chi phí vẫn mất kiểm soát
Trong ba năm, giá token giảm khoảng 300 lần. Nhưng chi phí AI của các công ty lại ngày càng khó kiểm soát hơn, vì mức dùng tăng nhanh hơn nhiều so với tốc độ giảm giá.

Nhóm sáu người tại Branch8, một công ty thương mại điện tử châu Á Thái Bình Dương, chi 2.400 đô la (khoảng 60 triệu đồng) trong tháng đầu dùng Claude Code. Sau tám tuần tối ưu hóa, bao gồm hạn mức token hàng ngày, giới hạn ngân sách cho mô hình suy luận và chuyển bớt tác vụ từ Opus sang Sonnet, họ giảm được xuống còn 680 đô la (khoảng 17 triệu đồng). Quản lý chi tiêu token đã trở thành một kỹ năng chuyên biệt.

Tại hội nghị Nutanix .NEXT 2026, một CIO kể về trường hợp một lập trình viên bị tính phí token bất ngờ lên tới 100.000 đô la (khoảng 2,5 tỷ đồng) rồi phải đi giải trình với CFO trong một cuộc họp mà ông gọi là "vô cùng xấu hổ". Một cuộc khảo sát 372 công ty xác nhận xu hướng này: 84% doanh nghiệp cho biết chi phí AI đang ăn vào lợi nhuận nhiều hơn dự kiến, và chỉ 15% giữ được sai số ngân sách trong vòng 10%.

Về phía các công ty AI lớn, chi phí cũng không nhỏ. Chi phí suy luận của OpenAI đạt 8,4 tỷ đô la năm 2025 và dự kiến tăng lên 14,1 tỷ đô la năm 2026. Anthropic đã huy động tổng cộng hơn 64 tỷ đô la vốn đầu tư. Cả hai đều chưa có lợi nhuận.

Ngành công nghiệp đang tìm một "điểm neo" cho giá trị
Câu hỏi cốt lõi là: ai có thể xác định chính xác giá trị của một token?

Hiện tại, không ai làm được. Nhà sản xuất không đo được giá trị kinh doanh mà sản phẩm tạo ra cho từng người dùng. Người dùng không thể hiểu quá trình suy luận bên trong để biết mỗi token có "xứng đáng với giá tiền" hay không. Nhà đầu tư chỉ thấy đường cong tăng trưởng tiêu thụ, không thấy tỷ lệ chuyển đổi giá trị thực sự.

Token hiện tại về bản chất là định giá "quyền sử dụng sức mạnh tính toán": bạn mua cơ hội để mô hình "suy nghĩ" thay cho bạn. Còn suy nghĩ đó sâu hay nông, có giải quyết được vấn đề của bạn không thì nằm ngoài phạm vi lời hứa của mức giá.

Token chưa trở thành hàng hóa có thể định giá chuẩn hóa. Chúng là đơn vị tạm thời mà cả ngành đang buộc phải dùng, trong khi vẫn chưa tìm ra được thước đo giá trị thực sự.

Giá token rất rõ. Nhưng giá trị bên trong mỗi token thì vẫn là ẩn số, với tất cả mọi người.

Ngay cả Jensen Huang cũng không hiểu nổi "tờ tiền token": Minh bạch về giá, mù mờ về giá trị

Mr. Darcy

Editor

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ