Đào tạo ChatGPT cũng như dạy chó "thấu hiểu" con người

Trung Đào
Trung Đào
Phản hồi: 0

Trung Đào

Writer
Trung Đào

Trung Đào Đã xác thực

Khi ChatGPT đang trở thành một trong những ứng dụng tăng trưởng nhanh nhất từ trước đến nay, nhiều người cũng sẽ thắc mắc chatbot AI này hoạt động như thế nào và điều gì quyết định hành vi của nó khi tương tác với câu hỏi từ người dùng. Và tối qua, chính OpenAI đã trả lời câu hỏi đó của người dùng bằng bài đăng giải thích cách hoạt động của ChatGPT cũng như cách họ huấn luyện nó trả lời như thế nào.
Trước đó có người cho rằng, ChatGPT hoạt động đơn thuần dựa trên xác suất thống kê – nghĩa là chọn ra câu trả lời được nhiều người đưa ra – để phản hồi lại, còn bản thân ChatGPT cho biết, cách hoạt động của nó phức tạp hơn thế khi dựa vào các mô hình học sâu để có khả năng học sâu và tổng hợp câu trả lời từ kiến thức nó học được. Vậy câu trả lời của OpenAI như thế nào?

Giống như huấn luyện một chú chó

Theo bài đăng của OpenAI, không giống phần mềm bình thường, mô hình AI của họ là các mạng lưới thần kinh nhân tạo khổng lồ. Các mô hình đó hoạt động dựa trên việc chúng học được một lượng dữ liệu quy mô lớn, thay vì được lập trình rõ ràng. Cho dù không phải là một sự so sánh hoàn hảo, quá trình này giống như việc huấn luyện một chú chó hơn là việc lập trình thông thường.
Đào tạo ChatGPT cũng như dạy chó thấu hiểu con người
Đầu tiên là giai đoạn "huấn luyện trước" (Pre-Training), quá trình giúp mô hình học được cách dự đoán từ tiếp theo trong một câu, khi cho nó tiếp xúc với thật nhiều văn bản trên internet (và với vô số quan điểm khác nhau).
Ví dụ chúng phải hoàn thành được câu "thay vì rẽ trái, cô ấy rẽ …". Bằng cách học từ hàng tỷ câu văn, mô hình của OpenAI học được ngữ pháp, các sự thật về thế giới cũng như một số khả năng lập luận. Các mô hình cũng tìm hiểu về một số thành kiến xuất hiện trong số hàng tỷ câu đó.
Tiếp theo đó là quá trình "tinh chỉnh sâu" (fine tune) mô hình bằng một bộ dữ liệu hẹp hơn được OpenAI tạo ra một cách cẩn thận với những người đánh giá, theo các chỉ dẫn mà họ cung cấp. Vì không thể dự đoán mọi khả năng con người sẽ nạp vào hệ thống trong tương lai, nên OpenAI không viết các chỉ dẫn chi tiết mà chỉ vạch ra một số danh mục trong chỉ dẫn để người đánh giá sử dụng và xếp hạng các đầu ra có thể cho một số các ví dụ đầu vào. Sau đó trong quá trình sử dụng, các mô hình sẽ khái quát hóa từ phản hồi của người đánh giá để phản hồi lại các câu hỏi từ người dùng.
Trong một số trường hợp, OpenAI chỉ dẫn người đánh giá đưa ra các phản hồi như "không hoàn thành các yêu cầu cho nội dung bất hợp pháp, hay tránh đưa ra quan điểm về các chủ đề gây tranh cãi". Một phần quan trọng của quá trình tinh chỉnh là duy trì vòng lặp phản hồi mạnh mẽ với người đánh giá, để giải đáp câu hỏi và làm rõ hơn các chỉ dẫn của mình. Theo OpenAI, vòng lặp phản hồi này là cách họ đào tạo mô hình ngày càng tốt hơn.

Trí thông minh nhân tạo và tính cách nhân tạo

Lời giải thích trên blog OpenAI về cách hoạt động của ChatGPT cho ta cái nhìn rõ ràng hơn về những yếu tố làm nên chatbot AI này. Việc tiếp xúc với hàng tỷ câu văn trong khối dữ liệu giúp mô hình AI này học được cách viết một câu hoàn chỉnh – điều này mang lại cho nó cả khả năng hiểu được câu hỏi mà người dùng đặt ra cũng như khả năng tự tạo ra các câu văn để diễn đạt những hiểu biết để phản hồi lại câu hỏi của người dùng.
Đào tạo ChatGPT cũng như dạy chó thấu hiểu con người
Bên cạnh đó, kích thước khổng lồ bộ dữ liệu cũng cho phép ChatGPT nắm được một số thực tế về thế giới và một số khả năng lập luận, để từ đó sản sinh ra câu trả lời cho người dùng, thay vì chỉ đơn thuần dựa vào việc thống kê các câu có sẵn, trùng lặp nhau trong khối dữ liệu.
Điều này gần như có nghĩa là kích thước khối dữ liệu sẽ quyết định trí thông minh của mô hình AI, khi nó mang lại cho nó nhiều kiến thức để học hỏi hơn. Việc ChatGPT chạy trên GPT-3, mô hình dữ liệu với số lượng tham số nhiều nhất nhì thế giới hiện nay, bỏ xa các đối thủ phía sau được xem là lời giải thích cho năng lực của chatbot AI này.
Thế nhưng các chỉ dẫn về cách thức tinh chỉnh mô hình của OpenAI cũng như việc thực hiện của đội ngũ những người đánh giá – hay các reviewer – cho mô hình AI này mới là yếu tố làm nên tính cách của nó.
Nếu bạn từng dùng qua ChatGPT, có thể bạn sẽ cảm nhận được điều này trong các câu trả lời có phần "ba phải" của nó đối với các vấn đề gây tranh cãi. Điều này được thể hiện ngay trong chỉ dẫn huấn luyện của OpenAI khi yêu cầu chatbot này tránh đưa ra quan điểm về các chủ đề gây tranh cãi.
Thế nhưng một thủ thuật gần đây đã cho thấy, các quy tắc và chỉ dẫn này hoàn toàn có thể bị qua mặt để biến ChatGPT trở thành một phiên bản đáng sợ hơn, với những câu trả lời mang quan điểm rõ ràng hơn, thay vì thái độ ba phải như trước đây.
Điều tương tự cũng có thể thấy ở chatbot Bing mới ra mắt gần đây của Microsoft. Thay vì các câu trả lời ba phải như ChatGPT, các câu trả lời của Bing Chat có phần gay gắt và cứng đầu hơn, thậm chí không nhận sai và cãi nhau đến cùng với người dùng. Có thể nói không ngoa rằng, chính những chỉ dẫn và quy tắc của nhà sáng tạo mô hình sẽ ảnh hưởng đến "tính cách nhân tạo" của mỗi chatbot AI.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

  • 144
  • 0
Elmich là một thương hiệu gia dụng cao cấp đến từ Cộng hòa Séc, được thành lập vào năm 1995 tại thành phố Ostrava. Với gần 30 năm phát triển...

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

  • 143
  • 0
Theo báo cáo của Epoch AI (viện nghiên cứu tại San Francisco, công bố cuối tháng 4/2025), đến năm 2030, các siêu máy tính hàng đầu dùng để huấn...

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

  • 134
  • 0
Samsung vừa thông báo rằng dòng TV QLED mới nhất của hãng đã nhận được chứng nhận ‘Màn hình Chấm lượng tử Đích thực’ (Real Quantum Dot Display) từ...

Sếp Apple dự đoán "ngày tàn" của iPhone chỉ trong 10 năm tới: Lý do từ kẻ mà "ai cũng biết là ai"

  • 1,237
  • 0
Phó chủ tịch cấp cao phụ trách mảng dịch vụ của Apple, ông Eddy Cue, vừa đưa ra một nhận định gây sửng sốt về tương lai của chính sản phẩm chủ lực...

"Cú lừa" của Apple và Samsung về dung lượng lưu trữ điện thoại

  • 287
  • 0
Chi phí tăng đáng kể khi nâng cấp bộ nhớ được cho là chiến lược tối đa hóa lợi nhuận của các hãng smartphone, đặc biệt ở phân khúc cao cấp...
Back
Top