Latin America quyết tâm phát triển trí tuệ nhân tạo riêng để thoát khỏi ChatGPT!

T
test_vnr
Phản hồi: 0

test_vnr

Writer
Một buổi sáng tháng Năm, Juan Palma, một nhà thiết kế đồ họa tại thủ đô Santiago của Chile, đã hỏi ChatGPT về hướng dẫn để di chuyển từ nhà mình đến một ga tàu điện ngầm gần đó. Chỉ sau vài giây, chatbot đã đưa ra câu trả lời — nhưng lại hướng Palma đi theo hướng ngược lại. Palma nhận ra rằng ChatGPT, một trong những mô hình trí tuệ nhân tạo sinh sinh rất phổ biến trên thế giới, đã không phát huy được khả năng của mình tại quốc gia Nam Mỹ này. “Tôi rất bất ngờ với lỗi định hướng trong câu trả lời của ChatGPT,” anh chia sẻ với Rest of World. “Tôi đã có những kỳ vọng khác về độ chính xác của công cụ này.”

Mặc dù các mô hình ngôn ngữ lớn, bao gồm GPT và Llama của Meta, được đào tạo từ một loạt dữ liệu bằng nhiều ngôn ngữ khác ngoài tiếng Anh, nhưng khả năng của chúng trong những ngôn ngữ này vẫn bị hạn chế, đặc biệt là trong các phương ngữ và thành ngữ địa phương. Để khắc phục những hạn chế này — đã dẫn đến những thông tin sai lệch và cả những thông tin không có thật — một nhóm gồm hơn 30 tổ chức trên khắp Mỹ Latinh đã dành hai năm qua để phát triển Latam-GPT. Mô hình ngôn ngữ mở này, dự kiến sẽ được công chúng sử dụng vào tháng 9, được đào tạo bởi người địa phương, người hiểu rõ những sắc thái ngôn ngữ và văn hóa.

rotw_latam_chatGPT-scaled.jpg


Dự án Latam-GPT do Chile dẫn đầu nhằm “xây dựng trí tuệ nhân tạo tại Mỹ Latinh, cho người dân Mỹ Latinh,” như lời của Héctor Bravo, người đứng đầu lĩnh vực công nghệ đột phá tại Sonda, một công ty CNTT của Chile không tham gia vào dự án. “Điều này có nghĩa là tái định nghĩa các chỉ số thành công — không chỉ là độ chính xác hay tốc độ mà còn là sự đại diện văn hóa, tác động xã hội và khả năng tiếp cận.”

Latam-GPT được thiết kế để hỗ trợ đa ngôn ngữ sâu sắc, bao gồm cả các ngôn ngữ bản địa như Nahuatl, Quechua và Mapudungun, cũng như các biến thể phương ngữ, bao gồm một số từ vùng Caribê, Bravo cho biết.

Mỹ Latinh đang theo bước chân của các khu vực khác. Ở Đông Nam Á, Sea-Lion là một gia đình các mô hình ngôn ngữ mở được đào tạo bằng gần một tá ngôn ngữ khu vực ngoài tiếng Anh. Tại châu Phi, người dùng có thể tương tác với UlizaLlama bằng ít nhất năm ngôn ngữ khác nhau, bao gồm Xhosa và Zulu. Trong khi đó, BharatGPT ở Ấn Độ hỗ trợ hơn 14 ngôn ngữ khu vực, với chính phủ gần đây thông báo sẽ xây dựng mô hình ngôn ngữ riêng.

Mỹ Latinh đã chậm chân trong việc áp dụng trí tuệ nhân tạo. Tuy nhiên, khu vực này đang bắt đầu đuổi kịp, với Chile dẫn đầu về mặt quy định và phát triển thể chế, theo báo cáo Atlas of Artificial Intelligence for Latin America and the Caribbean của Chương trình Phát triển Liên Hợp Quốc năm 2025. Trung tâm Quốc gia về Trí tuệ Nhân tạo của Chile (CENIA) được thành lập vào năm 2021, và ý tưởng về Latam-GPT xuất hiện ngay sau đó.

“Với quy mô của sáng kiến này, chúng tôi biết đây là điều cần sự hợp tác rộng rãi từ nhiều bên liên quan,” Alvaro Soto, người đứng đầu CENIA, chia sẻ với Rest of World. Nhóm của ông muốn tạo ra một cái gì đó “với tinh thần cởi mở” và đã bắt đầu xây dựng cơ sở dữ liệu để phục vụ cho dự án, quy tụ các trường đại học, cơ quan chính phủ và các tổ chức dân sự.

Năm ngoái, CENIA đã ký 33 liên minh chiến lược cho Latam-GPT trên khắp Mỹ Latinh, Hoa Kỳ và Tây Ban Nha, cuối cùng đã lắp ráp được 50 tỷ tham số — tương đương với ChatGPT 3.5.

Mặc dù các mô hình ngôn ngữ lớn như GPT và Llama 2 hỗ trợ khả năng đa ngôn ngữ, bao gồm cả tiếng Tây Ban Nha, nhiều bộ dữ liệu mà chúng được đào tạo lại đến từ Tây Ban Nha hoặc được dịch từ văn bản gốc viết bằng tiếng Anh, điều này hạn chế khả năng hiểu biết về những sắc thái văn hóa và ngôn ngữ. Latam-GPT, được đào tạo từ dữ liệu từ các trường học, doanh nghiệp, thư viện và các văn bản lịch sử, sẽ “giúp mô hình hiểu rõ hơn về bối cảnh và nhu cầu của người dùng Mỹ Latinh,” Omar Florez, người phụ trách kỹ thuật cho giai đoạn trước khi đào tạo của Latam-GPT, nói với Rest of World.

Nhu cầu về các nền tảng trí tuệ nhân tạo sinh sinh đang gia tăng trong khu vực. Brazil có số lượng người dùng ChatGPT nhiều thứ hai sau Hoa Kỳ và Ấn Độ, theo DemandSage, một nền tảng phân tích bán hàng, và lượng tải xuống Llama cũng đã tăng vọt ở Mỹ Latinh. Các giáo viên và học sinh sử dụng chúng trong lớp học, trong khi các chủ doanh nghiệp tìm đến chúng để cung cấp dịch vụ hỗ trợ khách hàng. Ngay cả các cơ quan chính phủ cũng áp dụng chúng để giảm thời gian xử lý. Tại Buenos Aires, chẳng hạn, tòa án sử dụng ChatGPT để soạn thảo các quyết định pháp lý.

Rõ ràng, nguồn lực đứng sau ChatGPT lớn hơn nhiều so với Latam-GPT, vốn sẽ chỉ là văn bản trong tương lai gần. Nó cũng sẽ chậm hơn trong việc trả lời các câu hỏi tổng quát và những câu hỏi không liên quan đến Mỹ Latinh, Soto cho biết.

Latam-GPT “yêu cầu một cơ sở hạ tầng có sức chứa cực lớn, nhân tài chuyên môn và các bộ dữ liệu liên quan — ba lĩnh vực mà vẫn còn thiếu hụt trong khu vực,” Carlos Honorato, Giám đốc điều hành của Orión, một công ty AI của Chile, chia sẻ với Rest of World.

Dù vậy, dự án này “đại diện cho một khởi đầu chiến lược để thu hẹp khoảng cách AI” với bán cầu phía bắc, Carlos González, phó giám đốc phòng IT và viễn thông tại Duoc UC, một cơ sở giáo dục tư thục của Chile, nói với Rest of World.

Để thành công, Latam-GPT cần đảm bảo sự tham gia của các cộng đồng bản địa, các cộng đồng di cư và các nhóm lịch sử bị thiệt thòi khác.

Còn nhiều thách thức khác nữa. Trên khắp thế giới, các chuyên gia về môi trường đã cảnh báo về những tác động lâu dài của các mô hình ngôn ngữ lớn, thường tiêu tốn một lượng lớn năng lượng và nước. Ở nhiều quốc gia — bao gồm cả Chile — người dân đã phản đối các trung tâm dữ liệu, nơi chứa hạ tầng cần thiết để đào tạo và xây dựng các mô hình AI này.

Hạ tầng máy tính cho Latam-GPT được đặt tại Đại học Tarapacá, ở miền bắc Chile — một khu vực đã chịu đựng hạn hán trong nhiều thập kỷ. Nhưng trong khi “việc đào tạo một mô hình như vậy trong [thậm chí] 40 ngày yêu cầu tương đương mức điện tiêu thụ của hàng nghìn hộ gia đình,” nó vẫn chỉ chiếm một phần rất nhỏ trong tổng mức tiêu thụ năng lượng của quốc gia, Danilo Naranjo, giám đốc điều hành của Wingsoft, một công ty phát triển phần mềm và tư vấn đám mây của Chile, cho biết với Rest of World.

Nhóm tại CENIA cho biết họ sử dụng một hạ tầng dựa trên đám mây linh hoạt và có thể mở rộng, tối ưu hóa tài nguyên và giảm tiêu thụ năng lượng. Họ cũng sử dụng năng lượng mặt trời, điều này sẽ giúp giới hạn tác động tiêu cực đến môi trường.

Các nhà phân tích pháp lý cũng lo ngại về sự phân mảnh của các quy định về bảo mật dữ liệu ở Mỹ Latinh, có thể dẫn đến tranh chấp và các biện pháp chế tài. Brazil, chẳng hạn, có luật lệ bảo vệ dữ liệu mạnh mẽ, trong khi quốc gia láng giềng Bolivia thiếu các luật bảo vệ thông tin cá nhân toàn diện.

“Những loại vấn đề này có thể dẫn đến các tác động tiêu cực đáng kể về danh tiếng do việc xử lý thông tin cá nhân không đúng cách,” Ricardo Lillo, một giáo sư tại Đại học Adolfo Ibáñez, chia sẻ với Rest of World.

Dù có tuyên bố về sự đại diện, một số chuyên gia lo ngại rằng mô hình ngôn ngữ nội địa này có thể không đại diện chính xác cho các nhóm thiểu số — và làm thế nào để các nhóm này tiếp cận được. Mặc dù thiết kế của nó đánh dấu một bước tiến so với các mô hình toàn cầu, việc tiếp cận dữ liệu vẫn là một rào cản, Varinka Farren, giám đốc điều hành của Hub APTA, tổ chức thúc đẩy Chile như một trung tâm đổi mới, chia sẻ với Rest of World.

Để thành công, Latam-GPT sẽ cần đảm bảo sự tham gia của “các cộng đồng bản địa, cộng đồng di cư và các nhóm lịch sử bị thiệt thòi khác trong quá trình xác thực mô hình,” Farren cho biết.

Đây là một trong những mục tiêu của Latam-GPT, Rodrigo Durán, giám đốc điều hành của CENIA, cho biết với Rest of World. Trong khi thử nghiệm ban đầu đã đạt được những kết quả tích cực, có thể sẽ mất ít nhất một thập kỷ để đạt được mục tiêu này, ông nói.

Theo ông, đóng góp lớn nhất của Latam-GPT “sẽ là chứng minh rằng chúng tôi — Mỹ Latinh và vùng Caribê — có khả năng, có tài năng” để thực hiện một dự án đầy tham vọng như vậy.

Nguồn tham khảo: https://restofworld.org/2025/chatgpt-latin-america-alternative-latamgpt/
 


Đăng nhập một lần thảo luận tẹt ga

Thành viên mới đăng

Back
Top