Next top model: Người hùng thầm lặng giúp giảm chi phí trung tâm dữ liệu

The Kings
The Kings
Phản hồi: 0

The Kings

Writer
The Kings

The Kings Đã xác thực

Ai, hay đúng hơn là cái gì, sẽ trở thành mô hình dẫn đầu tiếp theo? Các nhà khoa học dữ liệu và nhà phát triển tại Cơ sở tăng tốc quốc gia Thomas Jefferson thuộc Bộ Năng lượng Hoa Kỳ đang nỗ lực tìm câu trả lời. Họ khám phá những kỹ thuật trí tuệ nhân tạo (AI) tiên tiến nhất để nâng cao độ tin cậy và giảm chi phí vận hành cho các máy tính hiệu suất cao.
1740921814254.png

Các mô hình ở đây là những mạng nơ-ron nhân tạo được huấn luyện để theo dõi và dự đoán hành vi của các cụm máy tính khoa học – nơi xử lý liên tục các luồng dữ liệu số khổng lồ. Mục tiêu là hỗ trợ các quản trị viên hệ thống nhanh chóng phát hiện và xử lý những công việc tính toán gặp vấn đề, từ đó giảm thiểu thời gian gián đoạn cho các nhà khoa học đang phân tích dữ liệu từ các thí nghiệm.
Giống như một sàn diễn thời trang, các mô hình học máy (machine learning - ML) được đánh giá để tìm ra cái nào phù hợp nhất với nhu cầu luôn thay đổi của tập dữ liệu từ các chương trình thử nghiệm. Tuy nhiên, khác với chương trình truyền hình thực tế nổi tiếng "America's Next Top Model" và các phiên bản quốc tế của nó – nơi cần cả một mùa để chọn người thắng cuộc – trong cuộc thi này, một "mô hình vô địch" mới được chọn ra sau mỗi 24 giờ, dựa trên khả năng học hỏi từ dữ liệu mới.
"Chúng tôi đang cố gắng khám phá những đặc điểm chưa từng thấy của các cụm máy tính," Bryan Hess, giám đốc điều hành máy tính khoa học tại Phòng thí nghiệm Jefferson và là một nhà điều tra chính của nghiên cứu, chia sẻ. "Đây là cách nhìn toàn diện hơn về trung tâm dữ liệu, và trong tương lai, nó sẽ liên quan đến một số loại mô hình AI hoặc ML."
Dù không giành được những buổi chụp ảnh lộng lẫy, dự án này gần đây đã thu hút sự chú ý của tạp chí IEEE Software, xuất hiện trong một ấn bản đặc biệt về việc ứng dụng học máy trong hoạt động trung tâm dữ liệu (MLOps). Kết quả nghiên cứu hứa hẹn mang lại tác động lớn cho Big Science.
Nhu cầu cấp thiết
Các thiết bị khoa học quy mô lớn như máy gia tốc hạt, nguồn sáng hay kính viễn vọng vô tuyến là nền tảng quan trọng của Bộ Năng lượng Hoa Kỳ (DOE), cho phép thực hiện những khám phá khoa học đột phá. Tại Phòng thí nghiệm Jefferson, đó là Cơ sở gia tốc chùm electron liên tục (Continuous Electron Beam Accelerator Facility - CEBAF), một cơ sở người dùng thuộc Văn phòng Khoa học DOE, được hơn 1.650 nhà vật lý hạt nhân trên toàn cầu tin cậy.
Các máy dò thử nghiệm tại đây thu thập những dấu hiệu yếu ớt từ các hạt nhỏ sinh ra từ chùm electron của CEBAF. Với hoạt động liên tục 24/7, CEBAF tạo ra khối lượng dữ liệu khổng lồ, lên tới hàng chục petabyte mỗi năm – đủ để lấp đầy ổ cứng của một laptop trung bình mỗi phút.
Dữ liệu về các tương tác hạt được xử lý và phân tích tại trung tâm dữ liệu của Phòng thí nghiệm Jefferson bằng các cụm máy tính thông lượng cao, sử dụng phần mềm được tùy chỉnh cho từng thí nghiệm. Trong không gian đầy đèn nhấp nháy và dây cáp, những công việc phức tạp đòi hỏi nhiều lõi xử lý (core) là điều bình thường. Tuy nhiên, tính chất linh hoạt của khối lượng công việc này cũng đồng nghĩa với nhiều thành phần chuyển động – và nhiều nguy cơ xảy ra lỗi.
Những vấn đề như công việc tính toán bất ổn hay sự cố phần cứng có thể gây ra hành vi bất thường của cụm máy tính, được gọi là "anomaly". Ví dụ, phân mảnh bộ nhớ hoặc cam kết đầu vào/đầu ra (I/O) quá mức có thể làm chậm tiến độ của các nhà khoa học.
"Khi quy mô cụm máy tính tăng lên, việc theo dõi mọi thành phần có thể hỏng hóc trở nên khó khăn với các quản trị viên hệ thống," Ahmed Hossam Mohammed, nhà nghiên cứu sau tiến sĩ tại Phòng thí nghiệm Jefferson, cho biết. "Chúng tôi muốn tự động hóa quy trình này bằng một mô hình có khả năng bật đèn đỏ cảnh báo mỗi khi có điều gì bất thường xảy ra. Nhờ đó, quản trị viên có thể can thiệp kịp thời trước khi tình hình xấu đi."
Cách tiếp cận DIDACT-ic
Để giải quyết thách thức này, nhóm nghiên cứu đã phát triển một hệ thống quản lý dựa trên ML mang tên DIDACT (Digital Data Center Twin). Tên gọi này chơi chữ với "didactic" – nghĩa là mang tính giáo dục – vì hệ thống được thiết kế để "dạy" mạng nơ-ron nhân tạo.
DIDACT là dự án thuộc chương trình Nghiên cứu & Phát triển do Phòng thí nghiệm chỉ đạo (Laboratory Directed Research & Development - LDRD) của Phòng thí nghiệm Jefferson. Chương trình này cung cấp nguồn lực để nhân viên theo đuổi các dự án có khả năng đóng góp nhanh chóng và đáng kể cho các vấn đề khoa học, công nghệ quốc gia, đồng thời nâng cao năng lực cốt lõi của phòng thí nghiệm.
Hệ thống DIDACT được thiết kế để phát hiện các anomaly và chẩn đoán nguyên nhân bằng phương pháp AI gọi là học liên tục (continual learning). Trong quá trình này, các mô hình ML được huấn luyện trên dữ liệu đến theo từng giai đoạn, tương tự cách con người và động vật học hỏi suốt đời. Nhóm DIDACT huấn luyện nhiều mô hình theo cách này, mỗi mô hình đại diện cho động lực hệ thống của các công việc tính toán, rồi chọn ra mô hình hoạt động tốt nhất dựa trên dữ liệu ngày đó.
Các mô hình này là biến thể của mạng nơ-ron không giám sát, cụ thể là autoencoder. Một trong số đó được tích hợp mạng nơ-ron đồ thị (Graph Neural Network - GNN) để xem xét mối quan hệ giữa các thành phần.
"Chúng cạnh tranh bằng cách dùng dữ liệu đã biết để xác định mô hình nào có lỗi thấp hơn," Diana McSpadden, nhà khoa học dữ liệu tại Phòng thí nghiệm Jefferson và trưởng nhóm nghiên cứu MLOps, giải thích. "Mô hình thắng cuộc mỗi ngày sẽ trở thành 'nhà vô địch hàng ngày'."
Phương pháp này có tiềm năng giảm thời gian chết của trung tâm dữ liệu và tối ưu hóa tài nguyên, đồng nghĩa với việc cắt giảm chi phí và nâng cao hiệu quả khoa học.
Mô hình hàng đầu tiếp theo
Để huấn luyện mô hình mà không làm gián đoạn nhu cầu tính toán hàng ngày, nhóm DIDACT đã xây dựng một cụm thử nghiệm gọi là "sandbox". Hãy tưởng tượng sandbox như một sàn diễn nơi các mô hình được chấm điểm dựa trên khả năng huấn luyện.
Phần mềm DIDACT kết hợp mã nguồn mở và mã tùy chỉnh để phát triển, quản lý mô hình ML, giám sát cụm sandbox và ghi lại dữ liệu. Tất cả được hiển thị trực quan trên một bảng điều khiển đồ họa.
Hệ thống có ba pipeline cho "tài năng" ML:
  • Một dành cho phát triển ngoại tuyến, giống như buổi diễn tập.
  • Một dành cho học liên tục – nơi diễn ra cuộc thi trực tiếp.
  • Mỗi khi một mô hình hàng đầu xuất hiện, nó trở thành "giám sát viên" chính cho hành vi cụm trong pipeline thời gian thực, cho đến khi bị thay thế bởi nhà vô địch ngày tiếp theo.
"DIDACT là sự kết hợp sáng tạo giữa phần cứng và phần mềm nguồn mở," Hess, đồng thời là kiến trúc sư cơ sở hạ tầng cho Trung tâm dữ liệu hiệu suất cao đang xây dựng cùng Phòng thí nghiệm quốc gia Lawrence Berkeley, nhận định. "Nó tận dụng sức mạnh của khoa học dữ liệu và chuyên môn vận hành máy tính của Phòng thí nghiệm Jefferson."
Trong tương lai, nhóm DIDACT muốn phát triển một khuôn khổ ML để tối ưu hóa mức tiêu thụ năng lượng của trung tâm dữ liệu, như giảm lượng nước làm mát hoặc điều chỉnh tốc độ lõi dựa trên nhu cầu xử lý.
"Mục tiêu là mang lại giá trị khoa học lớn hơn với chi phí thấp hơn," Hess khẳng định.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng

Không khí tại các thành phố lớn ô nhiễm nặng nề, đây là loại thiết bị được quan tâm nhiều nhất lúc này

  • 145
  • 0
Hiện nay, máy lọc không khí đang được ngày càng nhiều gia đình sử dụng bởi tính năng lọc sạch không khí tuyệt vời, làm thoáng đãng không gian đặc...

Thương hiệu gia dụng nổi tiếng từ Cộng hoà Séc tạo làn sóng trên thị trường Việt Nam

  • 144
  • 0
Elmich là một thương hiệu gia dụng cao cấp đến từ Cộng hòa Séc, được thành lập vào năm 1995 tại thành phố Ostrava. Với gần 30 năm phát triển...

Siêu máy tính tương lai sẽ "ngốn điện" ngang với 1 thành phố

  • 143
  • 0
Theo báo cáo của Epoch AI (viện nghiên cứu tại San Francisco, công bố cuối tháng 4/2025), đến năm 2030, các siêu máy tính hàng đầu dùng để huấn...

LG đồng hành cùng Hòa Minzy, Obito và Hứa Kim Tuyền tung ra MV “Nếp Nhà”

  • 99
  • 0
LG Electronics Việt Nam vừa giới thiệu MV “Nếp Nhà” với sự kết hợp của ca sĩ Hòa Minzy, rapper Obito và nhạc sĩ Hứa Kim Tuyền. Đây là món quà âm...

Lần đầu tiên một đại gia Việt có tài sản hơn 9 tỉ USD, vượt cả chủ tịch Samsung

  • 206
  • 0
Cổ phiếu VIC của Tập đoàn Vingroup tiếp tục tăng mạnh trong phiên ngày 8-5, góp phần nâng quy mô tài sản ròng của ông Phạm Nhật Vượng vượt 9 tỉ...

Đây là cách "xem YouTube" nhanh nhất có thể bạn chưa thử

  • 248
  • 1
Mô hình Gemini 2.5 Flash có thể tóm tắt nội dung video dài trên YouTube, giúp người dùng tiết kiệm thời gian và nắm bắt thông tin nhanh chóng...

Sạc siêu nhanh xe điện: sự tiện lợi phải trả giá bằng tuổi thọ pin

  • 181
  • 0
Năm 2025 được ca ngợi là "năm bùng nổ sạc siêu nhanh" đối với xe điện. Mặc dù sự tiến bộ nhanh chóng của công nghệ sạc nhanh và sạc siêu nhanh đã...

Cách phục hồi ảnh cũ bằng AI miễn phí nhanh gọn, ai cũng làm được

  • 236
  • 0
Phục hồi ảnh cũ bằng AI miễn phí là giải pháp lý tưởng cho những ai muốn tái hiện lại hình ảnh xưa mà không cần biết quá nhiều về Photoshop hay kỹ...

Samsung công bố hàng loạt TV Neo QLED 8K đến QLED 4K vừa đạt chuẩn chấm lượng tử đích thực từ tổ chức của Đức

  • 134
  • 0
Samsung vừa thông báo rằng dòng TV QLED mới nhất của hãng đã nhận được chứng nhận ‘Màn hình Chấm lượng tử Đích thực’ (Real Quantum Dot Display) từ...

Sếp Apple dự đoán "ngày tàn" của iPhone chỉ trong 10 năm tới: Lý do từ kẻ mà "ai cũng biết là ai"

  • 1,237
  • 0
Phó chủ tịch cấp cao phụ trách mảng dịch vụ của Apple, ông Eddy Cue, vừa đưa ra một nhận định gây sửng sốt về tương lai của chính sản phẩm chủ lực...
Back
Top