Giá vàng tăng trở lại sau đợt sụt giảm mạnh khi căng thẳng Mỹ - Trung tái xuất hiện
Investing.com -- Alibaba Cloud đã công bố một bài nghiên cứu chi tiết về giải pháp tối ưu hóa tài nguyên GPU Aegaeon cho suy luận đồng thời mô hình ngôn ngữ lớn (LLM), công ty thông báo vào hôm thứ Hai.
Bộ phận điện toán đám mây của Alibaba Group cũng tiết lộ đã thành công trong việc giảm 82% số lượng GPU cần thiết trong quá trình triển khai thông qua phương pháp mới này.
Suy luận LLM thường liên quan đến nhiều yêu cầu đột biến, tạo ra thách thức cho việc sử dụng GPU hiệu quả. Alibaba Cloud đã cải thiện hiệu suất bằng cách triển khai mô hình xử lý công việc dựa trên token thay vì dựa trên yêu cầu.
Giải pháp này tăng tốc quá trình xử lý suy luận bằng cách chia nó thành hai giai đoạn - prefill và decoding - và xử lý mỗi giai đoạn trong các nhóm GPU riêng biệt.
Nếu được thương mại hóa, việc tối ưu hóa này có thể giảm chi phí máy chủ suy luận AI và tiềm năng tăng nhu cầu đối với bán dẫn máy chủ không phải GPGPU và các phần tử xử lý chuyên biệt (SPE).
Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.