Người Mỹ “đặt cược” lớn chưa từng có vào chứng khoán
Investing.com -- Alibaba Group Holding Ltd. đã ra mắt mô hình trí tuệ nhân tạo mới có tên Qwen3-Next, được thiết kế để cải thiện đáng kể hiệu quả trong cả quá trình đào tạo và suy luận.
Mô hình mới này có cơ chế chú ý lai (hybrid attention mechanism), cấu trúc Mixture-of-Experts (MoE) thưa thớt cao, các tối ưu hóa thân thiện với độ ổn định trong đào tạo, và cơ chế dự đoán đa token cho suy luận nhanh hơn.
Mô hình Qwen3-Next-80B-A3B-Base của Alibaba chứa 80 tỷ tham số nhưng chỉ kích hoạt 3 tỷ trong quá trình suy luận. Công ty khẳng định mô hình cơ sở này đạt hiệu suất tương đương hoặc tốt hơn một chút so với mô hình dày đặc Qwen3-32B trong khi sử dụng chưa đến 10% chi phí đào tạo tính theo giờ GPU.
Đối với suy luận với độ dài ngữ cảnh vượt quá 32.000 token, mô hình mới cung cấp thông lượng cao hơn 10 lần so với các phiên bản trước.
Alibaba cũng đã phát hành hai phiên bản đào tạo sau: Qwen3-Next-80B-A3B-Instruct và Qwen3-Next-80B-A3B-Thinking. Công ty báo cáo đã giải quyết các vấn đề về tính ổn định và hiệu quả trong đào tạo học tăng cường do kiến trúc chú ý lai và MoE thưa thớt cao gây ra.
Phiên bản Instruct hoạt động tương đương với mô hình hàng đầu của Alibaba là Qwen3-235B-A22B-Instruct-2507 và thể hiện ưu thế trong các tác vụ đòi hỏi ngữ cảnh cực dài lên đến 256.000 token. Phiên bản Thinking xuất sắc trong các tác vụ lập luận phức tạp, được báo cáo là vượt trội hơn các mô hình chi phí cao hơn như Qwen3-30B-A3B-Thinking-2507 và Qwen3-32B-Thinking.
Alibaba đã cung cấp Qwen3-Next trên Hugging Face và ModelScope. Người dùng có thể truy cập dịch vụ Qwen3-Next thông qua Alibaba Cloud Model Studio và NVIDIA API Catalog.
Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.