Warren Buffett chuẩn bị rót 10 tỷ USD vào thương vụ lớn nhất ba năm
Investing.com -- Vào hôm thứ Tư, OpenAI đã công bố ra mắt PaperBench, một tiêu chuẩn đánh giá mới được thiết kế để đánh giá khả năng của các tác nhân AI trong việc sao chép các nghiên cứu AI tiên tiến. Công cụ này là một phần trong Khung Chuẩn Bị của OpenAI, nhằm đánh giá mức độ sẵn sàng của các hệ thống AI cho các tác vụ phức tạp.
PaperBench yêu cầu các tác nhân AI sao chép chính xác 20 bài báo quan trọng từ Hội nghị Quốc tế về Học Máy (ICML) 2024, bao gồm các nhiệm vụ như hiểu nghiên cứu, lập trình và tiến hành thí nghiệm. Quy trình sao chép của mỗi bài báo được chia thành 8.316 nhiệm vụ cụ thể, được đánh giá bằng các tiêu chí chi tiết được tạo ra với sự hợp tác của các tác giả gốc để đảm bảo tính chính xác và thực tế.
Tiêu chuẩn này giới thiệu một cách mới để đo lường hiệu suất AI bằng cách phân tách việc sao chép mỗi bài báo ICML 2024 Spotlight và Oral thành các nhiệm vụ phụ nhỏ hơn, được định nghĩa rõ ràng. Các nhiệm vụ này sau đó được chấm điểm dựa trên một bộ tiêu chí được nêu trong các tiêu chí đánh giá. Để quản lý khối lượng lớn các đánh giá, một AI dựa trên Mô hình Ngôn ngữ Lớn (LLM) đã được phát triển để đóng vai trò là người chấm điểm, tự động đánh giá các nỗ lực sao chép nghiên cứu của các tác nhân AI.
Trong quá trình đánh giá một số mô hình AI hàng đầu trên PaperBench, tác nhân hoạt động tốt nhất, Claude 3.5 Sonnet (New), được trang bị các công cụ mã nguồn mở, đạt điểm sao chép trung bình là 21.0%. Ngoài ra, OpenAI đã tiến hành một thí nghiệm trong đó các ứng viên tiến sĩ học máy hàng đầu thử nghiệm một phần các nhiệm vụ từ PaperBench. Kết quả cho thấy các mô hình AI hiện tại vẫn chưa vượt qua được hiệu suất của con người trong những nhiệm vụ này.
OpenAI đã công bố công khai mã nguồn của PaperBench, khuyến khích nghiên cứu thêm về khả năng kỹ thuật của các tác nhân AI. Sáng kiến mã nguồn mở này nhằm thúc đẩy những tiến bộ trong việc hiểu cách AI có thể được sử dụng hiệu quả trong việc sao chép và phát triển nghiên cứu AI.
Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.