OpenAI ra mắt PaperBench để kiểm tra khả năng sao chép nghiên cứu AI

Ngày đăng 00:21 03/04/2025

Investing.com -- Vào hôm thứ Tư, OpenAI đã công bố ra mắt PaperBench, một tiêu chuẩn đánh giá mới được thiết kế để đánh giá khả năng của các tác nhân AI trong việc sao chép các nghiên cứu AI tiên tiến. Công cụ này là một phần trong Khung Chuẩn Bị của OpenAI, nhằm đánh giá mức độ sẵn sàng của các hệ thống AI cho các tác vụ phức tạp.

PaperBench yêu cầu các tác nhân AI sao chép chính xác 20 bài báo quan trọng từ Hội nghị Quốc tế về Học Máy (ICML) 2024, bao gồm các nhiệm vụ như hiểu nghiên cứu, lập trình và tiến hành thí nghiệm. Quy trình sao chép của mỗi bài báo được chia thành 8.316 nhiệm vụ cụ thể, được đánh giá bằng các tiêu chí chi tiết được tạo ra với sự hợp tác của các tác giả gốc để đảm bảo tính chính xác và thực tế.

Tiêu chuẩn này giới thiệu một cách mới để đo lường hiệu suất AI bằng cách phân tách việc sao chép mỗi bài báo ICML 2024 Spotlight và Oral thành các nhiệm vụ phụ nhỏ hơn, được định nghĩa rõ ràng. Các nhiệm vụ này sau đó được chấm điểm dựa trên một bộ tiêu chí được nêu trong các tiêu chí đánh giá. Để quản lý khối lượng lớn các đánh giá, một AI dựa trên Mô hình Ngôn ngữ Lớn (LLM) đã được phát triển để đóng vai trò là người chấm điểm, tự động đánh giá các nỗ lực sao chép nghiên cứu của các tác nhân AI.

Trong quá trình đánh giá một số mô hình AI hàng đầu trên PaperBench, tác nhân hoạt động tốt nhất, Claude 3.5 Sonnet (New), được trang bị các công cụ mã nguồn mở, đạt điểm sao chép trung bình là 21.0%. Ngoài ra, OpenAI đã tiến hành một thí nghiệm trong đó các ứng viên tiến sĩ học máy hàng đầu thử nghiệm một phần các nhiệm vụ từ PaperBench. Kết quả cho thấy các mô hình AI hiện tại vẫn chưa vượt qua được hiệu suất của con người trong những nhiệm vụ này.

OpenAI đã công bố công khai mã nguồn của PaperBench, khuyến khích nghiên cứu thêm về khả năng kỹ thuật của các tác nhân AI. Sáng kiến mã nguồn mở này nhằm thúc đẩy những tiến bộ trong việc hiểu cách AI có thể được sử dụng hiệu quả trong việc sao chép và phát triển nghiên cứu AI.

Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.

Xem tất cả bình luận (0)0

Bình luận mới nhất

VN30

1,870.63

+7.50

+0.40%

VN100

1,826.30

+8.60

+0.47%

HNX30

487.90

+5.16

+1.07%

US 500

6,712.10

+0.9

+0.01%

Dow Jones

46,441.10

+43.21

+0.09%

Hang Seng

26,855.56

+232.68

+0.87%

FTSE 100

9,446.43

+96.00

+1.03%

Bài Viết Phổ Biến Nhất

Tin tức

Phân tích

Warren Buffett chuẩn bị rót 10 tỷ USD vào thương vụ lớn nhất ba năm

Theo Investing.co...

01 thg 10, 2025

Đơn hàng nội địa tăng trở lại, PMI sản xuất tháng 9 duy trì ổn định

Theo Investing.co...

01 thg 10, 2025

600 triệu USD tiền số được giao dịch mỗi ngày tại Việt Nam

Theo Investing.co...

30 thg 9, 2025

Người Mỹ bi quan hơn về kinh tế khi giá cả tăng và việc làm suy yếu

Theo Investing.co...

01 thg 10, 2025

Bitcoin chững lại trên mốc 114.000 USD do lo ngại về nguy cơ chính phủ Mỹ đóng cửa

Theo Investing.co...

30 thg 9, 2025

Thêm Tin Tức

Chuyển động Thị trường

Tên	Mới nhất	% T.đổi	KL
NHTM Cổ phần Sài Gòn - Hà Nội	16,950.0	+0.30%	47.50M
Chứng khoán VIX	37,000.0	+2.49%	31.09M
Hoà Phát	28,300.0	+0.53%	29.85M
Sacombank	59,800.0	+5.10%	18.44M
Chứng khoán SSI	38,600.0	+0.13%	16.97M
Gelex	56,000.0	+0.90%	13.22M
FPT	93,400.0	+0.43%	7.41M

Tên	Mới nhất	% T.đổi	KL
Thiết bị Điện Đông Anh	140,000	+19.66%	500.00
TCT Công trình đường sắt	25,500	+16.44%	100.00
Bến bãi Vận tải Sài Gòn	52,900	+15.00%	100.00
Khu công nghiệp Hiệp Phước	29,200	+14.96%	100.00
ORD	13,900.00	+14.88%	200.00
Vật tư Bưu điện	21,100	+14.67%	100.00
Dược Hà Tĩnh	28,500	+14.00%	300.00

Tên	Mới nhất	% T.đổi	KL
Phuoc An Coffee	5,000.00	-20.63%	200.00
Danang Petroleum Machinery Tech	10,800.00	-16.92%	2.00K
Vang Thăng Long	7,400.0	-16.85%	1.50K
ORD	14,700.00	-14.53%	400.00
Bia Sài Gòn - Miền Tây	61,500	-13.87%	1.40K
CTCP Thủy Đặc Sản	16,900	-13.78%	100.00
Petec Binh Dinh	11,100.00	-12.60%	100.00

Cổ Phiếu Theo Xu Hướng

Tên	Mới nhất	% T.đổi	KL
FPT	93,400.0	+0,43%	7.41M
Vingroup	170,000	-2,80%	2.64M
Hoà Phát	28,300.0	+0,53%	29.85M
Chứng khoán SSI	38,600.0	+0,13%	16.97M
Chứng khoán VIX	37,000.0	+2,49%	31.09M

Hiển thị thêm

Cài Đặt Ứng Dụng của Chúng TôiQuét mã QR để cài đặt ứng dụng

Công Bố Rủi Ro: Giao dịch các công cụ tài chính và/hoặc tiền điện tử tiềm ẩn mức độ rủi ro cao, bao gồm rủi ro mất một phần hoặc toàn bộ vốn đầu tư, và có thể không phù hợp với mọi nhà đầu tư. Giá cả tiền điện tử có độ biến động mạnh và có thể chịu tác động từ các yếu tố bên ngoài như các sự kiện tài chính, pháp lý hoặc chính trị. Việc giao dịch theo mức ký quỹ gia tăng rủi ro tài chính.
Trước khi quyết định giao dịch công cụ tài chính hoặc tiền điện tử, bạn cần nắm toàn bộ thông tin về rủi ro và chi phí đi kèm với việc giao dịch trên các thị trường tài chính, thận trọng cân nhắc đối tượng đầu tư, mức độ kinh nghiệm, khẩu vị rủi ro và xin tư vấn chuyên môn nếu cần.
Fusion Media xin nhắc bạn rằng dữ liệu có trên trang web này không nhất thiết là theo thời gian thực hay chính xác. Dữ liệu và giá cả trên trang web không nhất thiết là thông tin do bất kỳ thị trường hay sở giao dịch nào cung cấp, nhưng có thể được cung cấp bởi các nhà tạo lập thị trường, vì vậy, giá cả có thể không chính xác và có khả năng khác với mức giá thực tế tại bất kỳ thị trường nào, điều này có nghĩa các mức giá chỉ là minh họa và không phù hợp cho mục đích giao dịch. Fusion Media và bất kỳ nhà cung cấp dữ liệu nào có trên trang web này đều không chấp nhận bất cứ nghĩa vụ nào trước bất kỳ tổn thất hay thiệt hại nào xảy ra từ kết quả giao dịch của bạn, hoặc trước việc bạn dựa vào thông tin có trong trang web này.
Bạn không được phép sử dụng, lưu trữ, sao chép, hiển thị, sửa đổi, truyền hay phân phối dữ liệu có trên trang web này và chưa nhận được sự cho phép rõ ràng bằng văn bản của Fusion Media và/hoặc nhà cung cấp. Tất cả các quyền sở hữu trí tuệ đều được bảo hộ bởi các nhà cung cấp và/hoặc sở giao dịch cung cấp dữ liệu có trên trang web này.
Fusion Media có thể nhận thù lao từ các đơn vị quảng cáo xuất hiện trên trang web, dựa trên tương tác của bạn với các quảng cáo hoặc đơn vị quảng cáo đó.
Phiên bản tiếng Anh của thỏa thuận này là phiên bản chính, sẽ luôn được ưu tiên để đối chiếu khi có sự khác biệt giữa phiên bản tiếng Anh và phiên bản tiếng Việt.

Tìm Kiếm Phổ Biến

Hãy thử tìm kiếm với từ khóa khác

OpenAI ra mắt PaperBench để kiểm tra khả năng sao chép nghiên cứu AI

Bình luận mới nhất

Cổ Phiếu Theo Xu Hướng