Chính phủ họp với các tập đoàn bất động sản, công ty chứng khoán lớn
Investing.com — OpenAI đã công bố ra mắt BrowseComp, một tiêu chuẩn đánh giá mã nguồn mở được thiết kế để kiểm tra khả năng của các tác nhân AI trong việc duyệt internet nhằm tìm kiếm thông tin khó tìm. Tiêu chuẩn này, hiện có sẵn trong kho lưu trữ GitHub simple evals của OpenAI, bao gồm 1.266 bài toán đầy thách thức.
BrowseComp được thiết kế để đo lường khả năng của các tác nhân AI trong việc định vị thông tin phức tạp, đan xen trên internet. Các tác nhân AI có thể thu thập kiến thức bằng cách duyệt internet đang ngày càng trở nên có giá trị. Một tác nhân duyệt web có năng lực phải có khả năng tìm kiếm thông tin khó tìm, có thể đòi hỏi việc duyệt hàng chục hoặc thậm chí hàng trăm trang web.
Tiêu chuẩn đánh giá này được tạo ra để vừa thách thức đối với các mô hình và dễ dàng xác minh. Nó tập trung vào những câu hỏi có câu trả lời ngắn gọn và chỉ có một câu trả lời đúng. Điều này giúp việc chấm điểm các câu trả lời ngắn trở nên đơn giản và làm cho tiêu chuẩn dễ sử dụng.
Tiêu chuẩn này được tạo ra theo hướng dẫn của SimpleQA, tiêu chuẩn đánh giá tính thực tế trước đó của OpenAI. Các huấn luyện viên con người được yêu cầu tạo ra những câu hỏi thách thức, tìm kiếm sự thật với câu trả lời ngắn gọn, không thể tranh cãi, không thay đổi theo thời gian và được hỗ trợ bởi bằng chứng. Các huấn luyện viên đã tạo ra những câu hỏi cực kỳ thách thức, và ba bước kiểm tra đã được sử dụng để đảm bảo rằng các câu hỏi đủ khó.
Các huấn luyện viên được yêu cầu tạo ra những nhiệm vụ đủ thách thức để một người khác không thể giải quyết trong vòng mười phút. Để tạo ra những câu hỏi thách thức, các huấn luyện viên được khuyến khích bắt đầu với một sự thật, sau đó tạo ra một câu hỏi "đảo ngược", trong đó câu trả lời khó tìm nhưng dễ xác minh.
Phân bố các chủ đề trong tiêu chuẩn BrowseComp rất đa dạng, với các chủ đề từ chương trình truyền hình và phim ảnh, đến khoa học và công nghệ, nghệ thuật, lịch sử, thể thao, âm nhạc, trò chơi điện tử, địa lý và chính trị.
OpenAI đã đánh giá một loạt các mô hình trên BrowseComp, bao gồm các mô hình không có khả năng duyệt web—GPT-4o, GPT-4.5 và OpenAI o1 (trung bình)—cũng như GPT-4o có khả năng duyệt web và Deep Research, một mô hình tác nhân được đào tạo đặc biệt cho việc duyệt web liên tục. Kết quả cho thấy cả việc sử dụng công cụ và khả năng lập luận đều đóng góp đáng kể vào hiệu suất trên BrowseComp.
Deep Research vượt trội hơn hẳn so với tất cả các mô hình khác, giải quyết được khoảng một nửa số vấn đề. Khả năng tự động tìm kiếm trên web, đánh giá và tổng hợp thông tin từ nhiều nguồn, cũng như điều chỉnh chiến lược tìm kiếm cho phép nó xử lý những câu hỏi mà nếu không sẽ rất khó giải quyết.
Một tính năng quan trọng của các tác nhân là hiệu suất tăng lên tương ứng với lượng tính toán được sử dụng tại thời điểm suy luận. Tương tự, việc bổ sung thêm tính toán tại thời điểm suy luận cải thiện hiệu suất trên BrowseComp, bởi vì các câu hỏi đòi hỏi phải duyệt lặp đi lặp lại một số lượng lớn trang web và kết hợp thông tin.
BrowseComp đánh giá mức độ hiệu quả của các mô hình trong việc duyệt internet để tìm kiếm thông tin khó tìm. Mặc dù BrowseComp không nhằm mục đích đo lường hiệu suất trên các truy vấn phổ biến, nó đo lường khả năng tìm kiếm một mẩu thông tin cụ thể, dễ đánh giá và đầy thách thức đối với các tác nhân duyệt web hiện có. OpenAI hy vọng rằng việc mở mã nguồn BrowseComp sẽ thúc đẩy nghiên cứu về AI đáng tin cậy và đáng tin cậy hơn.
Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.