OpenAI giới thiệu BrowseComp, tiêu chuẩn đánh giá khả năng duyệt internet của AI

Ngày đăng 02:25 11/04/2025
© Reuters.

Investing.com — OpenAI đã công bố ra mắt BrowseComp, một tiêu chuẩn đánh giá mã nguồn mở được thiết kế để kiểm tra khả năng của các tác nhân AI trong việc duyệt internet nhằm tìm kiếm thông tin khó tìm. Tiêu chuẩn này, hiện có sẵn trong kho lưu trữ GitHub simple evals của OpenAI, bao gồm 1.266 bài toán đầy thách thức.

BrowseComp được thiết kế để đo lường khả năng của các tác nhân AI trong việc định vị thông tin phức tạp, đan xen trên internet. Các tác nhân AI có thể thu thập kiến thức bằng cách duyệt internet đang ngày càng trở nên có giá trị. Một tác nhân duyệt web có năng lực phải có khả năng tìm kiếm thông tin khó tìm, có thể đòi hỏi việc duyệt hàng chục hoặc thậm chí hàng trăm trang web.

Tiêu chuẩn đánh giá này được tạo ra để vừa thách thức đối với các mô hình và dễ dàng xác minh. Nó tập trung vào những câu hỏi có câu trả lời ngắn gọn và chỉ có một câu trả lời đúng. Điều này giúp việc chấm điểm các câu trả lời ngắn trở nên đơn giản và làm cho tiêu chuẩn dễ sử dụng.

Tiêu chuẩn này được tạo ra theo hướng dẫn của SimpleQA, tiêu chuẩn đánh giá tính thực tế trước đó của OpenAI. Các huấn luyện viên con người được yêu cầu tạo ra những câu hỏi thách thức, tìm kiếm sự thật với câu trả lời ngắn gọn, không thể tranh cãi, không thay đổi theo thời gian và được hỗ trợ bởi bằng chứng. Các huấn luyện viên đã tạo ra những câu hỏi cực kỳ thách thức, và ba bước kiểm tra đã được sử dụng để đảm bảo rằng các câu hỏi đủ khó.

Các huấn luyện viên được yêu cầu tạo ra những nhiệm vụ đủ thách thức để một người khác không thể giải quyết trong vòng mười phút. Để tạo ra những câu hỏi thách thức, các huấn luyện viên được khuyến khích bắt đầu với một sự thật, sau đó tạo ra một câu hỏi "đảo ngược", trong đó câu trả lời khó tìm nhưng dễ xác minh.

Phân bố các chủ đề trong tiêu chuẩn BrowseComp rất đa dạng, với các chủ đề từ chương trình truyền hình và phim ảnh, đến khoa học và công nghệ, nghệ thuật, lịch sử, thể thao, âm nhạc, trò chơi điện tử, địa lý và chính trị.

OpenAI đã đánh giá một loạt các mô hình trên BrowseComp, bao gồm các mô hình không có khả năng duyệt web—GPT-4o, GPT-4.5 và OpenAI o1 (trung bình)—cũng như GPT-4o có khả năng duyệt web và Deep Research, một mô hình tác nhân được đào tạo đặc biệt cho việc duyệt web liên tục. Kết quả cho thấy cả việc sử dụng công cụ và khả năng lập luận đều đóng góp đáng kể vào hiệu suất trên BrowseComp.

Deep Research vượt trội hơn hẳn so với tất cả các mô hình khác, giải quyết được khoảng một nửa số vấn đề. Khả năng tự động tìm kiếm trên web, đánh giá và tổng hợp thông tin từ nhiều nguồn, cũng như điều chỉnh chiến lược tìm kiếm cho phép nó xử lý những câu hỏi mà nếu không sẽ rất khó giải quyết.

Một tính năng quan trọng của các tác nhân là hiệu suất tăng lên tương ứng với lượng tính toán được sử dụng tại thời điểm suy luận. Tương tự, việc bổ sung thêm tính toán tại thời điểm suy luận cải thiện hiệu suất trên BrowseComp, bởi vì các câu hỏi đòi hỏi phải duyệt lặp đi lặp lại một số lượng lớn trang web và kết hợp thông tin.

BrowseComp đánh giá mức độ hiệu quả của các mô hình trong việc duyệt internet để tìm kiếm thông tin khó tìm. Mặc dù BrowseComp không nhằm mục đích đo lường hiệu suất trên các truy vấn phổ biến, nó đo lường khả năng tìm kiếm một mẩu thông tin cụ thể, dễ đánh giá và đầy thách thức đối với các tác nhân duyệt web hiện có. OpenAI hy vọng rằng việc mở mã nguồn BrowseComp sẽ thúc đẩy nghiên cứu về AI đáng tin cậy và đáng tin cậy hơn.

Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.

Bình luận mới nhất

Cài Đặt Ứng Dụng của Chúng Tôi
Công Bố Rủi Ro: Giao dịch các công cụ tài chính và/hoặc tiền điện tử tiềm ẩn mức độ rủi ro cao, bao gồm rủi ro mất một phần hoặc toàn bộ vốn đầu tư, và có thể không phù hợp với mọi nhà đầu tư. Giá cả tiền điện tử có độ biến động mạnh và có thể chịu tác động từ các yếu tố bên ngoài như các sự kiện tài chính, pháp lý hoặc chính trị. Việc giao dịch theo mức ký quỹ gia tăng rủi ro tài chính.
Trước khi quyết định giao dịch công cụ tài chính hoặc tiền điện tử, bạn cần nắm toàn bộ thông tin về rủi ro và chi phí đi kèm với việc giao dịch trên các thị trường tài chính, thận trọng cân nhắc đối tượng đầu tư, mức độ kinh nghiệm, khẩu vị rủi ro và xin tư vấn chuyên môn nếu cần.
Fusion Media xin nhắc bạn rằng dữ liệu có trên trang web này không nhất thiết là theo thời gian thực hay chính xác. Dữ liệu và giá cả trên trang web không nhất thiết là thông tin do bất kỳ thị trường hay sở giao dịch nào cung cấp, nhưng có thể được cung cấp bởi các nhà tạo lập thị trường, vì vậy, giá cả có thể không chính xác và có khả năng khác với mức giá thực tế tại bất kỳ thị trường nào, điều này có nghĩa các mức giá chỉ là minh họa và không phù hợp cho mục đích giao dịch. Fusion Media và bất kỳ nhà cung cấp dữ liệu nào có trên trang web này đều không chấp nhận bất cứ nghĩa vụ nào trước bất kỳ tổn thất hay thiệt hại nào xảy ra từ kết quả giao dịch của bạn, hoặc trước việc bạn dựa vào thông tin có trong trang web này.
Bạn không được phép sử dụng, lưu trữ, sao chép, hiển thị, sửa đổi, truyền hay phân phối dữ liệu có trên trang web này và chưa nhận được sự cho phép rõ ràng bằng văn bản của Fusion Media và/hoặc nhà cung cấp. Tất cả các quyền sở hữu trí tuệ đều được bảo hộ bởi các nhà cung cấp và/hoặc sở giao dịch cung cấp dữ liệu có trên trang web này.
Fusion Media có thể nhận thù lao từ các đơn vị quảng cáo xuất hiện trên trang web, dựa trên tương tác của bạn với các quảng cáo hoặc đơn vị quảng cáo đó.
Phiên bản tiếng Anh của thỏa thuận này là phiên bản chính, sẽ luôn được ưu tiên để đối chiếu khi có sự khác biệt giữa phiên bản tiếng Anh và phiên bản tiếng Việt.
© 2007-2025 - Công ty TNHH Fusion Media. Mọi quyền được bảo hộ.