OpenAI giới thiệu BrowseComp, tiêu chuẩn đánh giá khả năng duyệt internet của AI

Ngày đăng 02:25 11/04/2025

Investing.com — OpenAI đã công bố ra mắt BrowseComp, một tiêu chuẩn đánh giá mã nguồn mở được thiết kế để kiểm tra khả năng của các tác nhân AI trong việc duyệt internet nhằm tìm kiếm thông tin khó tìm. Tiêu chuẩn này, hiện có sẵn trong kho lưu trữ GitHub simple evals của OpenAI, bao gồm 1.266 bài toán đầy thách thức.

BrowseComp được thiết kế để đo lường khả năng của các tác nhân AI trong việc định vị thông tin phức tạp, đan xen trên internet. Các tác nhân AI có thể thu thập kiến thức bằng cách duyệt internet đang ngày càng trở nên có giá trị. Một tác nhân duyệt web có năng lực phải có khả năng tìm kiếm thông tin khó tìm, có thể đòi hỏi việc duyệt hàng chục hoặc thậm chí hàng trăm trang web.

Tiêu chuẩn đánh giá này được tạo ra để vừa thách thức đối với các mô hình và dễ dàng xác minh. Nó tập trung vào những câu hỏi có câu trả lời ngắn gọn và chỉ có một câu trả lời đúng. Điều này giúp việc chấm điểm các câu trả lời ngắn trở nên đơn giản và làm cho tiêu chuẩn dễ sử dụng.

Tiêu chuẩn này được tạo ra theo hướng dẫn của SimpleQA, tiêu chuẩn đánh giá tính thực tế trước đó của OpenAI. Các huấn luyện viên con người được yêu cầu tạo ra những câu hỏi thách thức, tìm kiếm sự thật với câu trả lời ngắn gọn, không thể tranh cãi, không thay đổi theo thời gian và được hỗ trợ bởi bằng chứng. Các huấn luyện viên đã tạo ra những câu hỏi cực kỳ thách thức, và ba bước kiểm tra đã được sử dụng để đảm bảo rằng các câu hỏi đủ khó.

Các huấn luyện viên được yêu cầu tạo ra những nhiệm vụ đủ thách thức để một người khác không thể giải quyết trong vòng mười phút. Để tạo ra những câu hỏi thách thức, các huấn luyện viên được khuyến khích bắt đầu với một sự thật, sau đó tạo ra một câu hỏi "đảo ngược", trong đó câu trả lời khó tìm nhưng dễ xác minh.

Phân bố các chủ đề trong tiêu chuẩn BrowseComp rất đa dạng, với các chủ đề từ chương trình truyền hình và phim ảnh, đến khoa học và công nghệ, nghệ thuật, lịch sử, thể thao, âm nhạc, trò chơi điện tử, địa lý và chính trị.

OpenAI đã đánh giá một loạt các mô hình trên BrowseComp, bao gồm các mô hình không có khả năng duyệt web—GPT-4o, GPT-4.5 và OpenAI o1 (trung bình)—cũng như GPT-4o có khả năng duyệt web và Deep Research, một mô hình tác nhân được đào tạo đặc biệt cho việc duyệt web liên tục. Kết quả cho thấy cả việc sử dụng công cụ và khả năng lập luận đều đóng góp đáng kể vào hiệu suất trên BrowseComp.

Deep Research vượt trội hơn hẳn so với tất cả các mô hình khác, giải quyết được khoảng một nửa số vấn đề. Khả năng tự động tìm kiếm trên web, đánh giá và tổng hợp thông tin từ nhiều nguồn, cũng như điều chỉnh chiến lược tìm kiếm cho phép nó xử lý những câu hỏi mà nếu không sẽ rất khó giải quyết.

Một tính năng quan trọng của các tác nhân là hiệu suất tăng lên tương ứng với lượng tính toán được sử dụng tại thời điểm suy luận. Tương tự, việc bổ sung thêm tính toán tại thời điểm suy luận cải thiện hiệu suất trên BrowseComp, bởi vì các câu hỏi đòi hỏi phải duyệt lặp đi lặp lại một số lượng lớn trang web và kết hợp thông tin.

BrowseComp đánh giá mức độ hiệu quả của các mô hình trong việc duyệt internet để tìm kiếm thông tin khó tìm. Mặc dù BrowseComp không nhằm mục đích đo lường hiệu suất trên các truy vấn phổ biến, nó đo lường khả năng tìm kiếm một mẩu thông tin cụ thể, dễ đánh giá và đầy thách thức đối với các tác nhân duyệt web hiện có. OpenAI hy vọng rằng việc mở mã nguồn BrowseComp sẽ thúc đẩy nghiên cứu về AI đáng tin cậy và đáng tin cậy hơn.

Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.

Xem tất cả bình luận (0)0

Bình luận mới nhất

VN30

1,859.51

-0.29

-0.02%

VN100

1,803.15

-7.54

-0.42%

HNX30

487.90

+5.16

+1.07%

US 500

6,714.10

-1.3

-0.02%

Dow Jones

46,758.28

+238.56

+0.51%

Hang Seng

27,140.92

-146.20

-0.54%

FTSE 100

9,491.25

+63.52

+0.67%

Bài Viết Phổ Biến Nhất

Tin tức

Phân tích

Giá USD lùi bước

Theo Vietstock

05 thg 10, 2025

Giá vàng hôm nay 5-10: Chốt tuần, vàng miếng SJC và vàng nhẫn đều tăng mạnh

Theo Vietstock

04 thg 10, 2025

Một mình VIC không đủ sức cứu VN-Index khỏi tuần giảm điểm

Theo Vietstock

05 thg 10, 2025

Bán vàng miếng 1 tỉ đồng, chỉ chịu thuế 1 triệu đồng có ngăn được đầu cơ?

Theo Vietstock

04 thg 10, 2025

OPEC+ dự kiến tăng sản lượng dầu từ tháng 11 giữa bất đồng Saudi-Nga

Theo Investing.co...

05 thg 10, 2025

Thêm Tin Tức

Chuyển động Thị trường

Tên	Mới nhất	% T.đổi	KL
NHTM Cổ phần Sài Gòn - Hà Nội	16,700.0	-1.76%	64.64M
Hoà Phát	27,650.0	-1.60%	58.12M
VPBank	29,500.0	-2.16%	30.21M
Chứng khoán SSI	37,650.0	-0.53%	25.06M
Chứng khoán VIX	35,500.0	-1.93%	22.11M
Thế giới Di động	77,000	-0.13%	9.67M
Vingroup	176,500	+3.22%	4.89M

Tên	Mới nhất	% T.đổi	KL
382 Đông Anh	6,300	+40.00%	900.00
CADOVIMEX	600	+20.00%	1.50K
Lilama 45.1	1,800	+20.00%	2.00K
Công nghệ Tin học HPT	27,600	+16.95%	1.00K
Tập đoàn MPT	700.00	+16.67%	546.60K
TCT Công trình đường sắt	25,500	+16.44%	100.00
Xây dựng điện Mê Ca Vneco	8,000	+15.94%	11.90K

Tên	Mới nhất	% T.đổi	KL
EMESCO	9,200	-39.87%	100.00
ORD	4,000.00	-36.51%	33.10K
CMISTONE Việt Nam	500	-28.57%	6.80K
Phuoc An Coffee	5,000.00	-20.63%	200.00
Khoáng sản Á Cường	500.00	-16.67%	183.80K
CTCP NTACO	500	-16.67%	6.80K
In sách giáo khoa Hòa Phát	2,100.0	-16.00%	685.60K

Cổ Phiếu Theo Xu Hướng

Tên	Mới nhất	% T.đổi	KL
Vingroup	176,500	+3,22%	4.89M
FPT	93,400.0	+1,41%	7.68M
Hoà Phát	27,650.0	-1,60%	58.12M
VPBank	29,500.0	-2,16%	30.21M
Vinamilk	61,300.0	+0,16%	4.00M

Hiển thị thêm

Cài Đặt Ứng Dụng của Chúng TôiQuét mã QR để cài đặt ứng dụng

Công Bố Rủi Ro: Giao dịch các công cụ tài chính và/hoặc tiền điện tử tiềm ẩn mức độ rủi ro cao, bao gồm rủi ro mất một phần hoặc toàn bộ vốn đầu tư, và có thể không phù hợp với mọi nhà đầu tư. Giá cả tiền điện tử có độ biến động mạnh và có thể chịu tác động từ các yếu tố bên ngoài như các sự kiện tài chính, pháp lý hoặc chính trị. Việc giao dịch theo mức ký quỹ gia tăng rủi ro tài chính.
Trước khi quyết định giao dịch công cụ tài chính hoặc tiền điện tử, bạn cần nắm toàn bộ thông tin về rủi ro và chi phí đi kèm với việc giao dịch trên các thị trường tài chính, thận trọng cân nhắc đối tượng đầu tư, mức độ kinh nghiệm, khẩu vị rủi ro và xin tư vấn chuyên môn nếu cần.
Fusion Media xin nhắc bạn rằng dữ liệu có trên trang web này không nhất thiết là theo thời gian thực hay chính xác. Dữ liệu và giá cả trên trang web không nhất thiết là thông tin do bất kỳ thị trường hay sở giao dịch nào cung cấp, nhưng có thể được cung cấp bởi các nhà tạo lập thị trường, vì vậy, giá cả có thể không chính xác và có khả năng khác với mức giá thực tế tại bất kỳ thị trường nào, điều này có nghĩa các mức giá chỉ là minh họa và không phù hợp cho mục đích giao dịch. Fusion Media và bất kỳ nhà cung cấp dữ liệu nào có trên trang web này đều không chấp nhận bất cứ nghĩa vụ nào trước bất kỳ tổn thất hay thiệt hại nào xảy ra từ kết quả giao dịch của bạn, hoặc trước việc bạn dựa vào thông tin có trong trang web này.
Bạn không được phép sử dụng, lưu trữ, sao chép, hiển thị, sửa đổi, truyền hay phân phối dữ liệu có trên trang web này và chưa nhận được sự cho phép rõ ràng bằng văn bản của Fusion Media và/hoặc nhà cung cấp. Tất cả các quyền sở hữu trí tuệ đều được bảo hộ bởi các nhà cung cấp và/hoặc sở giao dịch cung cấp dữ liệu có trên trang web này.
Fusion Media có thể nhận thù lao từ các đơn vị quảng cáo xuất hiện trên trang web, dựa trên tương tác của bạn với các quảng cáo hoặc đơn vị quảng cáo đó.
Phiên bản tiếng Anh của thỏa thuận này là phiên bản chính, sẽ luôn được ưu tiên để đối chiếu khi có sự khác biệt giữa phiên bản tiếng Anh và phiên bản tiếng Việt.

Tìm Kiếm Phổ Biến

Hãy thử tìm kiếm với từ khóa khác

OpenAI giới thiệu BrowseComp, tiêu chuẩn đánh giá khả năng duyệt internet của AI

Bình luận mới nhất

Cổ Phiếu Theo Xu Hướng