OpenAI ra mắt trung tâm đánh giá an toàn để theo dõi hiệu suất mô hình AI

Ngày đăng 23:36 14/05/2025
© Reuters.

Investing.com — OpenAI đã ra mắt một trung tâm mới dành cho việc đánh giá an toàn của các mô hình trí tuệ nhân tạo (AI). Trung tâm này được thiết kế để đo lường mức độ an toàn và hiệu suất của từng mô hình, đồng thời sẽ công khai chia sẻ những kết quả này.

Các đánh giá an toàn bao gồm nhiều khía cạnh như nội dung có hại, jailbreak (phá vỡ hạn chế), ảo giác (hallucinations), và thứ bậc chỉ dẫn. Đánh giá nội dung có hại đảm bảo rằng mô hình không đáp ứng các yêu cầu về nội dung vi phạm chính sách của OpenAI, bao gồm nội dung thù địch hoặc lời khuyên bất hợp pháp.

Đánh giá jailbreak bao gồm các lệnh đối kháng được thiết kế để vượt qua đào tạo an toàn của mô hình và khiến mô hình tạo ra nội dung có hại. Đánh giá ảo giác đo lường khi nào mô hình mắc lỗi về sự kiện. Đánh giá thứ bậc chỉ dẫn đo lường việc tuân thủ khuôn khổ mà mô hình sử dụng để ưu tiên chỉ dẫn giữa ba phân loại thông điệp được gửi đến mô hình.

Trung tâm này cung cấp quyền truy cập vào kết quả đánh giá an toàn cho các mô hình của OpenAI, được bao gồm trong thẻ hệ thống của họ. OpenAI sử dụng những đánh giá này nội bộ như một phần trong quá trình ra quyết định về an toàn và triển khai mô hình.

Trung tâm cho phép OpenAI chia sẻ các chỉ số an toàn một cách liên tục, với các bản cập nhật trùng với các bản cập nhật mô hình chính. Đây là một phần trong nỗ lực rộng lớn hơn của OpenAI nhằm truyền đạt chủ động hơn về an toàn.

Khi khoa học đánh giá AI phát triển, OpenAI hướng đến việc chia sẻ tiến trình của mình trong việc phát triển các cách đo lường khả năng và an toàn của mô hình một cách hiệu quả hơn. Khi các mô hình trở nên có khả năng và thích ứng hơn, các phương pháp cũ trở nên lỗi thời hoặc không hiệu quả trong việc thể hiện sự khác biệt có ý nghĩa, dẫn đến việc cập nhật thường xuyên các phương pháp đánh giá để tính đến các phương thức mới và rủi ro mới nổi.

Kết quả đánh giá an toàn được chia sẻ trên trung tâm nhằm giúp dễ dàng hiểu hơn về hiệu suất an toàn của các hệ thống OpenAI theo thời gian và hỗ trợ nỗ lực của cộng đồng để tăng tính minh bạch trong toàn bộ lĩnh vực. Những kết quả này không phản ánh toàn bộ nỗ lực và chỉ số an toàn được sử dụng tại OpenAI, nhưng cung cấp một bức tranh tổng quan về an toàn và hiệu suất của một mô hình.

Trung tâm mô tả một tập hợp con của các đánh giá an toàn và hiển thị kết quả trên những đánh giá đó. Người dùng có thể chọn đánh giá nào họ muốn tìm hiểu thêm và so sánh kết quả trên các mô hình OpenAI khác nhau. Trang hiện tại mô tả hiệu suất an toàn dựa trên văn bản trên bốn loại đánh giá: nội dung có hại, jailbreak, ảo giác, và thứ bậc chỉ dẫn.

Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.

Bình luận mới nhất

Cài Đặt Ứng Dụng của Chúng Tôi
Công Bố Rủi Ro: Giao dịch các công cụ tài chính và/hoặc tiền điện tử tiềm ẩn mức độ rủi ro cao, bao gồm rủi ro mất một phần hoặc toàn bộ vốn đầu tư, và có thể không phù hợp với mọi nhà đầu tư. Giá cả tiền điện tử có độ biến động mạnh và có thể chịu tác động từ các yếu tố bên ngoài như các sự kiện tài chính, pháp lý hoặc chính trị. Việc giao dịch theo mức ký quỹ gia tăng rủi ro tài chính.
Trước khi quyết định giao dịch công cụ tài chính hoặc tiền điện tử, bạn cần nắm toàn bộ thông tin về rủi ro và chi phí đi kèm với việc giao dịch trên các thị trường tài chính, thận trọng cân nhắc đối tượng đầu tư, mức độ kinh nghiệm, khẩu vị rủi ro và xin tư vấn chuyên môn nếu cần.
Fusion Media xin nhắc bạn rằng dữ liệu có trên trang web này không nhất thiết là theo thời gian thực hay chính xác. Dữ liệu và giá cả trên trang web không nhất thiết là thông tin do bất kỳ thị trường hay sở giao dịch nào cung cấp, nhưng có thể được cung cấp bởi các nhà tạo lập thị trường, vì vậy, giá cả có thể không chính xác và có khả năng khác với mức giá thực tế tại bất kỳ thị trường nào, điều này có nghĩa các mức giá chỉ là minh họa và không phù hợp cho mục đích giao dịch. Fusion Media và bất kỳ nhà cung cấp dữ liệu nào có trên trang web này đều không chấp nhận bất cứ nghĩa vụ nào trước bất kỳ tổn thất hay thiệt hại nào xảy ra từ kết quả giao dịch của bạn, hoặc trước việc bạn dựa vào thông tin có trong trang web này.
Bạn không được phép sử dụng, lưu trữ, sao chép, hiển thị, sửa đổi, truyền hay phân phối dữ liệu có trên trang web này và chưa nhận được sự cho phép rõ ràng bằng văn bản của Fusion Media và/hoặc nhà cung cấp. Tất cả các quyền sở hữu trí tuệ đều được bảo hộ bởi các nhà cung cấp và/hoặc sở giao dịch cung cấp dữ liệu có trên trang web này.
Fusion Media có thể nhận thù lao từ các đơn vị quảng cáo xuất hiện trên trang web, dựa trên tương tác của bạn với các quảng cáo hoặc đơn vị quảng cáo đó.
Phiên bản tiếng Anh của thỏa thuận này là phiên bản chính, sẽ luôn được ưu tiên để đối chiếu khi có sự khác biệt giữa phiên bản tiếng Anh và phiên bản tiếng Việt.
© 2007-2025 - Công ty TNHH Fusion Media. Mọi quyền được bảo hộ.