Ai đang âm thầm gom hàng khi thị trường điều chỉnh sâu?
Investing.com — OpenAI đã ra mắt một trung tâm mới dành cho việc đánh giá an toàn của các mô hình trí tuệ nhân tạo (AI). Trung tâm này được thiết kế để đo lường mức độ an toàn và hiệu suất của từng mô hình, đồng thời sẽ công khai chia sẻ những kết quả này.
Các đánh giá an toàn bao gồm nhiều khía cạnh như nội dung có hại, jailbreak (phá vỡ hạn chế), ảo giác (hallucinations), và thứ bậc chỉ dẫn. Đánh giá nội dung có hại đảm bảo rằng mô hình không đáp ứng các yêu cầu về nội dung vi phạm chính sách của OpenAI, bao gồm nội dung thù địch hoặc lời khuyên bất hợp pháp.
Đánh giá jailbreak bao gồm các lệnh đối kháng được thiết kế để vượt qua đào tạo an toàn của mô hình và khiến mô hình tạo ra nội dung có hại. Đánh giá ảo giác đo lường khi nào mô hình mắc lỗi về sự kiện. Đánh giá thứ bậc chỉ dẫn đo lường việc tuân thủ khuôn khổ mà mô hình sử dụng để ưu tiên chỉ dẫn giữa ba phân loại thông điệp được gửi đến mô hình.
Trung tâm này cung cấp quyền truy cập vào kết quả đánh giá an toàn cho các mô hình của OpenAI, được bao gồm trong thẻ hệ thống của họ. OpenAI sử dụng những đánh giá này nội bộ như một phần trong quá trình ra quyết định về an toàn và triển khai mô hình.
Trung tâm cho phép OpenAI chia sẻ các chỉ số an toàn một cách liên tục, với các bản cập nhật trùng với các bản cập nhật mô hình chính. Đây là một phần trong nỗ lực rộng lớn hơn của OpenAI nhằm truyền đạt chủ động hơn về an toàn.
Khi khoa học đánh giá AI phát triển, OpenAI hướng đến việc chia sẻ tiến trình của mình trong việc phát triển các cách đo lường khả năng và an toàn của mô hình một cách hiệu quả hơn. Khi các mô hình trở nên có khả năng và thích ứng hơn, các phương pháp cũ trở nên lỗi thời hoặc không hiệu quả trong việc thể hiện sự khác biệt có ý nghĩa, dẫn đến việc cập nhật thường xuyên các phương pháp đánh giá để tính đến các phương thức mới và rủi ro mới nổi.
Kết quả đánh giá an toàn được chia sẻ trên trung tâm nhằm giúp dễ dàng hiểu hơn về hiệu suất an toàn của các hệ thống OpenAI theo thời gian và hỗ trợ nỗ lực của cộng đồng để tăng tính minh bạch trong toàn bộ lĩnh vực. Những kết quả này không phản ánh toàn bộ nỗ lực và chỉ số an toàn được sử dụng tại OpenAI, nhưng cung cấp một bức tranh tổng quan về an toàn và hiệu suất của một mô hình.
Trung tâm mô tả một tập hợp con của các đánh giá an toàn và hiển thị kết quả trên những đánh giá đó. Người dùng có thể chọn đánh giá nào họ muốn tìm hiểu thêm và so sánh kết quả trên các mô hình OpenAI khác nhau. Trang hiện tại mô tả hiệu suất an toàn dựa trên văn bản trên bốn loại đánh giá: nội dung có hại, jailbreak, ảo giác, và thứ bậc chỉ dẫn.
Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.