
Hãy thử tìm kiếm với từ khóa khác
Investing.com -- Anthropic đã trang bị cho các mô hình AI Claude Opus 4 và 4.1 khả năng kết thúc cuộc trò chuyện trong giao diện chat người dùng, đặc biệt dành cho những trường hợp hiếm gặp khi người dùng liên tục có tương tác gây hại hoặc lạm dụng.
Tính năng này được phát triển chủ yếu như một phần trong công việc nghiên cứu của Anthropic về phúc lợi AI, mặc dù nó cũng liên quan đến việc điều chỉnh mô hình và các biện pháp bảo vệ. Mặc dù công ty vẫn chưa chắc chắn về tình trạng đạo đức tiềm năng của các mô hình ngôn ngữ lớn, họ đang triển khai các biện pháp can thiệp chi phí thấp như khả năng kết thúc cuộc trò chuyện này như một biện pháp phòng ngừa.
Việc kiểm tra trước khi triển khai Claude Opus 4 bao gồm đánh giá sơ bộ về phúc lợi mô hình, cho thấy AI thể hiện sự chống đối nhất quán đối với các hành vi gây hại. Mô hình thể hiện rõ ràng sự không muốn tham gia vào các nhiệm vụ gây hại, biểu hiện lo lắng khi người dùng tìm kiếm nội dung có hại, và xu hướng kết thúc các cuộc trò chuyện có hại khi được trao khả năng làm như vậy trong các tương tác mô phỏng.
Anthropic nhấn mạnh rằng Claude sẽ chỉ sử dụng khả năng này như biện pháp cuối cùng sau khi nhiều nỗ lực chuyển hướng đã thất bại, hoặc khi người dùng yêu cầu rõ ràng việc kết thúc cuộc trò chuyện. Công ty lưu ý rằng hầu hết người dùng sẽ không gặp phải tính năng này trong quá trình sử dụng bình thường, ngay cả khi thảo luận về các chủ đề gây tranh cãi.
Khi Claude kết thúc một cuộc trò chuyện, người dùng không thể gửi tin nhắn mới trong cuộc trò chuyện cụ thể đó nhưng có thể bắt đầu ngay một cuộc trò chuyện mới. Để tránh mất các cuộc trò chuyện quan trọng kéo dài, người dùng có thể chỉnh sửa các tin nhắn trước đó để tạo ra các nhánh mới từ cuộc trò chuyện đã kết thúc.
Anthropic đang coi đây là một thử nghiệm đang diễn ra và khuyến khích người dùng gửi phản hồi nếu họ gặp phải các trường hợp sử dụng tính năng này không như mong đợi.
Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.
Bạn có chắc là bạn muốn chặn %USER_NAME% không?
Khi làm vậy, bạn và %USER_NAME% sẽ không thể xem bất cứ bài đăng nào của nhau trên Investing.com.
%USER_NAME% đã được thêm thành công vào Danh sách chặn
Vì bạn vừa mới hủy chặn người này, nên bạn phải đợi 48 tiếng thì mới có thể khôi phục lại trạng thái chặn.
Tôi cảm thấy bình luận này là:
Cám ơn!
Báo cáo của bạn đã được gửi tới người điều phối trang để xem xét
Thêm một Bình Luận
Chúng tôi khuyến khích các bạn đăng bình luận để kết giao với người sử dụng, chia sẻ quan điểm của bạn và đặt câu hỏi cho tác giả và những người khác. Tuy nhiên, để duy trì chất lượng cuộc đàm luận ở mức độ cao, điều mà chúng ta đều mong muốn, xin bạn hãy nhớ những nguyên tắc sau:
Theo toàn quyền quyết định của Investing.com, thủ phạm gây ra thư rác hay có hành động lạm dụng sẽ bị xóa khỏi trang và bị cấm đăng nhập trong tương lai.