Rủi ro chính phủ sụp đổ: Chứng khoán Pháp giảm mạnh, thị trường châu Âu chao đảo
Investing.com - Google (NASDAQ:GOOGL) DeepMind đã công bố giới thiệu hai mô hình trí tuệ nhân tạo mới, Gemini Robotics và Gemini Robotics-ER, cả hai đều dựa trên công nghệ Gemini 2.0. Những mô hình này nhằm đặt nền móng cho thế hệ robot thực tế tiếp theo.
Gemini Robotics là một mô hình thị giác-ngôn ngữ-hành động (VLA) tiên tiến mở rộng Gemini 2.0 để bao gồm các hành động vật lý, cho phép điều khiển trực tiếp robot. Mô hình Gemini Robotics-ER nâng cao khả năng suy luận (ER) của Gemini, cung cấp sự hiểu biết không gian nâng cao cho các nhà robot chạy các chương trình của riêng họ.
Các mô hình mới được thiết kế để cho phép nhiều loại robot thực hiện nhiều nhiệm vụ trong thế giới thực hơn. Google DeepMind đang hợp tác với Apptronik để tạo ra thế hệ robot hình người tiếp theo bằng cách sử dụng Gemini 2.0. Ngoài ra, họ đang làm việc với một nhóm những người thử nghiệm đáng tin cậy để hướng dẫn sự phát triển của Gemini Robotics-ER.
Để hiệu quả và có lợi cho con người, các mô hình AI cho robot cần phải tổng quát, tương tác và khéo léo. Gemini Robotics đã đạt được những tiến bộ đáng kể trong tất cả các lĩnh vực này, đưa chúng ta đến gần hơn với robot đa năng thực sự.
Gemini Robotics sử dụng sự hiểu biết thế giới của Gemini để khái quát hóa các tình huống mới và giải quyết một loạt các nhiệm vụ. Nó cũng có kỹ năng xử lý các đối tượng mới, hướng dẫn đa dạng và môi trường mới. Mô hình này có tính tương tác do nền tảng của nó trên Gemini 2.0, cho phép nó hiểu và phản hồi các lệnh bằng ngôn ngữ đàm thoại hàng ngày. Nó cũng có thể điều chỉnh hành vi của mình dựa trên những thay đổi trong môi trường hoặc hướng dẫn của nó.
Gemini Robotics có thể thực hiện các tác vụ phức tạp, nhiều bước đòi hỏi thao tác chính xác, chẳng hạn như gấp origami hoặc đóng gói đồ ăn nhẹ vào túi Ziploc. Mô hình này đã được thiết kế để thích ứng với các loại robot khác nhau, với việc đào tạo chủ yếu dựa trên dữ liệu từ nền tảng robot hai tay, ALOHA 2.
Mô hình Gemini Robotics-ER nâng cao sự hiểu biết của Gemini về thế giới theo những cách cần thiết cho robot, đặc biệt tập trung vào lý luận không gian. Nó cải thiện các khả năng hiện có của Gemini 2.0 như trỏ và phát hiện 3D với biên độ lớn. Gemini Robotics-ER có thể thực hiện tất cả các bước cần thiết để điều khiển robot ngay lập tức, bao gồm nhận thức, ước tính trạng thái, hiểu không gian, lập kế hoạch và tạo mã.
Google DeepMind đang thực hiện một cách tiếp cận toàn diện để giải quyết vấn đề an toàn trong nghiên cứu của họ, từ điều khiển vận động cấp thấp đến hiểu ngữ nghĩa cấp cao. Họ cũng đang phát hành một bộ dữ liệu mới để đánh giá và cải thiện độ an toàn ngữ nghĩa trong AI và robot hiện thân. Họ đã phát triển một khuôn khổ để tự động tạo ra các hiến pháp dựa trên dữ liệu - các quy tắc được thể hiện trực tiếp bằng ngôn ngữ tự nhiên - để điều khiển hành vi của robot.
Google DeepMind đang hợp tác với các chuyên gia trong nhóm Đổi mới và Phát triển Có trách nhiệm cũng như Hội đồng Trách nhiệm và An toàn để đánh giá các tác động xã hội của công việc của họ. Họ cũng đang tham khảo ý kiến của các chuyên gia bên ngoài về những thách thức và cơ hội do AI thể hiện trong các ứng dụng robot.
Mô hình Gemini Robotics-ER cũng có sẵn cho những người thử nghiệm đáng tin cậy bao gồm Agile Robots, Agility Robots, Boston Dynamics và Enchanted Tools. Google DeepMind mong muốn khám phá khả năng của các mô hình này và tiếp tục phát triển AI cho thế hệ robot hữu ích hơn tiếp theo.
Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.