Ngân hàng đồng loạt hạ giá bán USD sau khi NHNN can thiệp thị trường
Investing.com -- Meta vừa công bố DINOv3, một mô hình thị giác máy tính tiên tiến đạt hiệu suất chưa từng có trong nhiều tác vụ thị giác khác nhau mà không cần dữ liệu được gắn nhãn.
Mô hình mới này mở rộng học tập tự giám sát để tạo ra các nền tảng thị giác đa năng vượt trội hơn các giải pháp chuyên biệt trong nhiều tác vụ bao gồm phát hiện đối tượng và phân đoạn ngữ nghĩa. DINOv3 được huấn luyện trên 1,7 tỷ hình ảnh và mở rộng lên 7 tỷ tham số, đại diện cho một mô hình lớn hơn 7 lần trên bộ dữ liệu lớn hơn 12 lần so với phiên bản tiền nhiệm.
Không giống các phương pháp trước đây phụ thuộc nhiều vào siêu dữ liệu do con người tạo ra như chú thích web, DINOv3 học độc lập mà không cần sự giám sát của con người. Phương pháp không cần nhãn này cho phép ứng dụng trong các lĩnh vực mà việc chú thích khan hiếm, tốn kém hoặc không thể thu thập được.
Mô hình này tạo ra các đặc trưng thị giác độ phân giải cao giúp dễ dàng huấn luyện các bộ điều hợp nhẹ, dẫn đến hiệu suất vượt trội trong phân loại hình ảnh, phân đoạn ngữ nghĩa và theo dõi đối tượng trong video. Lần đầu tiên, một nền tảng thị giác cố định duy nhất vượt trội hơn các giải pháp chuyên biệt trên nhiều tác vụ dự đoán mật độ.
Meta đang phát hành một bộ toàn diện các nền tảng được huấn luyện trước dưới giấy phép thương mại, bao gồm các mô hình nhỏ hơn vượt trội hơn các dẫn xuất dựa trên CLIP tương đương và các kiến trúc ConvNeXt thay thế cho các trường hợp sử dụng hạn chế tài nguyên. Công ty cũng đang chia sẻ các đầu đánh giá hạ nguồn và sổ tay mẫu để giúp các nhà phát triển xây dựng với DINOv3.
Các ứng dụng thực tế đã bắt đầu xuất hiện. Viện Tài nguyên Thế giới đang sử dụng DINOv3 để giám sát nạn phá rừng và hỗ trợ các nỗ lực phục hồi. So với DINOv2, mô hình mới giảm sai số trung bình trong đo chiều cao tán cây tại một khu vực ở Kenya từ 4,1 mét xuống còn 1,2 mét.
Phòng thí nghiệm Phản lực của NASA cũng đang tận dụng công nghệ này để xây dựng robot thám hiểm cho sao Hỏa, cho phép thực hiện nhiều tác vụ thị giác với yêu cầu tính toán tối thiểu.
Bản phát hành bao gồm toàn bộ mã huấn luyện DINOv3 và các mô hình được huấn luyện trước để thúc đẩy đổi mới trong thị giác máy tính và các ứng dụng đa phương thức trong các ngành công nghiệp bao gồm chăm sóc sức khỏe, giám sát môi trường, phương tiện tự lái, bán lẻ và sản xuất.
Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện & Điều Khoản của chúng tôi.