Đội ngũ nghiên cứu AI của Apple đã phát triển một mô hình mới có thể đột phá đáng kể trong cách máy móc nhận thức về độ sâu, tiềm năng thay đổi các ngành công nghệ từ thực tế tăng cường cho đến xe ô tô tự hành. Mô hình mới này, được đặt tên là Depth Pro, có khả năng tạo ra bản đồ chiều sâu sâu 3D chi tiết của không gian ngữ cảnh, từ dữ liệu của một bức ảnh 2D duy nhất chỉ trong tích tắc mà không cần dựa vào dữ liệu camera, thứ thường được hệ thống yêu cầu để đưa ra những dự đoán chiều sâu không gian.
Công nghệ này, được trình bày chi tiết trong bài nghiên cứu khoa học với tiêu đề “Depth Pro: Độ sâu đo lường đơn sắc sắc nét trong vòng chưa đầy một giây". Phải thừa nhận đây là một bước tiến lớn trong lĩnh vực ước tính độ sâu đơn sắc. Toàn bộ quy trình vận hành mô hình AI mới này của Apple chỉ cần đúng một bức ảnh để nội suy về độ sâu không gian.
Trong tương lai gần, mô hình AI và giải pháp này có thể giúp tạo ra những ứng dụng rộng rãi trên nhiều lĩnh vực, nơi máy móc phải có nhận thức không gian theo thời gian thực là yếu tố then chốt. Các nhà nghiên cứu đã tạo ra mô hình, được dẫn đầu bởi hai khoa học gia của Apple, Aleksei Bochkovskii và Vladlen Koltun, mô tả Depth Pro là một trong những hệ thống nhanh nhất và chính xác nhất trong số những thuật toán nhận diện chiều sâu không gian.
Ước lượng và dự đoán chiều sâu không gian ở trạng thái đơn sắc từ lâu đã là một nhiệm vụ đầy khó khăn. Với những kỹ thuật cũ, đo chiều sâu không gian đòi hỏi nhiều ảnh hoặc metadata quan trọng như tiêu cự camera, để đo lường chiều sâu một cách chính xác.
Depth Pro vượt qua những yêu cầu này, tạo ra bản đồ độ sâu có độ phân giải cao chỉ trong 0.3 giây trên một GPU máy trạm bình thường, không phải siêu GPU cho máy chủ AI. Mô hình có thể tạo ra các bản đồ chiều sâu không gian, với độ phân giải 2.25 megapixel, có độ sắc nét đặc biệt, nhận diện được cả những chi tiết nhỏ trong hình như tóc và thảm thực vật, thứ thường bị bỏ qua bởi các phương pháp đo chiều sâu khác.
“Những đặc tính này được kích hoạt bởi một số đóng góp kỹ thuật, bao gồm bộ chuyển đổi thị giác đa tỷ lệ, vận hành hiệu quả để dự đoán không gian với mật độ cao,” các nhà nghiên cứu giải thích trong báo cáo nghiên cứu của họ. Kiến trúc này cho phép mô hình AI xử lý đồng thời cả ngữ cảnh tổng thể của ảnh và nhận diện rồi xử lý các chi tiết tinh vi, một bước nhảy vọt lớn so với các mô hình chậm hơn, kém chính xác trước đây.
Điều thực sự làm Depth Pro nổi bật là khả năng ước tính, dự đoán cả chiều sâu không gian tương đối và tuyệt đối, một khả năng được gọi là “chiều sâu đo lường”.
Điều này có nghĩa là mô hình có thể cung cấp các phép đo trong thế giới thực, điều cần thiết cho các ứng dụng như thực tế tăng cường, nơi các vật thể ảo cần được đặt ở những vị trí chính xác trong không gian vật lý.
Và Depth Pro không yêu cầu huấn luyện mô hình AI quy mô lớn, dựa vào các tập dữ liệu cụ thể theo miền để đưa ra dự đoán chính xác. Cái này là một tính năng có tên “học không giám sát”. Điều này làm cho mô hình cực kỳ linh hoạt. Nó có thể được áp dụng cho nhiều loại hình ảnh khác nhau, mà không cần dữ liệu metadata cụ thể của camera hay cảm biến, thứ thường được yêu cầu trong các mô hình ước tính độ sâu.
“Depth Pro tạo ra bản đồ độ sâu đo lường với tỷ lệ tuyệt đối trên các ảnh ‘thực tế’ mà không cần siêu dữ liệu như thông số nội tại của camera,” tác giả giải thích. Sự linh hoạt này mở ra rất nhiều khả năng, từ nâng cao trải nghiệm AR đến cải thiện khả năng phát hiện và điều hướng chướng ngại vật của xe tự hành.
Sự linh hoạt này có ý nghĩa quan trọng đối với nhiều ngành công nghệ khác nhau. Một ví dụ, trong ngành thương mại điện tử, Depth Pro có thể cho phép người tiêu dùng xem đồ nội thất phù hợp với nhà của họ như thế nào bằng cách chỉ cần hướng camera điện thoại vào phòng và chụp một tấm hình:
Trong ngành ô tô, khả năng tạo ra bản đồ độ sâu có độ phân giải cao theo thời gian thực từ một camera duy nhất có thể cải thiện cách xe tự lái nhận thức về môi trường xung quanh, tăng cường khả năng xe tự điều hướng và cải thiện mức độ an toàn:
“Phương pháp lý tưởng có thể tạo ra bản đồ độ sâu đo lường, trong chế độ học không giám sát này, để tái tạo chính xác hình dạng đối tượng, bố cục cảnh quan và tỷ lệ tuyệt đối,” các nhà nghiên cứu viết, nhấn mạnh tiềm năng của mô hình trong việc giảm thời gian và chi phí liên quan đến đào tạo các mô hình AI phổ biến hơn.
Một trong những thách thức khó khăn nhất trong ước tính độ sâu là xử lý những gì được gọi là “pixel bay”, những pixel dường như trôi nổi giữa không trung do lỗi trong quá trình lập bản đồ chiều sâu. Depth Pro giải quyết trực tiếp vấn đề này, khiến nó đặc biệt hiệu quả cho các ứng dụng như tái tạo 3D và môi trường ảo, nơi độ chính xác là tối quan trọng.
Ngoài ra, Depth Pro vượt trội trong việc truy vết đường viền vật thể. Hiệu năng thực hiện bước này của Depth Pro vượt trội hơn các mô hình trước đây trong việc phân định rõ ràng các đối tượng. Các nhà nghiên cứu tuyên bố rằng nó vượt trội hơn các hệ thống khác“gấp nhiều lần, xét về độ chính xác của đường viền vật thể trong không gian”. Điều này rất quan trọng cho các ứng dụng yêu cầu nhận diện và phân biệt đối tượng chính xác, chẳng hạn như ghép ảnh và hình ảnh dùng trong mục đích y tế.
Trong động thái có thể đẩy nhanh việc áp dụng của nó, Apple đã phát hành Depth Pro dưới dạng mã nguồn mở. Mô hình AI, cùng với các trọng số mô hình được đào tạo trước, giờ đã có sẵn trên GitHub, cho phép các nhà phát triển và nhà nghiên cứu tự tải về, thử nghiệm và tinh chỉnh thêm công nghệ này. Kho lưu trữ bao gồm mọi thứ từ kiến trúc của mô hình đến các điểm kiểm tra được đào tạo trước, giúp người khác dễ dàng xây dựng dựa trên thành quả nghiên cứu của các nhà khoa học từ Apple.
Đội ngũ nghiên cứu cũng khuyến khích các nhà nghiên cứu trên toàn thế giới khám phá thêm tiềm năng của Depth Pro trong các lĩnh vực như robot học, sản xuất và chăm sóc sức khỏe. “Chúng tôi phát hành mã và trọng số tại https://github.com/apple/ml-depth-pro,” tác giả viết, cho biết những công bố vừa qua mới là sự khởi đầu cho quá trình hoàn thiện mô hình này.
Khi AI tiếp tục vượt qua ranh giới của những gì có thể, Depth Pro đặt ra một tiêu chuẩn mới về tốc độ và độ chính xác cho ước tính chiều sâu đơn sắc của không gian. Khả năng tạo ra bản đồ độ sâu chất lượng cao, theo thời gian thực từ một ảnh duy nhất có thể giúp ích rất nhiều cho các ngành ứng dụng công nghệ dựa vào nhận thức không gian của hệ thống máy móc.
Như các nhà nghiên cứu kết luận, “Depth Pro vượt trội hơn đáng kể so với tất cả các công trình nghiên cứu trước đây trong việc phân định sắc nét đường viền đối tượng, bao gồm cả các cấu trúc tinh tế như tóc, lông và thảm thực vật.”
Với bản phát hành mã nguồn mở, Apple ML Depth Pro và kỹ thuật tạo ra mô hình AI này có thể sớm trở thành một phần không thể thiếu của các ngành công nghiệp từ lái xe tự động đến thực tế tăng cường, từ đó thay đổi cách máy móc và con người tương tác với môi trường 3D.
Theo Venture Beat Nguồn:tinhte.vn/thread/apple-ml-depth-pro-mo-hinh-ai-du-doan-chieu-sau-khong-gian-ung-dung-tu-ar-y-te-den-xe-tu-lai.4003732/