O3D-SIM se construye proyectando máscaras 2D y embeddings a 3D, utilizando DBSCAN para el refinamiento inicial.O3D-SIM se construye proyectando máscaras 2D y embeddings a 3D, utilizando DBSCAN para el refinamiento inicial.

Construyendo Representación 3D de Conjunto Abierto: Fusión de Características y Combinación Geométrico-Semántica

2025/12/15 01:00

Abstracto y 1 Introducción

  1. Trabajos Relacionados

    2.1. Navegación de Visión y Lenguaje

    2.2. Comprensión Semántica de Escenas y Segmentación de Instancias

    2.3. Reconstrucción de Escenas 3D

  2. Metodología

    3.1. Recopilación de Datos

    3.2. Información Semántica de Conjunto Abierto desde Imágenes

    3.3. Creación de la Representación 3D de Conjunto Abierto

    3.4. Navegación Guiada por Lenguaje

  3. Experimentos

    4.1. Evaluación Cuantitativa

    4.2. Resultados Cualitativos

  4. Conclusión y Trabajo Futuro, Declaración de divulgación y Referencias

3.3. Creación de la Representación 3D de Conjunto Abierto

Para completar la construcción del O3D-SIM, ahora nos basamos en las incrustaciones de características extraídas para cada objeto proyectando la información del objeto al espacio 3D, agrupando y asociando objetos a través de múltiples imágenes para crear una representación completa de la escena 3D. El proceso de proyección de la información semántica en el espacio 3D y refinamiento del mapa se muestra en la Figura 3.

\ 3.3.1. La Inicialización del O3D-SIM

\ El mapa 3D se crea inicialmente utilizando una imagen seleccionada, que actúa como marco de referencia para inicializar nuestra representación de escena. Este paso establece la estructura fundamental de nuestra escena 3D, que luego se aumenta progresivamente con datos de imágenes posteriores para enriquecer la complejidad y el detalle de la escena.

\ Los datos de objetos dentro de una escena 3D se organizan como nodos dentro de un diccionario, que inicialmente comienza vacío. Los objetos se identifican a partir de la imagen inicial junto con los datos relacionados que abarcan características de incrustación e información sobre sus máscaras. Para cada objeto discernido en la imagen, se crea una nube de puntos 3D utilizando la información de profundidad disponible y la máscara del objeto. Esta formación de nube de puntos implica mapear los píxeles 2D en el espacio 3D, facilitado por los parámetros intrínsecos de la cámara y los valores de profundidad. Posteriormente, la pose de la cámara se utiliza para alinear con precisión la nube de puntos dentro del sistema de coordenadas global. Para refinar nuestra representación de escena, el filtrado de fondo elimina elementos identificados como fondo, como paredes o pisos. Estos elementos se excluyen del procesamiento posterior, particularmente en la etapa de agrupación, ya que no constituyen el enfoque principal de nuestra representación de escena.

\ El conjunto de nubes de puntos de objetos se procesa más utilizando agrupación DBSCAN[34] para el refinamiento de la representación. La nube de puntos se submuestrea mediante filtrado de cuadrícula voxel para reducir el número de puntos y la complejidad computacional mientras se preserva la estructura espacial de datos manejable. DBSCAN agrupa puntos que están estrechamente empaquetados mientras etiqueta puntos que se encuentran solos en regiones de baja densidad como ruido. En un paso posterior a la agrupación, se identifica el grupo más grande que típicamente corresponde al objeto principal de interés dentro de la nube de puntos. Esto ayuda a filtrar el ruido y los puntos irrelevantes, produciendo una representación más limpia del objeto de interés.

\ La pose de un objeto en el espacio 3D se determina calculando la orientación de una caja delimitadora, que ofrece una representación espacial concisa de la ubicación y el tamaño del objeto en el espacio 3D. Posteriormente, la salida del mapa 3D se inicializa con un conjunto inicial de nodos, encapsulando incrustaciones de características, datos de nube de puntos, cajas delimitadoras y el recuento de puntos en la nube de puntos asociada con cada nodo. Cada nodo también incluye información de origen para facilitar el rastreo de orígenes de datos y el enlace entre nodos y sus contrapartes de imagen 2D.

\ 3.3.2. Actualización Incremental del O3D-SIM

\ Después de inicializar la escena, actualizamos la representación con datos de nuevas imágenes. Este proceso asegura que nuestra escena 3D se mantenga actualizada y precisa a medida que se dispone de información adicional. Itera sobre cada imagen en la secuencia de imágenes; para cada nueva imagen, se extraen datos de múltiples objetos y se actualiza la escena.

\ Los objetos se detectan para cada nueva imagen, y se crean nuevos nodos como en la imagen inicial. Estos nodos temporales contienen los datos 3D para objetos recién detectados que deben fusionarse en la escena existente o agregarse como nuevos nodos. La similitud entre los nodos de escena recién detectados y existentes se determina combinando la similitud visual, derivada de incrustaciones de características, y la similitud espacial (geométrica), obtenida de la superposición de nubes de puntos, para formular una medida de similitud agregada. Si esta medida supera un umbral predeterminado, se considera que la nueva detección corresponde a un objeto existente en la escena. De hecho, el nodo recién detectado se fusiona con un nodo de escena existente o se agrega como un nuevo nodo.

\ La fusión implica la integración de nubes de puntos y el promedio de incrustaciones de características. Se calcula un promedio ponderado de incrustaciones CLIP y DINO, considerando la contribución de la información clave de origen, con preferencia por nodos con más identificadores de origen. Si es necesario agregar un nuevo nodo, se incorpora al diccionario de escena.

\ El refinamiento de la escena ocurre una vez que se han agregado objetos de todas las imágenes en la secuencia de entrada. Este proceso consolida nodos que representan los mismos objetos físicos pero que inicialmente se identificaron como separados debido a oclusiones, cambios de punto de vista o factores similares. Emplea una matriz de superposición para identificar nodos que comparten ocupación espacial y los fusiona lógicamente en un solo nodo. La escena se finaliza descartando nodos que no cumplen con el número mínimo de puntos o criterios de detección. Esto resulta en una representación de escena final refinada y optimizada - Mapas de Instancias Semánticas 3D de Conjunto Abierto, también conocidos como O3D-SIM.

\

:::info Autores:

(1) Laksh Nanwani, Instituto Internacional de Tecnología de la Información, Hyderabad, India; este autor contribuyó igualmente a este trabajo;

(2) Kumaraditya Gupta, Instituto Internacional de Tecnología de la Información, Hyderabad, India;

(3) Aditya Mathur, Instituto Internacional de Tecnología de la Información, Hyderabad, India; este autor contribuyó igualmente a este trabajo;

(4) Swayam Agrawal, Instituto Internacional de Tecnología de la Información, Hyderabad, India;

(5) A.H. Abdul Hafez, Universidad Hasan Kalyoncu, Sahinbey, Gaziantep, Turquía;

(6) K. Madhava Krishna, Instituto Internacional de Tecnología de la Información, Hyderabad, India.

:::


:::info Este artículo está disponible en arxiv bajo la licencia CC by-SA 4.0 Deed (Atribución-CompartirIgual 4.0 Internacional).

:::

\

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.