Abstract en 1 Inleiding
Gerelateerde Werken
2.1. Visie-en-Taal Navigatie
2.2. Semantisch Scènebegrip en Instantiesegmentatie
2.3. 3D Scènereconstruktie
Methodologie
3.1. Gegevensverzameling
3.2. Open-set Semantische Informatie uit Afbeeldingen
3.3. Het Creëren van de Open-set 3D Representatie
3.4. Taalgestuurde Navigatie
Experimenten
4.1. Kwantitatieve Evaluatie
4.2. Kwalitatieve Resultaten
Conclusie en Toekomstig Werk, Openbaarmakingsverklaring en Referenties
Om de bouw van de O3D-SIM te voltooien, bouwen we nu voort op de feature embeddings die voor elk object zijn geëxtraheerd door objectinformatie naar 3D-ruimte te projecteren, te clusteren en objecten over meerdere afbeeldingen te associëren om een uitgebreide 3D-scènerepresentatie te creëren. Het proces van het projecteren van de semantische informatie in de 3D-ruimte en het verfijnen van de kaart wordt weergegeven in Figuur 3.
\ 3.3.1. De O3D-SIM Initialisatie
\ De 3D-kaart wordt aanvankelijk gemaakt met behulp van een geselecteerde afbeelding, die dient als referentiekader voor het initialiseren van onze scènerepresentatie. Deze stap legt de fundamentele structuur van onze 3D-scène vast, die vervolgens geleidelijk wordt uitgebreid met gegevens uit daaropvolgende afbeeldingen om de complexiteit en het detail van de scène te verrijken.
\ De gegevens voor objecten binnen een 3D-scène worden georganiseerd als knooppunten binnen een woordenboek, dat aanvankelijk leeg is. Objecten worden vervolgens geïdentificeerd uit de initiële afbeelding samen met de gerelateerde gegevens die embedding features en informatie over hun maskers omvatten. Voor elk object dat in de afbeelding wordt onderscheiden, wordt een 3D-puntenwolk gemaakt met behulp van de beschikbare diepte-informatie en het masker van het object. Deze puntenwolkvorming omvat het in kaart brengen van de 2D-pixels in 3D-ruimte, gefaciliteerd door de intrinsieke parameters van de camera en dieptewaarden. Vervolgens wordt de camerapositie gebruikt om de puntenwolk nauwkeurig uit te lijnen binnen het globale coördinatensysteem. Om onze scènerepresentatie te verfijnen, verwijdert achtergrondfiltering elementen die als achtergrond zijn geïdentificeerd, zoals muren of vloeren. Deze elementen worden uitgesloten van verdere verwerking, met name in de clusteringfase, omdat ze niet de hoofdfocus van onze scènerepresentatie vormen.
\ De verzameling puntenwolken van objecten wordt verder verwerkt met behulp van DBSCAN[34] clustering voor representatieverbetering. De puntenwolk wordt gedownsampled via voxel grid filtering om het aantal punten en de computationele complexiteit te verminderen terwijl de ruimtelijke structuur van de gegevens beheersbaar blijft. DBSCAN groepeert punten die dicht bij elkaar gepakt zijn terwijl punten die alleen in gebieden met lage dichtheid liggen als ruis worden gelabeld. In een post-clustering stap wordt het grootste cluster, dat typisch overeenkomt met het belangrijkste object van interesse binnen de puntenwolk, geïdentificeerd. Dit helpt bij het filteren van ruis en irrelevante punten, wat resulteert in een schonere representatie van het object van interesse.
\ De positie van een object in 3D-ruimte wordt bepaald door de oriëntatie van een begrenzingskader te berekenen, wat een beknopte ruimtelijke representatie biedt van de locatie en grootte van het object in 3D-ruimte. Vervolgens wordt de 3D-kaartuitvoer geïnitialiseerd met een initiële set knooppunten, die feature embeddings, puntenwolkgegevens, begrenzingskaders en het aantal punten in de puntenwolk geassocieerd met elk knooppunt omvatten. Elk knooppunt bevat ook broninformatie om het traceren van gegevensoorsprong en de koppeling tussen knooppunten en hun 2D-beeldtegenhangers te vergemakkelijken.
\ 3.3.2. Incrementele Update van de O3D-SIM
\ Na het initialiseren van de scène, updaten we de representatie met gegevens van nieuwe afbeeldingen. Dit proces zorgt ervoor dat onze 3D-scène actueel en nauwkeurig blijft naarmate aanvullende informatie beschikbaar komt. Het itereert over elke afbeelding in de afbeeldingssequentie; voor elke nieuwe afbeelding worden multi-objectgegevens geëxtraheerd en wordt de scène bijgewerkt.
\ Objecten worden gedetecteerd voor elke nieuwe afbeelding, en nieuwe knooppunten worden gemaakt zoals bij de initiële afbeelding. Deze tijdelijke knooppunten bevatten de 3D-gegevens voor nieuw gedetecteerde objecten die ofwel moeten worden samengevoegd met de bestaande scène of worden toegevoegd als nieuwe knooppunten. De gelijkenis tussen nieuw gedetecteerde en bestaande scèneknooppunten wordt bepaald door visuele gelijkenis, afgeleid van feature embeddings, en ruimtelijke (geometrische) gelijkenis, verkregen uit puntenwolkoverlap, te combineren om een geaggregeerde gelijkenismaat te formuleren. Als deze maat een vooraf bepaalde drempel overschrijdt, wordt de nieuwe detectie geacht overeen te komen met een bestaand object in de scène. Inderdaad, het nieuw gedetecteerde knooppunt wordt ofwel samengevoegd met een bestaand scèneknooppunt of toegevoegd als een nieuw knooppunt.
\ Samenvoegen omvat de integratie van puntenwolken en het middelen van feature embeddings. Een gewogen gemiddelde van CLIP- en DINO-embeddings wordt berekend, rekening houdend met de bijdrage van de bronsleutelinformatie, met een voorkeur voor knooppunten met meer bronidentificatoren. Als een nieuw knooppunt moet worden toegevoegd, wordt het opgenomen in het scènewoordenboek.
\ Scèneverfijning vindt plaats zodra objecten uit alle afbeeldingen in de invoersequentie zijn toegevoegd. Dit proces consolideert knooppunten die dezelfde fysieke objecten vertegenwoordigen maar aanvankelijk als afzonderlijk werden geïdentificeerd vanwege occlusies, veranderingen in gezichtspunt of vergelijkbare factoren. Het maakt gebruik van een overlapmatrix om knooppunten te identificeren die ruimtelijke bezetting delen en voegt ze logisch samen tot één knooppunt. De scène wordt afgerond door knooppunten weg te gooien die niet voldoen aan het minimale aantal punten of detectiecriteria. Dit resulteert in een verfijnde en geoptimaliseerde uiteindelijke scènerepresentatie - OpenSet 3D Semantic Instance Maps, oftewel O3D-SIM.
\
:::info Auteurs:
(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, India; deze auteur heeft gelijkelijk bijgedragen aan dit werk;
(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, India;
(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, India; deze auteur heeft gelijkelijk bijgedragen aan dit werk;
(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, India;
(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Turkije;
(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, India.
:::
:::info Dit artikel is beschikbaar op arxiv onder de CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International) licentie.
:::
\


