সারসংক্ষেপ এবং ১ ভূমিকা
সম্পর্কিত কাজ
২.১. ভিশন-এবং-ভাষা নেভিগেশন
২.২. সিমান্টিক দৃশ্য বোঝা এবং ইনস্ট্যান্স সেগমেন্টেশন
২.৩. ৩ডি দৃশ্য পুনর্নির্মাণ
পদ্ধতি
৩.১. ডাটা সংগ্রহ
৩.২. ছবি থেকে ওপেন-সেট সিমান্টিক তথ্য
৩.৩. ওপেন-সেট ৩ডি উপস্থাপনা তৈরি করা
৩.৪. ভাষা-নির্দেশিত নেভিগেশন
পরীক্ষা
৪.১. পরিমাণগত মূল্যায়ন
৪.২. গুণগত ফলাফল
উপসংহার এবং ভবিষ্যৎ কাজ, প্রকাশ বিবৃতি, এবং রেফারেন্স
O3D-SIM নির্মাণ সম্পূর্ণ করতে, আমরা এখন প্রতিটি বস্তুর জন্য নিষ্কাশিত ফিচার এম্বেডিংগুলির উপর ভিত্তি করে বস্তুর তথ্য ৩ডি স্পেসে প্রক্ষেপণ করে, ক্লাস্টারিং করে এবং একাধিক ছবি জুড়ে বস্তুগুলিকে সংযুক্ত করে একটি ব্যাপক ৩ডি দৃশ্য উপস্থাপনা তৈরি করি। সিমান্টিক তথ্যকে ৩ডি স্পেসে প্রক্ষেপণ করার এবং মানচিত্র পরিশোধন করার প্রক্রিয়াটি চিত্র ৩-এ দেখানো হয়েছে।
\ ৩.৩.১. O3D-SIM প্রাথমিকীকরণ
\ ৩ডি মানচিত্রটি প্রাথমিকভাবে একটি নির্বাচিত ছবি ব্যবহার করে তৈরি করা হয়, যা আমাদের দৃশ্য উপস্থাপনা প্রাথমিকীকরণের জন্য রেফারেন্স ফ্রেম হিসাবে কাজ করে। এই পদক্ষেপটি আমাদের ৩ডি দৃশ্যের মৌলিক কাঠামো প্রতিষ্ঠা করে, যা তারপর পরবর্তী ছবিগুলি থেকে ডেটা দিয়ে ক্রমাগত বর্ধিত হয়ে দৃশ্যের জটিলতা এবং বিস্তারিত সমৃদ্ধ করে।
\ একটি ৩ডি দৃশ্যের মধ্যে বস্তুগুলির ডেটা একটি অভিধানের মধ্যে নোড হিসাবে সংগঠিত করা হয়, যা প্রাথমিকভাবে খালি থাকে। তারপর প্রাথমিক ছবি থেকে বস্তুগুলি সনাক্ত করা হয় এবং সম্পর্কিত ডেটা যা এম্বেডিং ফিচার এবং তাদের মাস্ক সম্পর্কে তথ্য অন্তর্ভুক্ত করে। ছবিতে চিহ্নিত প্রতিটি বস্তুর জন্য, উপলব্ধ গভীরতা তথ্য এবং বস্তুর মাস্ক ব্যবহার করে একটি ৩ডি পয়েন্ট ক্লাউড তৈরি করা হয়। এই পয়েন্ট ক্লাউড গঠনে ২ডি পিক্সেলগুলিকে ৩ডি স্পেসে ম্যাপিং করা জড়িত, যা ক্যামেরার আভ্যন্তরীণ প্যারামিটার এবং গভীরতা মানগুলি দ্বারা সহজতর করা হয়। পরবর্তীতে, ক্যামেরার অবস্থান ব্যবহার করে পয়েন্ট ক্লাউডকে গ্লোবাল কোঅর্ডিনেট সিস্টেমের মধ্যে সঠিকভাবে সারিবদ্ধ করা হয়। আমাদের দৃশ্য উপস্থাপনা পরিশোধন করতে, ব্যাকগ্রাউন্ড ফিল্টারিং দেয়াল বা মেঝে হিসাবে চিহ্নিত উপাদানগুলি অপসারণ করে। এই উপাদানগুলি আরও প্রক্রিয়াকরণ থেকে বাদ দেওয়া হয়, বিশেষ করে ক্লাস্টারিং পর্যায়ে, কারণ এগুলি আমাদের দৃশ্য উপস্থাপনার মূল ফোকাস গঠন করে না।
\ বস্তুর পয়েন্ট ক্লাউডের সেটটি উপস্থাপনা পরিশোধনের জন্য DBSCAN[34] ক্লাস্টারিং ব্যবহার করে আরও প্রক্রিয়াকরণ করা হয়। পয়েন্ট ক্লাউডটি ভক্সেল গ্রিড ফিল্টারিং মাধ্যমে ডাউনস্যাম্পল করা হয় যাতে পয়েন্টের সংখ্যা এবং কম্পিউটেশনাল জটিলতা কমানো যায় এবং ডেটা স্থানিক কাঠামো সংরক্ষণ করা যায়। DBSCAN ঘনিষ্ঠভাবে একত্রিত পয়েন্টগুলিকে গ্রুপ করে এবং কম-ঘনত্বের অঞ্চলে একা থাকা পয়েন্টগুলিকে নয়েজ হিসাবে লেবেল করে। পোস্টক্লাস্টারিং পদক্ষেপে, সবচেয়ে বড় ক্লাস্টারটি সাধারণত পয়েন্ট ক্লাউডের মধ্যে আগ্রহের মূল বস্তুর সাথে সম্পর্কিত হিসাবে চিহ্নিত করা হয়। এটি নয়েজ এবং অপ্রাসঙ্গিক পয়েন্টগুলি ফিল্টার করতে সাহায্য করে, আগ্রহের বস্তুর একটি পরিষ্কার উপস্থাপনা তৈরি করে।
\ ৩ডি স্পেসে একটি বস্তুর অবস্থান একটি বাউন্ডিং বক্সের অভিমুখ গণনা করে নির্ধারণ করা হয়, যা ৩ডি স্পেসে বস্তুর অবস্থান এবং আকারের একটি সংক্ষিপ্ত স্থানিক উপস্থাপনা প্রদান করে। পরবর্তীতে, ৩ডি মানচিত্র আউটপুট প্রাথমিক নোডের সেট দিয়ে প্রাথমিকীকরণ করা হয়, যা ফিচার এম্বেডিং, পয়েন্ট ক্লাউড ডেটা, বাউন্ডিং বক্স এবং প্রতিটি নোডের সাথে সম্পর্কিত পয়েন্ট ক্লাউডে পয়েন্টের সংখ্যা অন্তর্ভুক্ত করে। প্রতিটি নোডে ডেটা উৎসের ট্র্যাকিং এবং নোড এবং তাদের ২ডি ছবি সমতুল্যের মধ্যে সংযোগ সহজ করার জন্য উৎস তথ্যও অন্তর্ভুক্ত থাকে।
\ ৩.৩.২. O3D-SIM এর ক্রমবর্ধমান আপডেট
\ দৃশ্য প্রাথমিকীকরণের পরে, আমরা নতুন ছবি থেকে ডেটা দিয়ে উপস্থাপনা আপডেট করি। এই প্রক্রিয়াটি নিশ্চিত করে যে অতিরিক্ত তথ্য উপলব্ধ হওয়ার সাথে সাথে আমাদের ৩ডি দৃশ্য সাম্প্রতিক এবং সঠিক থাকে। এটি ছবি সিকোয়েন্সের প্রতিটি ছবির জন্য পুনরাবৃত্তি করে; প্রতিটি নতুন ছবির জন্য, মাল্টি-অবজেক্ট ডেটা নিষ্কাশন করা হয় এবং দৃশ্য আপডেট করা হয়।
\ প্রতিটি নতুন ছবির জন্য বস্তুগুলি সনাক্ত করা হয় এবং প্রাথমিক ছবির মতো নতুন নোড তৈরি করা হয়। এই অস্থায়ী নোডগুলিতে নতুন সনাক্ত করা বস্তুগুলির জন্য ৩ডি ডেটা থাকে যা হয় বিদ্যমান দৃশ্যের সাথে মার্জ করতে হবে অথবা নতুন নোড হিসাবে যোগ করতে হবে। নতুন সনাক্ত করা এবং বিদ্যমান দৃশ্য নোডগুলির মধ্যে সাদৃশ্য ফিচার এম্বেডিং থেকে প্রাপ্ত দৃশ্যগত সাদৃশ্য এবং পয়েন্ট ক্লাউড ওভারল্যাপ থেকে প্রাপ্ত স্থানিক (জ্যামিতিক) সাদৃশ্য সংযুক্ত করে নির্ধারণ করা হয়, একটি সামগ্রিক সাদৃশ্য পরিমাপ তৈরি করতে। যদি এই পরিমাপ একটি পূর্বনির্ধারিত থ্রেশহোল্ড অতিক্রম করে, তাহলে নতুন সনাক্তকরণটি দৃশ্যে বিদ্যমান একটি বস্তুর সাথে সম্পর্কিত বলে মনে করা হয়। প্রকৃতপক্ষে, নতুন সনাক্ত করা নোডটি হয় একটি বিদ্যমান দৃশ্য নোডের সাথে মার্জ করা হয় অথবা একটি নতুন নোড হিসাবে যোগ করা হয়।
\ মার্জিং পয়েন্ট ক্লাউড এবং ফিচার এম্বেডিংগুলির গড় নেওয়া জড়িত। CLIP এবং DINO এম্বেডিংগুলির একটি ওজনযুক্ত গড় গণনা করা হয়, উৎস কী তথ্য থেকে অবদান বিবেচনা করে, আরও উৎস আইডেন্টিফায়ার সহ নোডগুলির জন্য অগ্রাধিকার সহ। যদি একটি নতুন নোড যোগ করতে হয়, তাহলে এটি দৃশ্য অভিধানে অন্তর্ভুক্ত করা হয়।
\ ইনপুট সিকোয়েন্সের সমস্ত ছবি থেকে বস্তুগুলি যোগ করার পরে দৃশ্য পরিশোধন ঘটে। এই প্রক্রিয়াটি সেই নোডগুলিকে একত্রিত করে যা একই ভৌত বস্তুকে প্রতিনিধিত্ব করে কিন্তু প্রাথমিকভাবে আড়াল, দৃষ্টিকোণ পরিবর্তন বা অনুরূপ কারণে আলাদা হিসাবে চিহ্নিত করা হয়েছিল। এটি স্থানিক অধিকার ভাগ করে নেওয়া নোডগুলি চিহ্নিত করতে একটি ওভারল্যাপ ম্যাট্রিক্স ব্যবহার করে এবং যৌক্তিকভাবে তাদের একটি একক নোডে মার্জ করে। ন্যূনতম পয়েন্ট সংখ্যা বা সনাক্তকরণ মানদণ্ড পূরণ করতে ব্যর্থ নোডগুলি বাদ দিয়ে দৃশ্যটি চূড়ান্ত করা হয়। এর ফলে একটি পরিশোধিত এবং অপ্টিমাইজড চূড়ান্ত দৃশ্য উপস্থাপনা হয় - ওপেনসেট ৩ডি সিমান্টিক ইনস্ট্যান্স ম্যাপস, অর্থাৎ, O3D-SIM।
\
:::info লেখকগণ:
(১) লক্ষ নানওয়ানি, ইন্টারন্যাশনাল ইনস্টিটিউট অফ ইনফরমেশন টেকনোলজি, হায়দরাবাদ, ভারত; এই লেখক এই কাজে সমানভাবে অবদান রেখেছেন;
(২) কুমারাদিত্য গুপ্ত, ইন্টারন্যাশনাল ইনস্টিটিউট অফ ইনফরমেশন টেকনোলজি, হায়দরাবাদ, ভারত;
(৩) আদিত্য মাথুর, ইন্টারন্যাশনাল ইনস্টিটিউট অফ ইনফরমেশন টেকনোলজি, হায়দরাবাদ, ভারত; এই লেখক এই কাজে সমানভাবে অবদান রেখেছেন;
(৪) স্বয়ম আগরওয়াল, ইন্টারন্যাশনাল ইনস্টিটিউট অফ ইনফরমেশন টেকনোলজি, হায়দরাবাদ, ভারত;
(৫) এ.এইচ. আব্দুল হাফেজ, হাসান কালিওনকু বিশ্ববিদ্যালয়, সাহিনবে, গাজিয়ান্টেপ, তুরস্ক;
(৬) কে. মাধব কৃষ্ণ, ইন্টারন্যাশনাল ইনস্টিটিউট অফ ইনফরমেশন টেকনোলজি, হায়দরাবাদ, ভারত।
:::
:::info এই পেপারটি arxiv-এ উপলব্ধ CC by-SA 4.0 Deed (অ্যাট্রিবিউশন-শেয়ারঅ্যালাইক 4.0 ইন্টারন্যাশনাল) লাইসেন্সের অধীনে।
:::
\


