هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

راهنمای کامل در مورد حاشیه نویسی تصویر

تاریخ:

حاشیه نویسی تصویر در بینایی رایانه بسیار مهم است، زمینه ای که رایانه ها را قادر می سازد تا اطلاعات بصری را درست مانند انسان ها "دیدن" و "درک" کنند.

کاربردهای عالی هوش مصنوعی (AI) شامل خودروهای خودران، تشخیص تومور و هواپیماهای بدون سرنشین است. بدون حاشیه نویسی تصویر، بسیاری از این برنامه های بینایی کامپیوتری غیرممکن خواهند بود. برای ساخت مدل های بینایی کامپیوتری، حاشیه نویسی یا حاشیه نویسی تصاویر، اولین قدم بسیار مهم است. رویکردهای ارزشمند یادگیری ماشین و تشخیص تصویر به مجموعه داده ها متکی هستند.

حاشیه نویسی تصویر فرآیند افزودن لایه ای از ابرداده به یک تصویر است. این روشی است که افراد می توانند آنچه را که در یک تصویر می بینند توصیف کنند و از این اطلاعات می توان برای اهداف مختلفی استفاده کرد. به عنوان مثال، می تواند به شناسایی اشیاء در یک تصویر کمک کند یا زمینه بیشتری در مورد آنها ارائه دهد. همچنین می تواند اطلاعات مفیدی در مورد چگونگی ارتباط آن اشیا با یکدیگر به صورت مکانی یا زمانی ارائه دهد.

ابزارهای حاشیه نویسی تصویر به شما امکان می دهند حاشیه نویسی را به صورت دستی یا از طریق الگوریتم های یادگیری ماشین (MLA) ایجاد کنید. محبوب‌ترین روش MLA که در حال حاضر استفاده می‌شود، یادگیری عمیق نام دارد که از شبکه‌های عصبی مصنوعی (ANN) برای شناسایی ویژگی‌های درون تصاویر و تولید توضیحات متنی بر اساس آن ویژگی‌ها استفاده می‌کند.

دو مجموعه داده تصویر مشروح متداول عبارتند از مجموعه OID Google (Open Images Database) و مجموعه COCO مایکروسافت (Common Objects in Context) که هر کدام شامل 2.5 میلیون نمونه حاشیه نویسی شده در 328k تصویر است.


حاشیه نویسی تصویر چگونه کار می کند؟

تصاویر را می توان با استفاده از هر ابزار متن باز یا نرم افزار رایگان برای حاشیه نویسی داده ها حاشیه نویسی کرد. با این حال، شناخته شده ترین ابزار حاشیه نویسی تصویر منبع باز، ابزار حاشیه نویسی بینایی کامپیوتر (CVAT) است.

برای انتخاب ابزار حاشیه نویسی مناسب، درک کاملی از نوع داده های حاشیه نویسی و کار در دست اقدام ضروری است.

باید توجه زیادی داشته باشید:

  • روش تحویل داده ها
  • نوع حاشیه نویسی لازم
  • نوع فایلی که حاشیه نویسی باید در آن نگهداری شود

به دلیل گستره بسیار زیاد کارهای حاشیه نویسی تصویر و فرمت های ذخیره سازی، می توان از چندین فناوری برای حاشیه نویسی استفاده کرد. از حاشیه نویسی های اساسی در پلتفرم های منبع باز مانند CVAT و LabelImg تا حاشیه نویسی های پیچیده روی داده های مقیاس بزرگ با استفاده از فناوری هایی مانند V7.

علاوه بر این، حاشیه نویسی می تواند در سطح فردی یا گروهی انجام شود، یا می توان آن را با پیمانکاران مستقل یا مشاغلی که خدمات حاشیه نویسی ارائه می دهند، منعقد کرد.

یک نمای کلی از نحوه شروع حاشیه نویسی تصاویر در اینجا ارائه شده است.

1. تصویر خام یا داده های ویدیویی خود را منبع کنید

این اولین قدم در هر پروژه ای است و اطمینان از اینکه از ابزار مناسب استفاده می کنید ضروری است. هنگام کار با داده های تصویری، دو نکته اصلی وجود دارد که باید در نظر داشته باشید:

  • فرمت فایل تصویر یا ویدیوی شما – خواه jpeg باشد یا tiff. RAW (DNG، CR2) یا JPEG.
  • فرقی نمی‌کند با تصاویر دوربین یا کلیپ‌های ویدیویی از یک دستگاه تلفن همراه (مثلاً آیفون/اندروید) کار می‌کنید، انواع مختلفی از دوربین‌ها وجود دارد که هر کدام فرمت‌های فایل اختصاصی خود را دارند. اگر می‌خواهید انواع فایل‌ها را در یک مکان وارد کنید و آن‌ها را حاشیه‌نویسی کنید، فقط آن فرمت‌هایی را وارد کنید که به خوبی با هم کار می‌کنند (مانند عکس‌های jpeg + ویدیوهای h264).

2. دریابید که از چه نوع برچسب هایی باید استفاده کنید

نوع کار مورد استفاده برای آموزش الگوریتم ارتباط مستقیمی با نوع حاشیه نویسی دارد که باید استفاده شود. برای مثال، زمانی که الگوریتمی برای طبقه‌بندی تصاویر آموزش داده می‌شود، برچسب‌ها به شکل نمایش عددی کلاس‌های مختلف هستند. از سوی دیگر، اگر سیستم در حال یادگیری بخش‌بندی تصویر یا تشخیص شی باشد، از ماسک‌های معنایی و مختصات جعبه مرزی به عنوان حاشیه‌نویسی استفاده می‌شود.

3. برای هر شیئی که می خواهید برچسب گذاری کنید یک کلاس ایجاد کنید

مرحله بعدی این است که برای هر شی که می خواهید برچسب گذاری کنید یک کلاس ایجاد کنید. هر کلاس باید منحصر به فرد باشد و نشان دهنده یک شی با ویژگی های متمایز در تصویر شما باشد. به عنوان مثال، اگر در حال حاشیه نویسی تصویری از یک گربه هستید، یک کلاس می تواند «catFace» یا «catHead» نامیده شود. به طور مشابه، اگر تصویر شما دارای دو نفر باشد، یک کلاس می‌تواند دارای برچسب "Person1" و دیگری با عنوان "Person2" باشد.

برای انجام صحیح این کار (و جلوگیری از اشتباه)، توصیه می‌کنیم از یک ویرایشگر تصویر مانند GIMP یا Photoshop برای ایجاد لایه‌های اضافی برای هر شی جداگانه که می‌خواهید روی عکس اصلی خود برچسب‌گذاری کنید، استفاده کنید تا زمانی که بعداً این تصاویر را صادر کنیم. آنها با اشیاء دیگر از عکس های دیگر مخلوط نمی شوند.

4. با ابزار مناسب حاشیه نویسی کنید

ابزار مناسب برای کار در مورد حاشیه نویسی تصویر ضروری است. برخی از سرویس‌ها از حاشیه‌نویسی متن و تصویر، یا فقط صدا، یا فقط ویدیو پشتیبانی می‌کنند — امکانات بی‌پایان است. استفاده از سرویسی که با رسانه ارتباطی دلخواه شما کار می کند مهم است.

همچنین ابزارهایی برای انواع داده های خاص وجود دارد، بنابراین باید یکی را انتخاب کنید که از آنچه در ذهن دارید پشتیبانی کند. به عنوان مثال: اگر داده‌های سری زمانی را حاشیه‌نویسی می‌کنید (یعنی مجموعه‌ای از رویدادها در طول زمان)، ابزاری را می‌خواهید که به‌طور خاص برای این منظور طراحی شده باشد. اگر هنوز چنین ابزاری در بازار وجود ندارد، پس خودتان آن را بسازید!

5. مجموعه داده خود را نسخه کنید و آن را صادر کنید

هنگامی که تصاویر را حاشیه نویسی کردید، می توانید از کنترل نسخه برای مدیریت داده های خود استفاده کنید. این شامل ایجاد یک فایل جداگانه برای هر نسخه مجموعه داده، از جمله یک مهر زمانی در نام فایل آن است. سپس، هنگام وارد کردن داده ها به برنامه یا ابزار تجزیه و تحلیل دیگری، هیچ ابهامی در مورد نسخه مورد استفاده وجود نخواهد داشت.

به عنوان مثال، ممکن است اولین فایل حاشیه نویسی تصویر خود را "ImageAnnotated_V2"، به دنبال آن "ImageAnnotated_V3" در هنگام ایجاد تغییرات و غیره نامگذاری کنیم. سپس، پس از صادر کردن نسخه نهایی مجموعه داده با استفاده از این طرح نامگذاری (و ذخیره آن به عنوان یک فایل .csv)، در صورت نیاز، به اندازه کافی آسان خواهد بود که بعداً در صورت نیاز، آن را دوباره به یادداشت تصویر وارد کنید.


آیا می خواهید کارهای دستی تکراری را خودکار کنید؟ نرم افزار پردازش اسناد مبتنی بر گردش کار نانوشبکه ما را بررسی کنید. استخراج داده ها از فاکتورها، کارت های شناسایی یا هر سندی در خلبان خودکار!


وظایفی که به داده های مشروح نیاز دارند

در اینجا، ما نگاهی به وظایف مختلف بینایی رایانه ای خواهیم داشت که استفاده از داده های تصویر مشروح را ضروری می کند.

طبقه بندی تصویر

طبقه بندی تصویر یک وظیفه در یادگیری ماشینی است که در آن شما مجموعه ای از تصاویر و برچسب ها را برای هر تصویر دارید. هدف آموزش یک الگوریتم یادگیری ماشین برای تشخیص اشیاء در تصاویر است.

برای طبقه‌بندی تصاویر به داده‌های حاشیه‌نویسی نیاز دارید، زیرا یادگیری نحوه طبقه‌بندی تصاویر بدون دانستن برچسب‌های صحیح برای ماشین‌ها برای ماشین‌ها دشوار است. مثل این است که با چشم‌بند وارد اتاقی با 100 شی می‌شوید، یکی را به‌طور تصادفی انتخاب می‌کنید و سعی می‌کنید آن را حدس بزنید - اگر کسی از قبل پاسخ‌ها را به شما نشان دهد، خیلی بهتر عمل می‌کنید.

تشخیص و تشخیص اشیاء

تشخیص اشیاء وظیفه یافتن اشیاء خاص در یک تصویر است، در حالی که تشخیص شی شامل شناسایی آن اشیا است. یافتن چیزی که قبلاً ندیده اید به عنوان تشخیص بدیع شناخته می شود، در حالی که تشخیص شیئی که قبلاً دیده اید به عنوان تشخیص آشنا شناخته می شود.

تشخیص شی را می توان بیشتر به تخمین جعبه مرزی (که تمام پیکسل های متعلق به یک شی را پیدا می کند) و محلی سازی مخصوص کلاس (که تعیین می کند پیکسل به کدام کلاس تعلق دارد) تقسیم می شود. وظایف خاص عبارتند از:

  • شناسایی اشیاء در تصاویر
  • تخمین مکان آنها
  • تخمین اندازه آنها.

تقسیم بندی تصویر

تقسیم بندی تصویر فرآیند تقسیم یک تصویر به چند بخش است. این کار را می توان برای جداسازی اشیاء مختلف در تصویر یا جداسازی یک شی خاص از پس زمینه آن انجام داد. تقسیم بندی تصویر در بسیاری از صنایع و برنامه های کاربردی، از جمله بینایی کامپیوتر و تاریخچه هنر استفاده می شود.

تقسیم‌بندی تصویر چندین مزیت نسبت به ویرایش دستی دارد: سریع‌تر و دقیق‌تر از طرح‌های طراحی شده با دست است. به زمان آموزش اضافی نیاز ندارد. می توانید از یک مجموعه دستورالعمل برای چندین تصویر با شرایط نوری کمی متفاوت استفاده کنید. الگوریتم‌های خودکار به سرعت انسان‌ها اشتباه نمی‌کنند (و زمانی که اشتباه می‌کنند، رفع آنها آسان‌تر است).

تقسیم بندی معنایی

تقسیم بندی معنایی فرآیند برچسب گذاری هر پیکسل در یک تصویر با برچسب کلاس است. این ممکن است شبیه به طبقه بندی به نظر برسد، اما یک تمایز مهم وجود دارد: طبقه بندی یک برچسب (یا دسته) واحد را به کل تصویر اختصاص می دهد. تقسیم بندی معنایی چندین برچسب (یا دسته بندی) به پیکسل های جداگانه در تصویر می دهد.

تقسیم بندی معنایی نوعی تشخیص لبه است که مرزهای فضایی بین اشیاء در یک تصویر را شناسایی می کند. این به رایانه ها کمک می کند تا آنچه را که به آن نگاه می کنند بهتر درک کنند و به آنها امکان می دهد تصاویر و ویدیوهای جدید را در آینده بهتر دسته بندی کنند. همچنین برای ردیابی اشیاء - شناسایی محل قرارگیری اشیاء خاص در یک صحنه در طول زمان - و تشخیص اقدامات - به خاطر سپردن اعمال انجام شده توسط افراد یا حیوانات در عکس ها یا فیلم ها استفاده می شود.

تقسیم بندی نمونه

تقسیم بندی نمونه نوعی تقسیم بندی است که شامل شناسایی مرزهای بین اشیاء در یک تصویر است. تفاوت آن با سایر انواع تقسیم‌بندی از این جهت است که شما را ملزم می‌کند تا تعیین کنید که هر شیء کجا شروع می‌شود و کجا به پایان می‌رسد، نه اینکه صرفاً یک برچسب به هر منطقه اختصاص دهید. برای مثال، اگر به شما تصویری داده شود که در آن چندین نفر در کنار خودروهایشان در خروجی پارکینگ ایستاده‌اند، از تقسیم‌بندی نمونه برای تعیین اینکه کدام خودرو متعلق به کدام شخص است و بالعکس استفاده می‌شود.

نمونه ها اغلب به عنوان ویژگی های ورودی برای مدل های طبقه بندی استفاده می شوند زیرا حاوی اطلاعات بصری بیشتری نسبت به تصاویر استاندارد RGB هستند. علاوه بر این، آنها را می توان به راحتی پردازش کرد زیرا آنها فقط به گروه بندی به مجموعه ها بر اساس ویژگی های مشترک آنها (یعنی رنگ ها) نیاز دارند تا اینکه تکنیک های جریان نوری برای تشخیص حرکت را انجام دهند.

تقسیم بندی پانوپتیک

بخش‌بندی پانوپتیک تکنیکی است که به شما امکان می‌دهد داده‌ها را از منظرهای متعدد ببینید، که می‌تواند برای کارهایی مانند طبقه‌بندی تصویر، تشخیص و تشخیص اشیا و تقسیم‌بندی معنایی مفید باشد. تقسیم‌بندی پانوپتیک با رویکردهای یادگیری عمیق سنتی متفاوت است زیرا نیازی به آموزش کل مجموعه داده قبل از انجام یک کار ندارد. درعوض، بخش‌بندی پانوپتیک از یک الگوریتم استفاده می‌کند تا تشخیص دهد که کدام بخش‌های یک تصویر به اندازه کافی مهم هستند تا هنگام تصمیم‌گیری درباره اینکه چه اطلاعاتی توسط هر پیکسل در حسگر تصویر جمع‌آوری می‌شود، استفاده شود.


آیا می خواهید از اتوماسیون فرآیند رباتیک استفاده کنید؟ نرم افزار پردازش اسناد مبتنی بر گردش کار نانو شبکه را بررسی کنید. بدون کد. بدون پلت فرم دردسر.


راه حل حاشیه نویسی تصویر تجاری

حاشیه نویسی تصویر تجاری یک سرویس تخصصی است. نیاز به دانش و تجربه تخصصی دارد. همچنین برای انجام حاشیه نویسی به تجهیزات خاصی نیاز دارد. بنابراین، باید این کار را به یک شریک حاشیه نویسی تصویر تجاری برون سپاری کنید.

Viso Suite، یک پلت فرم بینایی کامپیوتری، دارای یک محیط حاشیه نویسی تصویر مبتنی بر CVAT به عنوان بخشی از عملکرد اصلی خود است. Suite برای فضای ابری ساخته شده است و از هر مرورگر وب قابل دسترسی است. Viso Suite یک ابزار جامع برای تیم های حرفه ای برای حاشیه نویسی تصاویر و ویدیوها است. جمع‌آوری داده‌های ویدئویی مشترک، حاشیه‌نویسی تصویر، آموزش و مدیریت مدل هوش مصنوعی، توسعه برنامه‌های کاربردی بدون کد، و عملیات‌های عظیم زیرساخت‌های بینایی کامپیوتری همگی امکان‌پذیر هستند.

از طریق استفاده از فناوری‌های بدون کد و کم‌کد، Viso می‌تواند روند ادغام آهسته را در سراسر چرخه عمر برنامه‌نویسی سرعت بخشد.

حاشیه نویسی تصویر چقدر طول می کشد؟

زمان بندی یک حاشیه نویسی به شدت به مقدار داده های مورد نیاز و پیچیدگی خود حاشیه نویسی بستگی دارد. به عنوان مثال، حاشیه نویسی هایی که فقط حاوی چند مورد از چند کلاس مختلف هستند، می توانند بسیار سریعتر از آنهایی که دارای اشیاء از هزاران کلاس هستند، پردازش شوند.

حاشیه نویسی هایی که فقط نیاز به حاشیه نویسی خود تصویر دارند، می توانند سریعتر از مواردی که شامل مشخص کردن چندین شی و نقاط کلیدی هستند تکمیل شوند.


اگر با فاکتورها و رسیدها کار می کنید یا نگران تأیید هویت هستید، Nanonets را بررسی کنید OCR آنلاین or استخراج کننده متن PDF برای استخراج متن از اسناد PDF رایگان. برای کسب اطلاعات بیشتر در مورد زیر کلیک کنید راه حل اتوماسیون سازمانی نانوشبکه ها.


چگونه داده های تصویر با کیفیت را پیدا کنیم؟

جمع آوری داده های حاشیه نویسی با کیفیت بالا چالش برانگیز است.

اگر داده‌هایی از نوع خاصی آزادانه در دسترس نباشد، حاشیه‌نویسی‌ها باید از داده‌های به دست آمده خام ساخته شوند. این معمولا مستلزم مجموعه ای از تست ها برای رد هرگونه احتمال خطا یا لکه دار شدن در داده های پردازش شده است.

کیفیت داده های تصویر به پارامترهای زیر بستگی دارد:

  • تعداد تصاویر حاشیه نویسی شده: هرچه تصاویر حاشیه نویسی بیشتری داشته باشید، بهتر است. علاوه بر این، هرچه مجموعه داده شما بزرگتر باشد، احتمال بیشتری برای ثبت شرایط و سناریوهای متنوعی که می توان برای آموزش استفاده کرد، بیشتر خواهد بود.
  • توزیع تصاویر حاشیه نویسی شده: توزیع یکنواخت بین کلاس‌های مختلف لزوماً مطلوب نیست، زیرا تنوع موجود در مجموعه داده‌های شما و بنابراین، کاربرد آن را محدود می‌کند. شما نمونه های زیادی از هر کلاس می خواهید تا بتوانید مدلی را آموزش دهید که در هر شرایطی عملکرد خوبی داشته باشد (حتی اگر نادر باشند).
  • تنوع در حاشیه نویسان: حاشیه نویسانی که می دانند چه کاری انجام می دهند، می توانند حاشیه نویسی با کیفیت بالا و با خطای کمی ارائه دهند. یک سیب بد کل دسته شما را خراب می کند! علاوه بر این، داشتن حاشیه‌نویس‌های متعدد، افزونگی را تضمین می‌کند و به اطمینان از سازگاری در گروه‌ها یا کشورهای مختلف که در آن‌ها ممکن است تغییرات در اصطلاحات یا قراردادها در مناطق مختلف وجود داشته باشد، کمک می‌کند.

در اینجا چند راه برای به دست آوردن داده های تصویر با کیفیت وجود دارد.

باز کردن مجموعه داده ها

وقتی صحبت از داده های تصویری می شود، دو نوع اصلی وجود دارد: باز و بسته. مجموعه داده های باز به صورت رایگان برای دانلود به صورت آنلاین و بدون محدودیت یا موافقت نامه مجوز در دسترس هستند. از سوی دیگر، مجموعه داده‌های بسته، تنها پس از درخواست مجوز و پرداخت هزینه قابل استفاده هستند - و حتی در این صورت، ممکن است قبل از دسترسی به کاربر، به مدارک اضافی نیاز داشته باشد.

برخی از نمونه‌های مجموعه داده‌های باز شامل فلیکر و ویکی‌مدیا کامانز (هر دو مجموعه‌ای از عکس‌های ارائه‌شده توسط افراد در سراسر جهان هستند). در مقابل، اندازه‌گیری‌های مجموعه داده‌های بسته شامل تصاویر ماهواره‌ای تجاری است که توسط شرکت‌هایی مانند DigitalGlobe یا Airbus Defense & Space فروخته می‌شود (این شرکت‌ها عکس‌های با وضوح بالا ارائه می‌دهند اما به قراردادهای گسترده نیاز دارند).

داده های وب را خراش دهید

Web scraping فرآیند جستجو در اینترنت برای انواع خاصی از عکس ها با استفاده از یک اسکریپت است که به طور خودکار جستجوهای زیادی را انجام می دهد و نتایج را دانلود می کند.

داده های به دست آمده توسط خراش دادن آنلاین معمولاً در حالت بسیار خام هستند و قبل از انجام هر گونه الگوریتم یا حاشیه نویسی نیاز به تمیز کردن گسترده دارند، اما به راحتی قابل دسترسی و جمع آوری سریع هستند. برای مثال، با استفاده از Scraping، می‌توانیم عکس‌هایی را که قبلاً به عنوان متعلق به یک دسته یا منطقه موضوعی خاص برچسب‌گذاری شده‌اند، بر اساس درخواستی که ارائه می‌کنیم، جمع آوری کنیم.

طبقه بندی، که فقط به یک برچسب برای هر تصویر نیاز دارد، با این حاشیه نویسی بسیار تسهیل می شود.

داده های خود حاشیه نویسی شده

نوع دیگری از داده ها خود حاشیه نویسی هستند. در این حالت، صاحب داده ها به صورت دستی آن را با برچسب های خود برچسب گذاری کرده است. به عنوان مثال، ممکن است بخواهید تصاویر خودروها و کامیون ها را با سال مدل فعلی آنها حاشیه نویسی کنید. می‌توانید تصاویر را از وب‌سایت‌های سازنده حذف کنید و با استفاده از ابزاری مانند Microsoft Cognitive Services، آنها را با مجموعه داده‌های خود مطابقت دهید.

این نوع حاشیه نویسی از برچسب‌گذاری جمع‌سپاری قابل اطمینان‌تر است، زیرا انسان‌ها در هنگام حاشیه‌نویسی داده‌های خود نسبت به زمانی که داده‌های شخص دیگری را برچسب‌گذاری می‌کنند، کمتر احتمال دارد که برچسب اشتباه یا اشتباه کنند. با این حال، هزینه بیشتری نیز دارد—شما برای این حاشیه نویسی ها برای نیروی انسانی پول خرج کرده اید.


آیا می خواهید کارهای دستی تکراری را خودکار کنید؟ صرفه جویی در زمان، تلاش و پول در حالی که افزایش بهره وری!


انواع حاشیه نویسی تصویر

حاشیه نویسی تصویر فرآیندی است برای افزودن اطلاعات به یک تصویر. انواع بسیاری از حاشیه نویسی ها را می توان روی یک تصویر اعمال کرد، مانند یادداشت های متنی، یادداشت های دست نویس، برچسب های جغرافیایی و غیره. در زیر به برخی از رایج ترین انواع تصاویر حاشیه نویسی می پردازیم:

1. طبقه بندی تصویر

طبقه بندی تصویر فرآیندی است که در آن یک برچسب کلاس به یک تصویر اختصاص می یابد. طبقه بندی کننده تصویر یک مدل یادگیری ماشینی است که یاد می گیرد تصاویر را به دسته های مختلف طبقه بندی کند. طبقه بندی کننده بر روی مجموعه ای از تصاویر برچسب دار آموزش داده شده و برای طبقه بندی تصاویر جدید استفاده می شود.

طبقه بندی دو نوع دارد: نظارت شده و بدون نظارت. طبقه‌بندی نظارت‌شده از داده‌های آموزشی با برچسب‌ها استفاده می‌کند، در حالی که نظارت‌نشده از داده‌های برچسب‌گذاری‌شده استفاده نمی‌کند، بلکه به تنهایی از نمونه‌های بدون برچسب در مجموعه داده یاد می‌گیرد.

2. تشخیص شی و تشخیص شی

تشخیص اشیا فرآیند یافتن اشیا در یک تصویر است. این شامل تعیین اینکه آیا اشیا وجود دارد یا خیر، چیست، کجا قرار دارند و تعداد آنها چقدر است. تشخیص اشیا، شناسایی انواع خاصی از اشیا بر اساس ظاهر آنهاست. به عنوان مثال، اگر به تصویری از فیل‌ها و زرافه‌ها (در میان دیگر موجودات) نگاه می‌کردیم، هدف ما این بود که تشخیص دهیم کدام یک فیل و کدام یک زرافه است. این دو کار - تشخیص شی و تشخیص شی - اغلب برای دقت بیشتر با هم استفاده می شوند. با این حال، آنها همچنین می توانند به طور مستقل انجام شوند. هدف تشخیص اشیاء این است که اطمینان حاصل شود که همه چیز در یک تصویر به درستی شناسایی شده است (یعنی هر سگ به عنوان یک سگ برچسب گذاری شده است). هدف از تشخیص شی فقط تا حدی مربوط به برچسب زدن درست همه چیز است. در عوض، بر شناسایی انواع خاصی از چیزها در یک تصویر (یعنی همه سگ ها اما نه گربه ها) تمرکز می کند.

3. تقسیم بندی تصویر

بخش بندی یک تصویر شامل تقسیم آن به قطعات کوچکتر و قابل کنترل تر است. این به طور گسترده در بینایی کامپیوتر و برنامه های پردازش تصویر استفاده می شود. از تقسیم بندی تصویر می توان برای شناسایی اشیاء در تصاویر و جداسازی آنها از پس زمینه استفاده کرد.

تقسیم بندی تصویر بیشتر به سه دسته تقسیم می شود:

تقسیم بندی معنایی: تقسیم بندی معنایی محدودیت های بین چیزهای مفهومی معادل را نشان می دهد. این تکنیک در صورتی به کار می رود که دانش دقیقی از حضور، موقعیت، اندازه یا شکل یک شی در داخل یک تصویر مورد نیاز باشد.

تقسیم بندی نمونه: اشیاء در یک تصویر با وجود، موقعیت، کمیت، و اندازه یا شکل آنها مشخص می شود که همه آنها را می توان از طریق تقسیم بندی نمونه تعیین کرد. بنابراین، تقسیم‌بندی نمونه، شناسایی هر شی در یک تصویر را تسهیل می‌کند.

تقسیم بندی پانوپتیک: تقسیم بندی معنایی و نمونه در تقسیم بندی پانوپتیک با هم ترکیب می شوند. به همین دلیل، بخش‌بندی پانوپتیک داده‌های برچسب‌دار معنایی (پس‌زمینه) و نمونه (شی) را می‌دهد.

4. تشخیص مرز

تشخیص مرز نوعی حاشیه نویسی تصویر است، به این معنی که برای توصیف مرزها یا لبه های یک تصویر استفاده می شود. به آن تشخیص لبه نیز می گویند. تشخیص مرز از یک الگوریتم ریاضی برای تشخیص محل قرارگیری لبه ها در یک تصویر و سپس کشیدن خطوط در اطراف آنها استفاده می کند. این می تواند به شما کمک کند تصاویر را تقسیم بندی کنید و اشیاء درون آنها را شناسایی کنید.

تشخیص مرز در بسیاری از برنامه های کاربردی مختلف، از جمله تشخیص اشیا و تشخیص اشیا، طبقه بندی تصویر، یا فقط برای استفاده شخصی شما به عنوان بخشی از گردش کار شما برای حاشیه نویسی تصاویر با برچسب هایی مانند "برچسب زدن چهره" یا "تشخیص ساختمان ها" استفاده می شود.

نتیجه

حاشیه نویسی تصویر فرآیند اختصاص دادن ویژگی ها به یک پیکسل یا یک منطقه در یک تصویر است. حاشیه نویسی تصویر می تواند به صورت خودکار، نیمه خودکار یا دستی توسط انسان انجام شود. نوع حاشیه نویسی به مورد استفاده بستگی دارد، و ضروری است قبل از انتخاب یک تکنیک نسبت به روش دیگر، درک کنید که چه نوع داده هایی را می خواهید جمع آوری کنید. ابزارهای زیادی برای انجام این کار وجود دارد، از برنامه های وب آنلاین ساده گرفته تا راه حل های نرم افزاری سازمانی که مستقیماً با سیستم مدیریت گردش کار شما (WMS) یکپارچه می شوند.


نانوت OCR و OCR API آنلاین بسیاری از جالب است موارد استفاده tکلاه می تواند عملکرد کسب و کار شما را بهینه کند، در هزینه ها صرفه جویی کند و رشد را تقویت کند. پیدا کردن چگونه موارد استفاده نانوشبکه ها می تواند برای محصول شما اعمال شود.


نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟