مقدمه ای بر الگوریتم یولو

YOLO (مخفف You Only Look Once به‌معنای «فقط یک‌بار نگاه کن») سیستم‌های تشخیص شیء بلادرنگ هستند که با فقط یک‌بار پردازش تصویر، قادر به شناسایی و طبقه‌بندی اشیاء موجود در آن هستند. به‌عبارت دیگر، مدل فقط یک‌بار به تصویر نگاه می‌کند و از همین «عبور واحد» می‌تواند تمام اشیاء موجود در تصویر را تشخیص دهد. این رویکرد با مدل‌های پیشین تفاوت دارد، چرا که آن‌ها برای پردازش یک تصویر، به چندین مرحله یا عبور مجزا نیاز داشتند. از آنجا که این فرآیند به‌صورت بلادرنگ انجام می‌شود، سرعت عملکرد آن بسیار بالا است.

در تشخیص شیء، YOLO نه‌تنها می‌تواند مکان دقیق شیء در تصویر را مشخص کند، بلکه قادر است نوع شیء را نیز تعیین نماید. این فرآیند با عبور تصویر از یک شبکه عصبی انجام می‌شود که به مدل امکان می‌دهد تمام اشیاء موجود را به‌طور هم‌زمان تشخیص دهد. با بهره‌گیری از پیش‌بینی شبکه‌بندی‌شده (grid-based prediction) و پیش‌بینی جعبه محدودکننده (bounding box)، مدل می‌تواند تشخیص دهد که آیا شیء خاصی در یک سلول یا جعبه مشخص قرار دارد یا خیر. همچنین، YOLO از احتمال کلاس (class probability) برای پیش‌بینی نوع شیء استفاده می‌کند، که به‌کمک آن، مدل می‌تواند تعیین کند شیء واقعاً چیست.

YOLO در مقایسه با روش‌های پیشین، مزایای متعددی دارد. همان‌طور که اشاره شد، این مدل بسیار سریع است و به همین دلیل می‌توان از آن در کاربردهایی مانند خودروهای خودران و نظارت تصویری بلادرنگ بهره گرفت. علاوه بر این، YOLO دارای دقت بالا است، به‌ویژه در مواجهه با تصاویر طبیعی، و به‌دلیل تحلیل کل تصویر در یک مرحله، دارای خطاهای مثبت کاذب کمتری است؛ عاملی که موجب دقت زمینه‌ای (contextual accuracy) بیشتر در تشخیص می‌شود.

تشخیص اشیاء (Object Detection) چیست؟

تشخیص اشیاء یکی از وظایف کلیدی در حوزه بینایی ماشین (Computer Vision) است که شامل شناسایی نوع اشیاء و مشخص کردن محل دقیق آن‌ها در تصاویر یا ویدیوها می‌شود. این فناوری نقش بسیار مهمی در کاربردهای مختلف مانند نظارت تصویری، خودروهای خودران و رباتیک دارد.

انواع الگوریتم‌های تشخیص شیء

الگوریتم‌های تشخیص اشیاء به‌طور کلی به دو دسته اصلی تقسیم می‌شوند:

الگوریتم‌های تک‌مرحله‌ای (Single-Shot Detectors)
مثل YOLO و SSD که فقط با یک بار عبور تصویر از شبکه، اشیاء را شناسایی و مکان‌یابی می‌کنند. این روش‌ها بسیار سریع هستند و برای پردازش بلادرنگ مناسب‌اند.
الگوریتم‌های دومرحله‌ای (Two-Stage Detectors)
مثل R-CNN و Faster R-CNN که ابتدا نواحی پیشنهادی برای حضور شیء را استخراج می‌کنند و سپس در مرحله دوم نوع و مکان آن‌ها را مشخص می‌سازند. این روش‌ها معمولاً دقت بالاتری دارند، اما کندتر هستند.

الگوریتم YOLO که توسط Joseph Redmon و همکارانش توسعه یافته، تشخیص اشیاء را به‌عنوان یک مسئله رگرسیون (Regression) در نظر می‌گیرد. در این روش، مدل تلاش می‌کند تا مستقیماً مختصات مکانی جعبه‌های محدودکننده (Bounding Boxes) و احتمال کلاس مربوط به هر شیء را پیش‌بینی کند. یکی از ویژگی‌های کلیدی YOLO این است که در زمان تست (Test Time)، به کل تصویر به‌صورت یک‌جا نگاه می‌کند. به همین دلیل، پیش‌بینی‌های آن تحت تأثیر زمینه کلی تصویر (Global Context) قرار می‌گیرند، نه فقط اطلاعات محلی یا بخشی از تصویر. YOLO به‌خاطر سرعت بسیار بالای پردازش معروف است و همین ویژگی باعث شده تا گزینه‌ای ایده‌آل برای کاربردهای بلادرنگ (Real-Time) مانند دوربین‌های نظارتی یا خودروهای خودران باشد.

در ادامه، فرآیند کلی YOLO را گام‌به‌گام بررسی می‌کنیم:

تقسیم تصویر به شبکه (Grid Division)

تصویر ورودی به YOLO به یک شبکه مربعی یا درواقع همان ماتریس (مثلاً 7×7 یا 13×13 بسته به نسخه مدل) تقسیم می‌شود. هر سلول (Cell) از این شبکه، مسئول بررسی وجود شیء در ناحیهٔ خود است.

پیش‌بینی جعبه‌ها (Bounding Box Prediction)

برای هر سلول شبکه، مدل تعدادی جعبه پیشنهادی (Anchor Boxes) تولید می‌کند. برای هر جعبه، مدل پیش‌بینی می‌کند:

مختصات مرکز (x, y)
عرض و ارتفاع (w, h)
امتیاز اطمینان (Confidence Score)

پیش‌بینی کلاس (Class Prediction)

برای هر جعبه پیشنهادی، مدل احتمال تعلق آن به کلاس‌های مختلف (مثلاً شخص، ماشین، حیوان و ...) را پیش‌بینی می‌کند. این پیش‌بینی‌ها با امتیاز اطمینان ترکیب می‌شوند تا خروجی نهایی به‌دست آید.

پس از آنکه YOLO در هر سلول از تصویر چندین جعبه پیش‌بینی (Bounding Box) همراه با امتیاز اطمینان و احتمال کلاس تولید می‌کند، لازم است خروجی‌ها پاک‌سازی و فیلتر شوند تا فقط نتایج دقیق و مفید باقی بمانند.

این مرحله بسیار حیاتی است، زیرا YOLO ممکن است برای یک شیء چندین پیش‌بینی با جعبه‌های هم‌پوشان داشته باشد یا حتی پیش‌بینی‌های اشتباه با اطمینان پایین تولید کند لزا فیلتر گذاری ضروری است..

1. Thresholding (آستانه‌گذاری امتیاز اطمینان)

هر جعبه پیش‌بینی دارای یک مقدار به نام Confidence Score است که نشان می‌دهد چقدر مدل به وجود شیء در آن مکان اطمینان دارد.

اگر این امتیاز از یک آستانه مشخص (مثلاً 0.5) کمتر باشد، آن جعبه رد می‌شود.
این کار باعث می‌شود فقط جعبه‌هایی با احتمال بالا باقی بمانند.

نتیجه: حذف پیش‌بینی‌های ضعیف یا تصادفی

2. Non-Maximum Suppression (NMS)

در بسیاری از موارد، مدل ممکن است برای یک شیء چندین جعبه هم‌پوشان با امتیاز بالا تولید کند. برای حل این مشکل از NMS استفاده می‌شود.

نحوه عملکرد:

از بین جعبه‌های پیش‌بینی‌شده برای یک کلاس خاص، جعبه‌ای با بالاترین امتیاز اطمینان انتخاب می‌شود.
سپس جعبه‌های دیگر که هم‌پوشانی زیادی با آن دارند (بر اساس معیار IoU)، حذف می‌شوند.
این روند تا زمانی ادامه دارد که هیچ جعبه هم‌پوشانی باقی نماند.

معیار کلیدی NMS:

IoU (Intersection over Union): نسبت مساحت اشتراک دو جعبه به مساحت کل آن‌ها.
جعبه‌هایی با IoU بالاتر از یک آستانه (مثلاً 0.5) حذف می‌شوند.

نتیجه: برای هر شیء فقط یک جعبه نهایی باقی می‌ماند.

انواع مدل‌های YOLO (You Only Look Once)

از زمان معرفی اولیه YOLO در سال 2016 تا امروز، نسخه‌های مختلفی از این الگوریتم توسعه یافته‌اند که هرکدام بهبودهایی در دقت، سرعت، معماری و قابلیت استفاده داشته‌اند. در ادامه، مروری بر مهم‌ترین نسخه‌های YOLO داریم که به اختصار توضیحات و بنچمارک آن در جدول زیر ذکر شده است:

نسخه YOLO	ویژگی کلیدی	سطح دقت	سرعت	وضعیت
YOLOv1	اولین نسخه، سریع اما دقت کم	⭐️⭐️	⚡⚡⚡	پایه
YOLOv2	پشتیبانی از ۹۰۰۰ کلاس	⭐️⭐️⭐️	⚡⚡⚡	پیشرفته‌تر
YOLOv3	چندمقیاسی، دقیق‌تر	⭐️⭐️⭐️⭐️	⚡⚡	پرکاربرد
YOLOv4	بهینه‌شده برای واقعیت	⭐️⭐️⭐️⭐️⭐️	⚡⚡⚡	حرفه‌ای
YOLOv5	پایتورچی، نسخه‌های متنوع	⭐️⭐️⭐️⭐️	⚡⚡⚡	محبوب
YOLOv6	سبک، مخصوص Edge	⭐️⭐️⭐️	⚡⚡⚡⚡	سریع و صنعتی
YOLOv7	پشتیبانی از چند تسک	⭐️⭐️⭐️⭐️⭐️	⚡⚡⚡	جامع
YOLOv8	مدرن، ساده در راه‌اندازی	⭐️⭐️⭐️⭐️⭐️	⚡⚡⚡⚡	توصیه‌شده
YOLO-NAS	معماری بهینه‌شده با NAS	⭐️⭐️⭐️⭐️⭐️	⚡⚡⚡⚡	هوشمند
YOLO‑World	تشخیص کلاس باز	⭐️⭐️⭐️⭐️⭐️	⚡⚡⚡	نوآورانه
منبع: data2learn.ir

برای یادگیری یا توسعه پروژه‌ها، نسخه‌های YOLOv5 و YOLOv8 گزینه‌های ایده‌آل هستند. نسخه‌های جدید مانند YOLO-NAS و YOLO-World نیز برای کاربردهای خاص و پیشرفته پیشنهاد می‌شوند.

جمع‌بندی

الگوریتم YOLO یکی از سریع‌ترین و مؤثرترین روش‌ها برای تشخیص اشیاء بلادرنگ در دنیای هوش مصنوعی است. از YOLOv1 تا YOLOv11 و YOLO-NAS، این مدل‌ها پیوسته بهبود یافته‌اند تا نیازهای مختلف در صنایع مختلف از جمله نظارت تصویری، خودروهای خودران، تحلیل ویدیو، رباتیک و بسیاری از حوزه‌های دیگر را برآورده کنند.

انتخاب نسخه مناسب از YOLO بستگی به پروژه‌ی شما دارد. اگر نیاز به سرعت بالا و راه‌اندازی ساده دارید، YOLOv5 و YOLOv8 گزینه‌های مناسبی هستند. اگر با Edge Deviceها کار می‌کنید، YOLOv6، و اگر به دنبال قابلیت‌های پیشرفته‌تر هستید، YOLO-World می‌تواند انتخاب مناسبی باشد.

در ادامه، آموزش مرحله‌به‌مرحله‌ی پیاده‌سازی و آموزش مدل YOLOv8 برای تشخیص اشیاء را بررسی خواهیم کرد. اگر به دنبال ورود عملی به دنیای بینایی ماشین و توسعه سیستم‌های هوشمند هستید، این آموزش نقطه‌ی شروعی فوق‌العاده برای شما خواهد بود.

برای دسترسی به آموزش YOLO همراه با کدنویسی پایتون، دیتاست، و تمرین‌های پروژه‌محور، می‌توانید صفحه‌ی دوره‌های ما را بررسی کنید
مشاهده دوره‌های آموزش هوش مصنوعی

معرفی کامل الگوریتم یولو YOLO