دیتاست توییتر فارسی

دسته بندی

متنی - توییت - (Tweets)

تعداد خطوط

113835

لیبل خورده؟

بله

فرمت لیبل

csv

فرمت فایل

zip

منبع داده

github.com/mahdizynali/persian-sentiment-nlp

توضیحات

مجموعه داده های کلاس بندی شده و لیبل خورده درک عواطف توییتر فارسی کلاس تعریف شده : ناراحتی - عصبانیت - شگفت زده - منزجر - لذت - ترس مناسب برای تسک های NLP و ماشین لرنینگ که به صورت کلی شامل ۱۱۳۸۳۵ خط داده متنی می‌باشد.

دیتاست های مرتبط

تصویری - رباتیک - (Robotic)
مجموعه غنی تصاویر لیبل خورده تشخیص توپ در زمین فوتبال ربات های انسانما که لیبل ها با فرمت Yolov11 می‌باشد همچنین داده ها به صورت train test valid تقسیم بندی شده است که کاملا آماده آموزش مدل می‌باشد.
۲,۴۹۹,۰۰۰

صوتی - متنوع - صوتی
مجموعه داده های صوتی فارسی در قالب mp3 و دسته بندی شده به ۷ کلاس با فرمت tsv مناسب برای تبدیل صوت به متن و بلعکس
تصویری - خودرو - (Car)
این دیتاست شامل خودرو های داخل ایران می باشد، انواع خودرو های سواری، اتوبوس، کامیون و... مناسب برای مدل های کلاس بندی که داده ها به صپرت تقسیم شده به سه دسته Train - Test - Valid و با فرمت Yolo می‌باشند.
متنی - اخبار - (News)
سری چهارم از مجموعه داده های اخبار فارسی جمع آوری شده از تمامی خبرگزاری های ایران به صورت کلاس بندی شده : اخبار ورزشی - سیاسی - بین الملل - اجتماعی - اقتصادی - فرهنگی - عکس - علمی - حوادث و لیبل خورده مناسب جهت تحلیل اخبار و تسک های NLP که لینک خبر و تایتل و خلاصه آن به تعداد 85000 خط داده موجود می‌باشد.
متنی - اخبار - (News)
مجموعه داده های اخبار فارسی جمع آوری شده از تمامی خبرگزاری های ایران به صورت کلاس بندی شده : اخبار ورزشی - سیاسی - بین الملل - اجتماعی - اقتصادی - فرهنگی - عکس - علمی - حوادث و لیبل خورده مناسب جهت تحلیل اخبار و تسک های NLP که لینک خبر و تایتل و خلاصه آن به تعداد ۶۶۸۰۵ تا موجود می‌باشد.
متنی - اخبار - (News)
سری سوم از مجموعه داده های اخبار فارسی جمع آوری شده از تمامی خبرگزاری های ایران به صورت کلاس بندی شده : اخبار ورزشی - سیاسی - بین الملل - اجتماعی - اقتصادی - فرهنگی - عکس - علمی - حوادث و لیبل خورده مناسب جهت تحلیل اخبار و تسک های NLP که لینک خبر و تایتل و خلاصه آن به تعداد ۵۵۶۴۹ خط داده موجود می‌باشد.
تصویری - نوار کانوایر - (conveyor)
دیتاست نوار کانوایر نخی به همراه تخم مرغ های لیبل خورده با فرمت لیبل json از سایت supervisely که با استفاده از متود های آگمنت میتوان تعداد آن را تا سه برابر رساند.
۴,۹۷۰,۰۰۰

تصویری - متنوع - تصویری
مجموعه داده های آتش و دود از نما های مختلف و مکان های متفاوت نظیر ساختمان ها و خیابان ها و بندر ها و فرودگاه ها و ... تهیه شده با فرمت YOLO و آگمنت شده و غنی شده مناسب برای تسک های تشخیص آتش و دود با دوربین های مداربسته و ...
متنی - ماشین لرنینگ - (متنی)
مجموعه ۴۸ هزار عددی از نام کشور ها و پایتخت ها به همراه جمعیت و طول و عرض جغرافیایی و ... مناسب جهت تسک های ماشین لرنینگ
تصویری - پزشکی - (Medical)
مجموعه دیتاست عکس MRI تومور مغزی مناسب جهت تسک های سمنتیک سگمنت و آنالیز عکس های پزشکی که فرمت داده ها و لیبل ها TIF بوده اصلی می‌باشد. همچنین به کمک روش های غنی سازی دیتاست (Augmentation) امکان ایجاد تصاویر بالغ بر ۲۰۰۰۰ عدد نیز می‌باشد.
تصویری - رباتیک - (Robotic)
دیتاست سمنتیک سگمنت (ناحیه بندی) زمین فوتبال ربات های انسانما به صورت لیبل خورده COCO Json آماده آموزش مدل.
۳,۴۹۹,۰۰۰

تصویری - OCR
مجموعه دیتاست تشخیص حروف پلاک ماشین های ایرانی (OCR) در قالب ۶ سری فایل با فرمت YOLO که لیبل خورده و آمده ترکیب و آگمنت و درن هایت ترین کردم مدل های ocr , lstm در کنار تسک های موقعیت یابی پلاک می‌باشد.
نظرات کاربران 0 نظر
برای ثبت نظر ابتدا وارد شوید.
هنوز نظری ثبت نشده است.