یادگیری ماشین بدون نظارت (Unsupervised Learning) چیست ؟

یادگیری بدون نظارت

unsupervised machine learning


یادگیری ماشین بدون نظارت

زمان تخمینی مطالعه: 18دقیقه

یادگیری ماشین بدون نظارت (Unsupervised Learning) یا بدون ناظر، یک رویکرد در حوزه یادگیری ماشین است که در آن الگوریتم‌ها به طور خودکار و بدون نیاز به برچسب‌ها یا راهنمایی‌های مستقیم، الگوها و ساختارهای مخفی در داده‌ها را شناسایی می‌کنند. در این رویکرد، الگوریتم‌ها به طور خودکار سعی می‌کنند الگوهای معناداری را در داده‌ها شناسایی کنند و از آن‌ها برای تفسیر و دسته‌بندی داده‌ها استفاده کنند. این الگوریتم‌ها برای این کار از روش‌هایی مانند خوشه‌بندی، تحلیل مولفه‌های اصلی، تحلیل خوشه‌های مخفی، شبکه‌های عصبی خودنظارتی و سایر روش‌های مبتنی بر یادگیری بدون نظارت استفاده می‌کنند. یادگیری ماشین بدون نظارت به طور گسترده در حوزه‌هایی مانند تشخیص الگو، تجزیه و تحلیل داده‌های بزرگ، تفسیر داده‌ها و کاوش داده‌ها مورد استفاده قرار می‌گیرد. این رویکرد می‌تواند به تشخیص الگوهای جدید، کاهش ابعاد داده‌ها، تعریف دسته‌بندی‌های تازه و برخی وظایف دیگر در حوزه یادگیری ماشین کمک کند.

یادگیری ماشین چیست؟

یادگیری ماشین یک زمینه اصلی در علم کامپیوتر و هوش مصنوعی است که به ماشین‌ها و سیستم‌های کامپیوتری قابلیت یادگیری براساس داده‌ها و تجربه را می‌دهد. هدف اصلی یادگیری ماشین، توسعه الگوریتم‌ها و مدل‌هایی است که ماشین‌ها را قادر می‌سازد بدون برنامه‌ریزی صریح و قوانین دقیق، از داده‌ها یاد بگیرند و با استفاده از آموخته‌های خود، وظایفی را انجام دهند و تصمیم‌گیری کنند. در فرایند یادگیری ماشین، ماشین‌ها از داده‌های ورودی مانند تصاویر، متن‌ها، صداها و سایر اطلاعات برخوردار می‌شوند و با استفاده از الگوریتم‌ها و مدل‌های آموزش دیده شده، قوانین و الگوهای موجود در داده‌ها را تشخیص می‌دهند و اطلاعات مفیدی استخراج می‌کنند. این فرایند شامل مراحلی مانند پیش‌پردازش داده‌ها، آموزش مدل‌ها، ارزیابی عملکرد و بهبود مدل‌ها است.

یادگیری بدون نظارت (Unsupervised Learning) چیست؟

یادگیری بدون ناظر (Unsupervised Learning) یک روش در حوزه یادگیری ماشین است که در آن، الگوریتم‌ها و مدل‌ها به طور خودکار و بدون نیاز به برچسب‌ها قادر به تشخیص ساختارها، الگوهای ناپیدا در داده‌ها هستند. در این رویکرد، هدف یادگیری بدون ناظر، کشف الگوهای معنادار است، به طوری که امکان استخراج اطلاعات مفید را در اختیار ما قرار دهد. در یادگیری بدون ناظر، الگوریتم‌ها به طور خودکار داده‌ها را بررسی کرده و تلاش می‌کنند الگوها، ساختارها یا خوشه‌های مشابه را در داده‌ها شناسایی کنند. این رویکرد به طور گسترده در وظایفی مانند تجزیه و تحلیل داده‌های بزرگ، تشخیص تغییرات در داده‌ها، توصیه‌گری، کاهش ابعاد داده‌ها، تولید مدل‌های نمایشی و تولید خودکار برچسب برای داده‌ها استفاده می‌شود.

مهم‌ترین ویژگی یادگیری بدون ناظر این است که الگوریتم‌ها فقط با دسترسی به داده‌های ورودی بدون هیچ نوع برچسب یا برخورداری از اطلاعات خارجی، به صورت خودکار الگوها و ساختارهای موجود در داده‌ها را شناسایی می‌کنند. این رویکرد می‌تواند به کشف اطلاعات مخفی و ناشناخته در داده‌ها کمک کند و نقش مهمی در تحلیل و فهم بهتر داده‌ها و ارتقای کیفیت تصمیم‌گیری‌ها و وظایف مختلف یادگیری ماشین داشته باشد.

تفاوت اصلی بین یادگیری نظارت‌شده و یادگیری بدون نظارت

تفاوت اصلی میان این دو پارادایم یادگیری ماشین، استفاده از مجموعه داده‌های برچسب‌دار است. به بیان دیگر، یادگیری نظارت شده (Supervised Learning) از داده‌های ورودی و خروجی برچسب‌دار استفاده می‌کند. این در حالی است که یادگیری بدون نظارت (Unsupervised Learning) چنین کاری را انجام نمی‌دهد. در یادگیری با ناظر، الگوریتم از مجموعه داده‌های آموزشی برچسب‌دار استفاده می‌کنند و از این خروجی‌های مشخص یاد می‌گیرد. به این صورت که پیش‌بینی‌های متوالی روی داده‌ها انجام می‌دهند و سعی می‌کنند با مقایسه خروجی خود با خروجی واقعی، پاسخ صحیح را شناسایی کرده و از آن یاد بگیرند. مدل‌های یادگیری با ناظر نسبت به مدل‌های یادگیری بدون ناظر عملکرد دقیق‌تری دارند، اما برای برچسب‌گذاری مناسب داده‌ها به عامل انسانی نیاز دارند. به طور مثال، یک مدل یادگیری با ناظر می‌تواند مدت زمان رفت و آمد شما را بر اساس زمان روز، شرایط آب و هوایی و غیره پیش‌بینی کند. با این‌حال، ابتدا باید آن را آموزش دهید تا بداند که نرخ یا وزن هوای بارانی زمان رانندگی را افزایش دهد. از دیگر تفاوت‌های اصلی بین یادگیری نظارت‌شده و یادگیری بدون نظارت در حوزه یادگیری ماشین به موارد زیر باید اشاره کرد:

موجودیت برچسب‌دار: در یادگیری نظارت‌شده، داده‌ها به همراه برچسب‌های متناظر یا خروجی مطلوب مربوطه در اختیار الگوریتم قرار می‌گیرند. برچسب‌ها به عنوان راهنمایی برای ماشین عمل می‌کنند. در حالی که در یادگیری بدون نظارت، داده‌ها بدون برچسب و بدون نظارت عامل انسانی در اختیار الگوریتم قرار می‌گیرند.

هدف وظیفه: در یادگیری نظارت‌شده، هدف اصلی آموزش مدل، پیش‌بینی دقیق برچسب‌ها یا خروجی مطلوب برای داده‌های جدید است. در حالی که در یادگیری بدون نظارت، هدف اصلی کشف الگوها، ساختارها، خوشه‌ها و ارتباطات مخفی در داده‌ها است.

نوع الگوریتم: در یادگیری نظارت‌شده، اغلب از الگوریتم‌هایی مانند شبکه‌های عصبی عمیق، ماشین بردار پشتیبانی (SVM)، درخت تصمیم و الگوریتم‌های مشابه استفاده می‌شود. در حالی که در یادگیری بدون نظارت، الگوریتم‌هایی مانند خوشه‌بندی، تحلیل مولفه‌های اصلی (PCA)، شبکه‌های عصبی خودنظارتی و سایر روش‌های مشابه استفاده می‌شود.

نوع داده‌ها: در یادگیری نظارت‌شده، داده‌ها به همراه برچسب‌ها در اختیار الگوریتم قرار می‌گیرند. این برچسب‌ها می‌توانند اعداد، دسته‌بندی‌ها، تصاویر و سایر اطلاعات مربوط به ویژگی‌ها یا خروجی مطلوب باشند. در یادگیری بدون نظارت، داده‌ها بدون برچسب و بدون اطلاعات خارجی از ارتباطات و ویژگی‌ها در اختیار الگوریتم قرار می‌گیرند.

هر دو روش یادگیری نظارت‌شده و بدون نظارت در حوزه یادگیری ماشین کاربردها و مزایا و محدودیت‌های خود را دارند و بسته به وظیفه و داده‌های مورد نظر، انتخاب مناسبی خواهند بود.

سایر تفاوت های کلیدی بین یادگیری نظارت شده و بدون نظارت

علاوه بر تفاوت‌هایی که در پاراگراف قبلی بررسی شد، تفاوت‌های دیگری نیز بین یادگیری نظارت‌شده و بدون نظارت وجود دارند:

نیاز به برچسب‌ها: در یادگیری نظارت‌شده، یکی از چالش‌های اساسی استفاده از برچسب‌ها است. برچسب‌گذاری داده‌ها ممکن است زمان‌بر و هزینه‌بر باشد و نیاز به تخصص انسانی داشته باشد. در یادگیری بدون نظارت، این نیاز به برچسب‌گذاری حذف می‌شود و می‌توان با استفاده از داده‌های بدون برچسب به صورت خودکار الگوها و ساختارها را استخراج کرد.

کمبود اطلاعات: در یادگیری نظارت‌شده، ممکن است در برخی موارد اطلاعات برچسب‌ها کافی نباشد یا برچسب‌ها خطا داشته باشند. در یادگیری بدون نظارت، به دلیل عدم وجود برچسب‌ها، می‌توان از تمام اطلاعات موجود در داده‌ها بهره برد و در صورتی که الگوریتم‌ها به درستی عمل کنند، می‌توان اطلاعات معناداری را استخراج کرد.

انعطاف‌پذیری در مدل‌سازی: در یادگیری نظارت‌شده، معمولا با فرضیاتی در مورد توزیع داده‌ها و رابطه بین ورودی و خروجی کار می‌شود. این فرضیات ممکن است با واقعیت‌ها مطابقت نداشته باشند و منجر به عملکرد ضعیف مدل شوند. در یادگیری بدون نظارت، این فرضیات کمتر مورد نیاز هستند و مدل می‌تواند تطبیق بهتری با توزیع داده‌ها داشته باشد.

کاربردهای متفاوت: یادگیری نظارت‌شده معمولا در مسایل پیش‌بینی، دسته‌بندی، تشخیص الگو و تصاویر و ترجمه مورد استفاده قرار می‌گیرد. در مقابل، یادگیری بدون نظارت بیشتر در مسائلی مانند خوشه‌بندی، تجزیه و تحلیل ساختار داده، تولید مدل‌های نمایشی و تشخیص تغییرات در داده‌ها مورد استفاده قرار می‌گیرد.

سه وظیفه‌ اصلی یادگیری بدون ناظر

یادگیری بدون نظارت به عنوان یک روش یادگیری ماشین، برای انجام سه وظیفه اصلی به شکل گسترده‌ای استفاده می‌شود:

خوشه‌بندی (Clustering): در این حوزه، هدف این است که داده‌ها را بر اساس شباهت‌های موجود در آن‌ها به گروه‌های مختلف تقسیم‌بندی کنیم. با استفاده از الگوریتم‌های خوشه‌بندی در یادگیری بدون نظارت، داده‌ها بدون نیاز به برچسب‌ها به گروه‌های مشابه تقسیم می‌شوند. این کاربرد در حوزه‌هایی مانند تحلیل داده‌ها، دسته‌بندی مشتریان، تشخیص ناهنجاری‌ها و سیستم‌های توصیه‌گر مورد استفاده قرار می‌گیرد.

کاهش ابعاد (Dimensionality Reduction): در این حوزه ، هدف این است که از طریق کاهش ابعاد داده‌ها، اطلاعات مهم و معنادار را استخراج کنیم. با استفاده از الگوریتم‌های تجزیه و تحلیل ساختار داده، ابعاد داده‌ها کاهش می‌یابد و نمایش جدیدی از داده‌ها به دست می‌آید که اطلاعات مهم‌تر را حفظ می‌کند. این کاربرد در حوزه‌هایی مانند تشخیص چهره، تحلیل متن، تشخیص الگو و تصویر و پردازش زبان طبیعی استفاده می‌شود.

مدل‌سازی مولد (Generative Modeling): در این زمینه، هدف این است که با استفاده از داده‌های موجود، نمونه‌های جدیدی را تولید کنیم که به شکل ویژگی‌های داده‌های آموزش دیده شده باشند. با استفاده از الگوریتم‌های تولید نمونه‌های جدید، مدل‌های احتمالاتی ساخته می‌شوند که بتوانند داده‌های جدید و معتبر را تولید کنند. این کاربرد در حوزه‌هایی مانند تولید تصویر، ترجمه ماشینی، تولید موسیقی و تولید متن مورد استفاده قرار می‌گیرد.

این سه کاربرد اصلی یادگیری بدون نظارت در حوزه یادگیری ماشین استفاده می‌شوند. همچنین، این وظایف می‌توانند با هم ترکیب شده و در یک مسئله خاص استفاده شوند، به عنوان مثال ترکیب خوشه‌بندی و تجزیه و تحلیل ساختار داده برای یافتن نمونه‌های اصلی یا مهم در داده‌ها استفاده می‌شود. این کاربرد به کاهش ابعاد داده‌ها می‌پردازد تا اطلاعات مهم و معنادار را استخراج کند. با استفاده از الگوریتم‌های تجزیه و تحلیل ساختار داده مانند تجزیه و تحلیل مولفه زیربنایی (Principal Component Analysis) و تجزیه عاملی (Factor Analysis)، می‌توان ابعاد داده‌ها را کاهش داده و نمایش جدیدی از داده‌ها به دست آورد که اطلاعات مهم‌تر را حفظ می‌کند.

تولید نمونه‌های جدید از داده‌ها نیز یکی دیگر از کاربردهای اصلی یادگیری بدون نظارت است. در این زمینه، هدف این است که با استفاده از داده‌های آموزشی، مدل‌های احتمالاتی ساخته شوند که بتوانند داده‌های جدید و معتبر را تولید کنند. این کاربرد در حوزه‌هایی مانند تولید تصویر، ترجمه ماشینی، تولید موسیقی و تولید متن مورد استفاده قرار می‌گیرد. به عنوان مثال، شبکه‌های مولد تخاصمی (Generative Adversarial Networks) یک روش برجسته در این زمینه هستند که به تولید نمونه‌های جدید و واقع‌گرایانه از تصاویر می‌پردازند.

مزایای استفاده از یادگیری بدون ناظر

یادگیری بدون ناظر (Unsupervised Learning) مزایای زیادی دارد که برخی از آن‌ها به شرح زیر هستند:

بدون نیاز به برچسب‌‌گذاری داده‌ها: در یادگیری بدون نظارت، داده‌ها بدون نیاز به برچسب‌ها یا نظارت، استفاده می‌شوند. به بیان دقیق‌تر، فرآیند آموزش مدل‌ها بر اساس داده‌های بدون برچسب انجام می‌شود که در بسیاری از موارد وجود برچسب‌های صحیح و کامل برای داده‌ها به راحتی در دسترس نیست. این مزیت باعث می‌شود که یادگیری بدون نظارت برای مجموعه‌های داده بزرگ و پیچیده قابل استفاده باشد.

کشف الگوهای مخفی: با استفاده از یادگیری بدون نظارت، می‌توان الگوهای مخفی و پنهان در داده‌ها را کشف کرد. این الگوها ممکن است به صورت خوشه‌ها، روابط وابستگی، تمایزها و ساختارهای پنهان در داده‌ها ظاهر شوند. یادگیری بدون نظارت می‌تواند به عنوان یک ابزار قدرتمند برای کشف این الگوها و ساختارها به کار گرفته شود.

کاهش ابعاد داده: با استفاده از الگوریتم‌های یادگیری بدون نظارت می‌توان ابعاد داده‌ها را کاهش داد. این حرف به معنای تبدیل داده‌ها به فضای کم‌بعدتری است که معمولا اطلاعات مهم‌تر را حفظ می‌کند. کاهش ابعاد داده می‌تواند منجر به ساده‌تر شدن و فشرده‌تر شدن داده‌ها و در نتیجه سهولت در مدل‌سازی و استفاده از داده‌ها شود.

تولید داده‌های جدید: یادگیری بدون نظارت به ایجاد مدل‌های احتمالاتی و تولید داده‌های جدید می‌پردازد. این مدل‌ها می‌توانند بر اساس داده‌های آموزشی، داده‌های جدید و معتبر را تولید کنند که با داده‌های آموزشی شباهت دارند. این قابلیت می‌تواند در حوزه‌هایی مانند تولید تصویر، ترجمه ماشینی و تولید محتوا بسیار مفید و خلاقانه باشد.

پیش‌پردازش داده‌ها: یادگیری بدون نظارت می‌تواند به عنوان یک ابزار موثر در پیش‌پردازش داده‌ها عمل کند. با استفاده از این روش، می‌توان داده‌ها را پاکسازی، نرمال‌سازی، استخراج ویژگی و تبدیل کرد. این مراحل پیش‌پردازش می‌توانند در بهبود عملکرد مدل‌های یادگیری ماشین و دسته‌بندی دقیق‌تر داده‌ها مفید باشند.

مزایای دیگری نیز برای یادگیری بدون نظارت وجود دارد و این مزایا بسته به مساله و حوزه کاربرد می‌توانند متفاوت باشند. با این حال، مهم است توجه داشته باشید که یادگیری بدون نظارت نیز با چالش‌های خود همراه است. به عنوان مثال، ارزیابی دقیق و بررسی عملکرد مدل‌ها در این حالت معمولا دشوارتر است و گاهی نیاز به تعیین معیارهای جدید و مناسب دارد. همچنین، ممکن است مدل‌های یادگیری بدون نظارت به سختی قابل تفسیر باشند و توضیحات دقیقی در مورد عملکرد آن‌ها قابل ارائه نباشد.

یادگیری ماشین بدون نظارت

معایب استفاده از یادگیری بدون ناظر

در شرایطی که یادگیری ماشین بدون نظارت (Unsupervised Learning) مزایای درخشانی دارد، اما معایبی نیز دارد که برخی از آن‌ها به شرح زیر هستند:

نیاز به حجم بزرگی از داده‌ها: یادگیری بدون نظارت بر روی حجم بزرگی از داده‌ها صورت می‌گیرد. برای اینکه الگوریتم‌های یادگیری بدون نظارت بتوانند الگوهای معناداری را کشف کنند، نیاز به داده‌های غنی و کامل دارند. به عنوان نمونه، در الگوریتم‌های خوشه‌بندی، تعداد زیادی داده‌ها و خوشه‌ها می‌توانند بر کیفیت و دقت خوشه‌بندی تاثیر بگذارند.

کیفیت نتایج قابل اعتماد: در یادگیری بدون نظارت، نبود برچسب‌های صحیح برای داده‌ها معضل بزرگی است. این مساله باعث می‌شود که مدل‌های یادگیری بدون نظارت نسبت به خطاهایی در کشف الگوها و ساختارها حساس باشند. بنابراین، نتایج حاصل از یادگیری بدون نظارت ممکن است کمتر قابل اعتماد و قابل تفسیر باشند و نیاز به ارزیابی و تایید بیشتری داشته باشند.

ناپایداری در کشف الگوها: در برخی موارد، الگوریتم‌های یادگیری بدون نظارت ممکن است الگوهای نادر و پنهان را به عنوان الگوهای معمول تشخیص دهند. به عبارت دیگر، این الگوریتم‌ها ممکن است به سمت حالتی جهش کنند که تنها در داده‌های آموزشی مشاهده شده است و در داده‌های جدید قابل تعمیم نباشد. این مشکل به عنوان “پیداکردن آشکارسازی ناحیه‌ها” شناخته می‌شود و می‌تواند استفاده از مدل در دنیای واقعی را با مخاطره جدی روبرو کند.

نیاز به پیش‌پردازش و تجهیزات قدرتمند: در برخی موارد، یادگیری بدون نظارت نیازمند پیش‌پردازش داده‌ها و استفاده از تجهیزات قدرتمند است. برخی از الگوریتم‌های یادگیری بدون نظارت ممکن است نیاز به محاسبات سنگین و مصرف منابع بالا داشته باشند. در این حالت، نیازمند سخت‌افزارهای سطح بالا به ویژه پردازنده‌های مرکزی و گرافیکی قدرتمند و حافظه‌های اصلی بالا هستیم که بتوانند اطلاعات را در زمان کوتاهی پردازش کرده و همچنین توانایی میزبانی اطلاعات در حافظه اصلی را داشته باشند. همچنین، نیازمند حافظه‌های جانبی از نوع SSD هستیم که فرآیند خواندن و نوتشن اطلاعات را در مدت زمان کوتاهی امکان‌پذیر کنند. بدیهی است در این حالت به سرورهای قدرتمند و رده بالایی نیاز داریم که قیمت آن‌ها به چند صد میلیون تومان می‌‌رسد.

کمبود تفسیرپذیری: یادگیری بدون نظارت معمولا به صورت غیرمستقیم الگوها و ویژگی‌های مورد توجه را کشف می‌کند. به عبارتی، ممکن است نتوانیم به راحتی تفسیر علت یا دلیل وجود یک الگو را درک کنیم. این مسئله برای برخی کاربردها مانند پزشکی یا حوزه‌هایی که نیاز به توجیه و تفسیر دقیق دارند، اهمیت دارد.

امکان بروز بیش‌برازش: در یادگیری بدون نظارت، احتمال وقوع بیش‌برازش (overfitting) وجود دارد. بیش‌برازش به معنی ساختن یک مدل است که به طور غیرمنطقی و بیش از حد به داده‌های آموزشی متکی است و توانایی تعمیم به داده‌های جدید را از دست بدهد. این مساله می‌تواند باعث کاهش قابلیت اعتماد و قدرت پیش‌بینی مدل شود.

چه الگوریتمی هایی در یادگیری ماشین بدون ناظر استفاده می‌شوند؟

هنگامی که صحبت از یادگیری ماشین بدون نظارت به میان می‌آید با انتخاب‌های مختلفی روبه‌رو هستیم. با این‌حال، برخی از الگوریتم‌ها عملکرد بهترین نسبت به نمونه‌های دیگر دارند. این الگوریتم‌ها به شرح زیر هستند:

  1. خوشه‌بندی (Clustering): این الگوریتم‌ها به دنبال گروه‌بندی داده‌ها بر اساس شباهت‌های آن‌ها هستند. مثال‌هایی از الگوریتم‌های خوشه‌بندی عبارتند از K-Means، DBSCAN و Hierarchical Clustering. در یادگیری ماشین بدون ناظر، خوشه‌بندی یک الگوریتم مهم است که به دنبال گروه‌بندی داده‌ها بر اساس شباهت‌های آن‌ها است. در این الگوریتم، هدف اصلی این است که داده‌ها را به گروه‌های مشابه یا خوشه‌ها تقسیم کند، به طوری که داده‌های هر خوشه شباهت زیادی به هم داشته باشند و از داده‌های خوشه‌های دیگر متمایز باشند. در خوشه‌بندی، الگوریتم‌ها با توجه به معیارهای شباهت مانند فاصله یا همبستگی، داده‌ها را بر اساس ویژگی‌هایشان به خوشه‌های مختلف تقسیم می‌کنند. به طور مثال، K-Means الگوریتمی است که به دنبال تقسیم داده‌ها به K خوشه است، به طوری که هر خوشه مرکز خود را داشته باشد و داده‌هایی که بیشترین شباهت را با مرکز خوشه مربوطه دارند، در آن خوشه قرار بگیرند. ‌الگوریتمDBSCAN بر اساس چگالی نقاط در فضای ویژگی‌ها، خوشه‌ها را تشخیص می‌دهد. نقاطی که در یک محدوده چگالی قرار دارند و به یکدیگر نزدیک هستند، به یک خوشه تعلق می‌گیرند. همچنین، خوشه‌بندی سلسله‌مراتبی بر اساس شباهت نقاط، خوشه‌بندی سلسله‌مراتبی را انجام می‌دهد. در این روش، خوشه‌های کوچکتر را با هم ترکیب کرده و خوشه‌های بزرگ‌تر و سلسله‌مراتبی را ایجاد می‌کند.
  2. کاهش بعد (Dimensionality Reduction): در این الگوریتم‌ها، تلاش می‌شود بعد فضای ویژگی‌ها کاهش یابد و نمایشی کم‌بعدتر از داده‌ها ایجاد شود. الگوریتم‌های معروف کاهش بعد عبارتند از PCA سرنام (Principal Component Analysis) و t-SNE سرنام (t-Distributed Stochastic Neighbor Embedding). به طور کلی، الگوریتم‌های کاهش بعد به منظور کاهش تعداد ویژگی‌ها یا ابعاد فضای ویژگی‌ها استفاده می‌شوند، به طوری که اطلاعات مهم و قابل استنتاج را از داده‌ها حفظ کنند. این الگوریتم‌ها برای مدل‌سازی و تجزیه تحلیل داده‌ها، کاهش پیچیدگی محاسباتی و بهبود عملکرد الگوریتم‌های یادگیری ماشین مورد استفاده قرار می‌گیرند. به طور مثال، PCA یکی از روش‌های محبوب کاهش بعد است. با استفاده از PCA، تلاش می‌شود بزرگ‌ترین واریانس ممکن در داده‌ها را در راستای بردارهای اصلی به دست آورد. بردارهای اصلی به ترتیب اهمیت، نمایشی کم‌بعدتر از داده‌ها را ایجاد می‌کنند. همچنین، t-SNE برای تفسیر و مصورسازی داده‌ها در فضای دو یا سه بعدی استفاده می‌شود. t-SNE با استفاده از احتمالات توزیع‌های شرطی بر روی داده‌ها، تلاش می‌کند تا نمایشی کم‌بعدتر از داده‌ها ایجاد کند که از نظر شباهت‌ها و فاصله‌هایشان در فضای بالا حفظ شود.
  3. تشخیص ناهنجاری (Anomaly Detection): این الگوریتم‌ها به دنبال شناسایی نمونه‌های ناهنجار یا خارج از الگو هستند. از الگوریتم‌های تشخیص ناهنجاری معروف باید به Isolation Forest و One-Class SVM (Support Vector Machines) اشاره کرد. الگوریتم‌های تشخیص ناهنجاری باید بدون استفاده از برچسب‌ها و تنها با استفاده از خصوصیات و الگوهای موجود در داده‌ها، نمونه‌های ناهنجار را تشخیص دهند. به طور مثال، روش مبتنی بر توزیع گاوسی (Gaussian-based methods) فرض می‌کنند که داده‌های عادی از یک توزیع گاوسی پیروی می‌کنند، در حالی که نمونه‌های ناهنجار از این الگوهای گاوسی تفاوت‌های قابل توجهی دارند. این روش‌ها شامل روش تخمین توزیع گاوسی، روش مدل‌سازی تخمینی (Kernel Density Estimation) و روش‌های مشتق‌گیری از توزیع گاوسی مانند روش (Maximum Likelihood) می‌شوند. همچنین، روش‌های مبتنی بر اندازه‌گیری فاصله (Distance-based methods) بر اساس مفهوم فاصله بین نمونه‌ها عمل می‌کنند. نمونه‌های ناهنجار معمولا فاصله بزرگی با نمونه‌های عادی دارند. روش‌های مشهور از این دست شامل روش نزدیک‌ترین همسایه (Nearest Neighbor) و روش‌های مبتنی بر اندازه‌گیری فاصله متوسط LOF سرنام (Local Outlier Factor) می‌شوند.
  4. الگوریتم‌های انتساب (Imputation): این الگوریتم‌ها برای تخمین و پر کردن مقادیر گمشده در داده‌ها استفاده می‌شوند. مثال‌هایی از الگوریتم‌های انتساب عبارتند از K-Nearest Neighbors و Mean Imputation.
  5. مدل‌های متغیر پنهان (Latent Variable Models): این الگوریتم‌ها سعی می‌کنند ساختار پنهانی در داده‌ها را کشف کنند و توضیح‌دهنده علت و دلیل وجود الگوها باشند. مثال‌هایی از الگوریتم‌های تفسیر داده‌ها عبارتند از کدگذارهای خودکار (Autoencoders) و الگوریتم‌های مبتنی بر مدل مخفی مارکوف (Hidden Markov Models).
  6. تجزیه و تحلیل جریان داده (Stream Data Analysis): این الگوریتم‌ها برای تحلیل داده‌های جریانی با سرعت بالا و برخط (Online) استفاده می‌شوند. مثال‌هایی از الگوریتم‌های تجزیه و تحلیل جریان داده عبارتند از CluStream و Online K-Means.

موارد یاد شده تنها چند نمونه از الگوریتم‌های یادگیری بدون ناظر هستند که امروزه به شکل گسترده‌ای مورد استفاده قرار می‌گیرند.

5/5 - (2 امتیاز)

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *