یادگیری ماشین بدون نظارت
زمان تخمینی مطالعه: 18دقیقه
یادگیری ماشین بدون نظارت (Unsupervised Learning) یا بدون ناظر، یک رویکرد در حوزه یادگیری ماشین است که در آن الگوریتمها به طور خودکار و بدون نیاز به برچسبها یا راهنماییهای مستقیم، الگوها و ساختارهای مخفی در دادهها را شناسایی میکنند. در این رویکرد، الگوریتمها به طور خودکار سعی میکنند الگوهای معناداری را در دادهها شناسایی کنند و از آنها برای تفسیر و دستهبندی دادهها استفاده کنند. این الگوریتمها برای این کار از روشهایی مانند خوشهبندی، تحلیل مولفههای اصلی، تحلیل خوشههای مخفی، شبکههای عصبی خودنظارتی و سایر روشهای مبتنی بر یادگیری بدون نظارت استفاده میکنند. یادگیری ماشین بدون نظارت به طور گسترده در حوزههایی مانند تشخیص الگو، تجزیه و تحلیل دادههای بزرگ، تفسیر دادهها و کاوش دادهها مورد استفاده قرار میگیرد. این رویکرد میتواند به تشخیص الگوهای جدید، کاهش ابعاد دادهها، تعریف دستهبندیهای تازه و برخی وظایف دیگر در حوزه یادگیری ماشین کمک کند.
یادگیری ماشین چیست؟
یادگیری ماشین یک زمینه اصلی در علم کامپیوتر و هوش مصنوعی است که به ماشینها و سیستمهای کامپیوتری قابلیت یادگیری براساس دادهها و تجربه را میدهد. هدف اصلی یادگیری ماشین، توسعه الگوریتمها و مدلهایی است که ماشینها را قادر میسازد بدون برنامهریزی صریح و قوانین دقیق، از دادهها یاد بگیرند و با استفاده از آموختههای خود، وظایفی را انجام دهند و تصمیمگیری کنند. در فرایند یادگیری ماشین، ماشینها از دادههای ورودی مانند تصاویر، متنها، صداها و سایر اطلاعات برخوردار میشوند و با استفاده از الگوریتمها و مدلهای آموزش دیده شده، قوانین و الگوهای موجود در دادهها را تشخیص میدهند و اطلاعات مفیدی استخراج میکنند. این فرایند شامل مراحلی مانند پیشپردازش دادهها، آموزش مدلها، ارزیابی عملکرد و بهبود مدلها است.
یادگیری بدون نظارت (Unsupervised Learning) چیست؟
یادگیری بدون ناظر (Unsupervised Learning) یک روش در حوزه یادگیری ماشین است که در آن، الگوریتمها و مدلها به طور خودکار و بدون نیاز به برچسبها قادر به تشخیص ساختارها، الگوهای ناپیدا در دادهها هستند. در این رویکرد، هدف یادگیری بدون ناظر، کشف الگوهای معنادار است، به طوری که امکان استخراج اطلاعات مفید را در اختیار ما قرار دهد. در یادگیری بدون ناظر، الگوریتمها به طور خودکار دادهها را بررسی کرده و تلاش میکنند الگوها، ساختارها یا خوشههای مشابه را در دادهها شناسایی کنند. این رویکرد به طور گسترده در وظایفی مانند تجزیه و تحلیل دادههای بزرگ، تشخیص تغییرات در دادهها، توصیهگری، کاهش ابعاد دادهها، تولید مدلهای نمایشی و تولید خودکار برچسب برای دادهها استفاده میشود.
مهمترین ویژگی یادگیری بدون ناظر این است که الگوریتمها فقط با دسترسی به دادههای ورودی بدون هیچ نوع برچسب یا برخورداری از اطلاعات خارجی، به صورت خودکار الگوها و ساختارهای موجود در دادهها را شناسایی میکنند. این رویکرد میتواند به کشف اطلاعات مخفی و ناشناخته در دادهها کمک کند و نقش مهمی در تحلیل و فهم بهتر دادهها و ارتقای کیفیت تصمیمگیریها و وظایف مختلف یادگیری ماشین داشته باشد.
تفاوت اصلی بین یادگیری نظارتشده و یادگیری بدون نظارت
تفاوت اصلی میان این دو پارادایم یادگیری ماشین، استفاده از مجموعه دادههای برچسبدار است. به بیان دیگر، یادگیری نظارت شده (Supervised Learning) از دادههای ورودی و خروجی برچسبدار استفاده میکند. این در حالی است که یادگیری بدون نظارت (Unsupervised Learning) چنین کاری را انجام نمیدهد. در یادگیری با ناظر، الگوریتم از مجموعه دادههای آموزشی برچسبدار استفاده میکنند و از این خروجیهای مشخص یاد میگیرد. به این صورت که پیشبینیهای متوالی روی دادهها انجام میدهند و سعی میکنند با مقایسه خروجی خود با خروجی واقعی، پاسخ صحیح را شناسایی کرده و از آن یاد بگیرند. مدلهای یادگیری با ناظر نسبت به مدلهای یادگیری بدون ناظر عملکرد دقیقتری دارند، اما برای برچسبگذاری مناسب دادهها به عامل انسانی نیاز دارند. به طور مثال، یک مدل یادگیری با ناظر میتواند مدت زمان رفت و آمد شما را بر اساس زمان روز، شرایط آب و هوایی و غیره پیشبینی کند. با اینحال، ابتدا باید آن را آموزش دهید تا بداند که نرخ یا وزن هوای بارانی زمان رانندگی را افزایش دهد. از دیگر تفاوتهای اصلی بین یادگیری نظارتشده و یادگیری بدون نظارت در حوزه یادگیری ماشین به موارد زیر باید اشاره کرد:
موجودیت برچسبدار: در یادگیری نظارتشده، دادهها به همراه برچسبهای متناظر یا خروجی مطلوب مربوطه در اختیار الگوریتم قرار میگیرند. برچسبها به عنوان راهنمایی برای ماشین عمل میکنند. در حالی که در یادگیری بدون نظارت، دادهها بدون برچسب و بدون نظارت عامل انسانی در اختیار الگوریتم قرار میگیرند.
هدف وظیفه: در یادگیری نظارتشده، هدف اصلی آموزش مدل، پیشبینی دقیق برچسبها یا خروجی مطلوب برای دادههای جدید است. در حالی که در یادگیری بدون نظارت، هدف اصلی کشف الگوها، ساختارها، خوشهها و ارتباطات مخفی در دادهها است.
نوع الگوریتم: در یادگیری نظارتشده، اغلب از الگوریتمهایی مانند شبکههای عصبی عمیق، ماشین بردار پشتیبانی (SVM)، درخت تصمیم و الگوریتمهای مشابه استفاده میشود. در حالی که در یادگیری بدون نظارت، الگوریتمهایی مانند خوشهبندی، تحلیل مولفههای اصلی (PCA)، شبکههای عصبی خودنظارتی و سایر روشهای مشابه استفاده میشود.
نوع دادهها: در یادگیری نظارتشده، دادهها به همراه برچسبها در اختیار الگوریتم قرار میگیرند. این برچسبها میتوانند اعداد، دستهبندیها، تصاویر و سایر اطلاعات مربوط به ویژگیها یا خروجی مطلوب باشند. در یادگیری بدون نظارت، دادهها بدون برچسب و بدون اطلاعات خارجی از ارتباطات و ویژگیها در اختیار الگوریتم قرار میگیرند.
هر دو روش یادگیری نظارتشده و بدون نظارت در حوزه یادگیری ماشین کاربردها و مزایا و محدودیتهای خود را دارند و بسته به وظیفه و دادههای مورد نظر، انتخاب مناسبی خواهند بود.
سایر تفاوت های کلیدی بین یادگیری نظارت شده و بدون نظارت
علاوه بر تفاوتهایی که در پاراگراف قبلی بررسی شد، تفاوتهای دیگری نیز بین یادگیری نظارتشده و بدون نظارت وجود دارند:
نیاز به برچسبها: در یادگیری نظارتشده، یکی از چالشهای اساسی استفاده از برچسبها است. برچسبگذاری دادهها ممکن است زمانبر و هزینهبر باشد و نیاز به تخصص انسانی داشته باشد. در یادگیری بدون نظارت، این نیاز به برچسبگذاری حذف میشود و میتوان با استفاده از دادههای بدون برچسب به صورت خودکار الگوها و ساختارها را استخراج کرد.
کمبود اطلاعات: در یادگیری نظارتشده، ممکن است در برخی موارد اطلاعات برچسبها کافی نباشد یا برچسبها خطا داشته باشند. در یادگیری بدون نظارت، به دلیل عدم وجود برچسبها، میتوان از تمام اطلاعات موجود در دادهها بهره برد و در صورتی که الگوریتمها به درستی عمل کنند، میتوان اطلاعات معناداری را استخراج کرد.
انعطافپذیری در مدلسازی: در یادگیری نظارتشده، معمولا با فرضیاتی در مورد توزیع دادهها و رابطه بین ورودی و خروجی کار میشود. این فرضیات ممکن است با واقعیتها مطابقت نداشته باشند و منجر به عملکرد ضعیف مدل شوند. در یادگیری بدون نظارت، این فرضیات کمتر مورد نیاز هستند و مدل میتواند تطبیق بهتری با توزیع دادهها داشته باشد.
کاربردهای متفاوت: یادگیری نظارتشده معمولا در مسایل پیشبینی، دستهبندی، تشخیص الگو و تصاویر و ترجمه مورد استفاده قرار میگیرد. در مقابل، یادگیری بدون نظارت بیشتر در مسائلی مانند خوشهبندی، تجزیه و تحلیل ساختار داده، تولید مدلهای نمایشی و تشخیص تغییرات در دادهها مورد استفاده قرار میگیرد.
سه وظیفه اصلی یادگیری بدون ناظر
یادگیری بدون نظارت به عنوان یک روش یادگیری ماشین، برای انجام سه وظیفه اصلی به شکل گستردهای استفاده میشود:
خوشهبندی (Clustering): در این حوزه، هدف این است که دادهها را بر اساس شباهتهای موجود در آنها به گروههای مختلف تقسیمبندی کنیم. با استفاده از الگوریتمهای خوشهبندی در یادگیری بدون نظارت، دادهها بدون نیاز به برچسبها به گروههای مشابه تقسیم میشوند. این کاربرد در حوزههایی مانند تحلیل دادهها، دستهبندی مشتریان، تشخیص ناهنجاریها و سیستمهای توصیهگر مورد استفاده قرار میگیرد.
کاهش ابعاد (Dimensionality Reduction): در این حوزه ، هدف این است که از طریق کاهش ابعاد دادهها، اطلاعات مهم و معنادار را استخراج کنیم. با استفاده از الگوریتمهای تجزیه و تحلیل ساختار داده، ابعاد دادهها کاهش مییابد و نمایش جدیدی از دادهها به دست میآید که اطلاعات مهمتر را حفظ میکند. این کاربرد در حوزههایی مانند تشخیص چهره، تحلیل متن، تشخیص الگو و تصویر و پردازش زبان طبیعی استفاده میشود.
مدلسازی مولد (Generative Modeling): در این زمینه، هدف این است که با استفاده از دادههای موجود، نمونههای جدیدی را تولید کنیم که به شکل ویژگیهای دادههای آموزش دیده شده باشند. با استفاده از الگوریتمهای تولید نمونههای جدید، مدلهای احتمالاتی ساخته میشوند که بتوانند دادههای جدید و معتبر را تولید کنند. این کاربرد در حوزههایی مانند تولید تصویر، ترجمه ماشینی، تولید موسیقی و تولید متن مورد استفاده قرار میگیرد.
این سه کاربرد اصلی یادگیری بدون نظارت در حوزه یادگیری ماشین استفاده میشوند. همچنین، این وظایف میتوانند با هم ترکیب شده و در یک مسئله خاص استفاده شوند، به عنوان مثال ترکیب خوشهبندی و تجزیه و تحلیل ساختار داده برای یافتن نمونههای اصلی یا مهم در دادهها استفاده میشود. این کاربرد به کاهش ابعاد دادهها میپردازد تا اطلاعات مهم و معنادار را استخراج کند. با استفاده از الگوریتمهای تجزیه و تحلیل ساختار داده مانند تجزیه و تحلیل مولفه زیربنایی (Principal Component Analysis) و تجزیه عاملی (Factor Analysis)، میتوان ابعاد دادهها را کاهش داده و نمایش جدیدی از دادهها به دست آورد که اطلاعات مهمتر را حفظ میکند.
تولید نمونههای جدید از دادهها نیز یکی دیگر از کاربردهای اصلی یادگیری بدون نظارت است. در این زمینه، هدف این است که با استفاده از دادههای آموزشی، مدلهای احتمالاتی ساخته شوند که بتوانند دادههای جدید و معتبر را تولید کنند. این کاربرد در حوزههایی مانند تولید تصویر، ترجمه ماشینی، تولید موسیقی و تولید متن مورد استفاده قرار میگیرد. به عنوان مثال، شبکههای مولد تخاصمی (Generative Adversarial Networks) یک روش برجسته در این زمینه هستند که به تولید نمونههای جدید و واقعگرایانه از تصاویر میپردازند.
مزایای استفاده از یادگیری بدون ناظر
یادگیری بدون ناظر (Unsupervised Learning) مزایای زیادی دارد که برخی از آنها به شرح زیر هستند:
بدون نیاز به برچسبگذاری دادهها: در یادگیری بدون نظارت، دادهها بدون نیاز به برچسبها یا نظارت، استفاده میشوند. به بیان دقیقتر، فرآیند آموزش مدلها بر اساس دادههای بدون برچسب انجام میشود که در بسیاری از موارد وجود برچسبهای صحیح و کامل برای دادهها به راحتی در دسترس نیست. این مزیت باعث میشود که یادگیری بدون نظارت برای مجموعههای داده بزرگ و پیچیده قابل استفاده باشد.
کشف الگوهای مخفی: با استفاده از یادگیری بدون نظارت، میتوان الگوهای مخفی و پنهان در دادهها را کشف کرد. این الگوها ممکن است به صورت خوشهها، روابط وابستگی، تمایزها و ساختارهای پنهان در دادهها ظاهر شوند. یادگیری بدون نظارت میتواند به عنوان یک ابزار قدرتمند برای کشف این الگوها و ساختارها به کار گرفته شود.
کاهش ابعاد داده: با استفاده از الگوریتمهای یادگیری بدون نظارت میتوان ابعاد دادهها را کاهش داد. این حرف به معنای تبدیل دادهها به فضای کمبعدتری است که معمولا اطلاعات مهمتر را حفظ میکند. کاهش ابعاد داده میتواند منجر به سادهتر شدن و فشردهتر شدن دادهها و در نتیجه سهولت در مدلسازی و استفاده از دادهها شود.
تولید دادههای جدید: یادگیری بدون نظارت به ایجاد مدلهای احتمالاتی و تولید دادههای جدید میپردازد. این مدلها میتوانند بر اساس دادههای آموزشی، دادههای جدید و معتبر را تولید کنند که با دادههای آموزشی شباهت دارند. این قابلیت میتواند در حوزههایی مانند تولید تصویر، ترجمه ماشینی و تولید محتوا بسیار مفید و خلاقانه باشد.
پیشپردازش دادهها: یادگیری بدون نظارت میتواند به عنوان یک ابزار موثر در پیشپردازش دادهها عمل کند. با استفاده از این روش، میتوان دادهها را پاکسازی، نرمالسازی، استخراج ویژگی و تبدیل کرد. این مراحل پیشپردازش میتوانند در بهبود عملکرد مدلهای یادگیری ماشین و دستهبندی دقیقتر دادهها مفید باشند.
مزایای دیگری نیز برای یادگیری بدون نظارت وجود دارد و این مزایا بسته به مساله و حوزه کاربرد میتوانند متفاوت باشند. با این حال، مهم است توجه داشته باشید که یادگیری بدون نظارت نیز با چالشهای خود همراه است. به عنوان مثال، ارزیابی دقیق و بررسی عملکرد مدلها در این حالت معمولا دشوارتر است و گاهی نیاز به تعیین معیارهای جدید و مناسب دارد. همچنین، ممکن است مدلهای یادگیری بدون نظارت به سختی قابل تفسیر باشند و توضیحات دقیقی در مورد عملکرد آنها قابل ارائه نباشد.
معایب استفاده از یادگیری بدون ناظر
در شرایطی که یادگیری ماشین بدون نظارت (Unsupervised Learning) مزایای درخشانی دارد، اما معایبی نیز دارد که برخی از آنها به شرح زیر هستند:
نیاز به حجم بزرگی از دادهها: یادگیری بدون نظارت بر روی حجم بزرگی از دادهها صورت میگیرد. برای اینکه الگوریتمهای یادگیری بدون نظارت بتوانند الگوهای معناداری را کشف کنند، نیاز به دادههای غنی و کامل دارند. به عنوان نمونه، در الگوریتمهای خوشهبندی، تعداد زیادی دادهها و خوشهها میتوانند بر کیفیت و دقت خوشهبندی تاثیر بگذارند.
کیفیت نتایج قابل اعتماد: در یادگیری بدون نظارت، نبود برچسبهای صحیح برای دادهها معضل بزرگی است. این مساله باعث میشود که مدلهای یادگیری بدون نظارت نسبت به خطاهایی در کشف الگوها و ساختارها حساس باشند. بنابراین، نتایج حاصل از یادگیری بدون نظارت ممکن است کمتر قابل اعتماد و قابل تفسیر باشند و نیاز به ارزیابی و تایید بیشتری داشته باشند.
ناپایداری در کشف الگوها: در برخی موارد، الگوریتمهای یادگیری بدون نظارت ممکن است الگوهای نادر و پنهان را به عنوان الگوهای معمول تشخیص دهند. به عبارت دیگر، این الگوریتمها ممکن است به سمت حالتی جهش کنند که تنها در دادههای آموزشی مشاهده شده است و در دادههای جدید قابل تعمیم نباشد. این مشکل به عنوان “پیداکردن آشکارسازی ناحیهها” شناخته میشود و میتواند استفاده از مدل در دنیای واقعی را با مخاطره جدی روبرو کند.
نیاز به پیشپردازش و تجهیزات قدرتمند: در برخی موارد، یادگیری بدون نظارت نیازمند پیشپردازش دادهها و استفاده از تجهیزات قدرتمند است. برخی از الگوریتمهای یادگیری بدون نظارت ممکن است نیاز به محاسبات سنگین و مصرف منابع بالا داشته باشند. در این حالت، نیازمند سختافزارهای سطح بالا به ویژه پردازندههای مرکزی و گرافیکی قدرتمند و حافظههای اصلی بالا هستیم که بتوانند اطلاعات را در زمان کوتاهی پردازش کرده و همچنین توانایی میزبانی اطلاعات در حافظه اصلی را داشته باشند. همچنین، نیازمند حافظههای جانبی از نوع SSD هستیم که فرآیند خواندن و نوتشن اطلاعات را در مدت زمان کوتاهی امکانپذیر کنند. بدیهی است در این حالت به سرورهای قدرتمند و رده بالایی نیاز داریم که قیمت آنها به چند صد میلیون تومان میرسد.
کمبود تفسیرپذیری: یادگیری بدون نظارت معمولا به صورت غیرمستقیم الگوها و ویژگیهای مورد توجه را کشف میکند. به عبارتی، ممکن است نتوانیم به راحتی تفسیر علت یا دلیل وجود یک الگو را درک کنیم. این مسئله برای برخی کاربردها مانند پزشکی یا حوزههایی که نیاز به توجیه و تفسیر دقیق دارند، اهمیت دارد.
امکان بروز بیشبرازش: در یادگیری بدون نظارت، احتمال وقوع بیشبرازش (overfitting) وجود دارد. بیشبرازش به معنی ساختن یک مدل است که به طور غیرمنطقی و بیش از حد به دادههای آموزشی متکی است و توانایی تعمیم به دادههای جدید را از دست بدهد. این مساله میتواند باعث کاهش قابلیت اعتماد و قدرت پیشبینی مدل شود.
چه الگوریتمی هایی در یادگیری ماشین بدون ناظر استفاده میشوند؟
هنگامی که صحبت از یادگیری ماشین بدون نظارت به میان میآید با انتخابهای مختلفی روبهرو هستیم. با اینحال، برخی از الگوریتمها عملکرد بهترین نسبت به نمونههای دیگر دارند. این الگوریتمها به شرح زیر هستند:
- خوشهبندی (Clustering): این الگوریتمها به دنبال گروهبندی دادهها بر اساس شباهتهای آنها هستند. مثالهایی از الگوریتمهای خوشهبندی عبارتند از K-Means، DBSCAN و Hierarchical Clustering. در یادگیری ماشین بدون ناظر، خوشهبندی یک الگوریتم مهم است که به دنبال گروهبندی دادهها بر اساس شباهتهای آنها است. در این الگوریتم، هدف اصلی این است که دادهها را به گروههای مشابه یا خوشهها تقسیم کند، به طوری که دادههای هر خوشه شباهت زیادی به هم داشته باشند و از دادههای خوشههای دیگر متمایز باشند. در خوشهبندی، الگوریتمها با توجه به معیارهای شباهت مانند فاصله یا همبستگی، دادهها را بر اساس ویژگیهایشان به خوشههای مختلف تقسیم میکنند. به طور مثال، K-Means الگوریتمی است که به دنبال تقسیم دادهها به K خوشه است، به طوری که هر خوشه مرکز خود را داشته باشد و دادههایی که بیشترین شباهت را با مرکز خوشه مربوطه دارند، در آن خوشه قرار بگیرند. الگوریتمDBSCAN بر اساس چگالی نقاط در فضای ویژگیها، خوشهها را تشخیص میدهد. نقاطی که در یک محدوده چگالی قرار دارند و به یکدیگر نزدیک هستند، به یک خوشه تعلق میگیرند. همچنین، خوشهبندی سلسلهمراتبی بر اساس شباهت نقاط، خوشهبندی سلسلهمراتبی را انجام میدهد. در این روش، خوشههای کوچکتر را با هم ترکیب کرده و خوشههای بزرگتر و سلسلهمراتبی را ایجاد میکند.
- کاهش بعد (Dimensionality Reduction): در این الگوریتمها، تلاش میشود بعد فضای ویژگیها کاهش یابد و نمایشی کمبعدتر از دادهها ایجاد شود. الگوریتمهای معروف کاهش بعد عبارتند از PCA سرنام (Principal Component Analysis) و t-SNE سرنام (t-Distributed Stochastic Neighbor Embedding). به طور کلی، الگوریتمهای کاهش بعد به منظور کاهش تعداد ویژگیها یا ابعاد فضای ویژگیها استفاده میشوند، به طوری که اطلاعات مهم و قابل استنتاج را از دادهها حفظ کنند. این الگوریتمها برای مدلسازی و تجزیه تحلیل دادهها، کاهش پیچیدگی محاسباتی و بهبود عملکرد الگوریتمهای یادگیری ماشین مورد استفاده قرار میگیرند. به طور مثال، PCA یکی از روشهای محبوب کاهش بعد است. با استفاده از PCA، تلاش میشود بزرگترین واریانس ممکن در دادهها را در راستای بردارهای اصلی به دست آورد. بردارهای اصلی به ترتیب اهمیت، نمایشی کمبعدتر از دادهها را ایجاد میکنند. همچنین، t-SNE برای تفسیر و مصورسازی دادهها در فضای دو یا سه بعدی استفاده میشود. t-SNE با استفاده از احتمالات توزیعهای شرطی بر روی دادهها، تلاش میکند تا نمایشی کمبعدتر از دادهها ایجاد کند که از نظر شباهتها و فاصلههایشان در فضای بالا حفظ شود.
- تشخیص ناهنجاری (Anomaly Detection): این الگوریتمها به دنبال شناسایی نمونههای ناهنجار یا خارج از الگو هستند. از الگوریتمهای تشخیص ناهنجاری معروف باید به Isolation Forest و One-Class SVM (Support Vector Machines) اشاره کرد. الگوریتمهای تشخیص ناهنجاری باید بدون استفاده از برچسبها و تنها با استفاده از خصوصیات و الگوهای موجود در دادهها، نمونههای ناهنجار را تشخیص دهند. به طور مثال، روش مبتنی بر توزیع گاوسی (Gaussian-based methods) فرض میکنند که دادههای عادی از یک توزیع گاوسی پیروی میکنند، در حالی که نمونههای ناهنجار از این الگوهای گاوسی تفاوتهای قابل توجهی دارند. این روشها شامل روش تخمین توزیع گاوسی، روش مدلسازی تخمینی (Kernel Density Estimation) و روشهای مشتقگیری از توزیع گاوسی مانند روش (Maximum Likelihood) میشوند. همچنین، روشهای مبتنی بر اندازهگیری فاصله (Distance-based methods) بر اساس مفهوم فاصله بین نمونهها عمل میکنند. نمونههای ناهنجار معمولا فاصله بزرگی با نمونههای عادی دارند. روشهای مشهور از این دست شامل روش نزدیکترین همسایه (Nearest Neighbor) و روشهای مبتنی بر اندازهگیری فاصله متوسط LOF سرنام (Local Outlier Factor) میشوند.
- الگوریتمهای انتساب (Imputation): این الگوریتمها برای تخمین و پر کردن مقادیر گمشده در دادهها استفاده میشوند. مثالهایی از الگوریتمهای انتساب عبارتند از K-Nearest Neighbors و Mean Imputation.
- مدلهای متغیر پنهان (Latent Variable Models): این الگوریتمها سعی میکنند ساختار پنهانی در دادهها را کشف کنند و توضیحدهنده علت و دلیل وجود الگوها باشند. مثالهایی از الگوریتمهای تفسیر دادهها عبارتند از کدگذارهای خودکار (Autoencoders) و الگوریتمهای مبتنی بر مدل مخفی مارکوف (Hidden Markov Models).
- تجزیه و تحلیل جریان داده (Stream Data Analysis): این الگوریتمها برای تحلیل دادههای جریانی با سرعت بالا و برخط (Online) استفاده میشوند. مثالهایی از الگوریتمهای تجزیه و تحلیل جریان داده عبارتند از CluStream و Online K-Means.
موارد یاد شده تنها چند نمونه از الگوریتمهای یادگیری بدون ناظر هستند که امروزه به شکل گستردهای مورد استفاده قرار میگیرند.
بدون دیدگاه