داده کاوی
زمان تخمینی مطالعه: 18 دقیقه
داده کاوی (Data Mining) فرآیندی است که در آن الگوریتمها و تکنیکهای مختلفی برای کشف الگوها، ارتباطات و اطلاعات مفید از دادهها استفاده میشوند. هدف اصلی داده کاوی، استخراج دانش و اطلاعات قابل استفاده از مجموعههای بزرگ و پیچیدهای از دادهها است. داده کاوی به صورت گسترده در رشتههای مختلف از جمله علوم کامپیوتر، آمار، هوش مصنوعی، بازاریابی و علوم رفتاری به کار میرود. با استفاده از تکنیکهای داده کاوی، میتوان از دادهها الگوهای مخفی و اطلاعات مفیدی را کشف کرده و به تصمیمگیریهای بهتر و ارائه پیشبینیهای دقیقتر کمک کرد.
هنگامی که صحبت از فرآیند داده کاوی به وجود دارد، این فناوری در قالب چند مرحله کلیدی اطلاعات موردنیاز را در اختیار ما قرار میدهد. این مراحل به شرح زیر هستند:
تعریف هدف: در این مرحله، هدف و سوالهایی که میخواهید از دادهها پاسخ بگیرید، مشخص میشود. به طور مثال، ممکن است به دنبال الگوهایی در دادهها باشید یا به دنبال شناسایی ارتباطات بین متغیرها باشید.
جمعآوری دادهها: در این مرحله، دادههای مورد نیاز برای داده کاوی جمعآوری میشوند. این دادهها میتوانند از منابع مختلف مانند پایگاههای داده، فایلهای متنی، سامانههای وب و غیره باشند.
پیشپردازش دادهها: در این مرحله، دادهها پاکسازی، تبدیل و آمادهسازی میشوند. این فرآیند شامل حذف دادههای ناقص، تبدیل به فرمت مناسب، حذف تکراریها، مقیاسبندی و استخراج ویژگیها است.
انتخاب و پیادهسازی الگوریتمها: در این مرحله، الگوریتمها و تکنیکهای داده کاوی برای کشف الگوها و اطلاعات مفید از دادهها انتخاب و مورد استفاده قرار میگیرند. مثالهایی از الگوریتمهای داده کاوی شامل درخت تصمیم، روشهای خوشهبندی، آنالیز ترتیبی، شبکههای عصبی و الگوریتمهای تشخیصی مثل روشهای آنالیز ترتیبی، شبکههای عصبی و الگوریتمهای تشخیص انحراف هستند.
ارزیابی و تفسیر نتایج: در این مرحله، نتایج حاصل از داده کاوی مورد ارزیابی قرار میگیرند و تفسیر میشوند. نتایج میتوانند به صورت گزارشات، نمودارها، جداول و الگوهای شناسایی شده ارائه شوند.
به طور کلی، داده کاوی یک ابزار قدرتمند است که در شناخت الگوها، پیشبینی رویدادها، بهبود تصمیمگیریها و بهبود عملکرد در حوزههای مختلف کاربرد دارد. با استفاده از داده کاوی، میتوان اطلاعات مفیدی از کلان دادهها استخراج کرده و درک بهتری از مسایل و چالشهای موجود در دادهها پیدا کرد.
ارزیابی و رفع خطاهای الگوریتم های داده کاوی
ارزیابی الگوریتمهای داده کاوی و رفع خطاها مهم است تا از دقت و قابلیت اعتماد آنها در استفاده صحیح از دادهها اطمینان حاصل شود. هنگامی که صحبت از مراحل ارزیابی و رفع خطاهای الگوریتمهای داده کاوی به میان میآید، باید کارها به شکل منطقی و منطبق با برنامهریزی انجام شوند. اولین قدم در ارزیابی الگوریتمهای داده کاوی، جمعآوری دادههای آزمایشی است. این دادهها باید نماینده مناسبی از دادههای واقعی باشند و شامل مجموعهای از نمونههایی باشند که نتایج الگوریتم را میتوان با آنها مقایسه کرد.
در ادامه نوبت به تقسیم دادهها به دو بخش میرسد. یک بخش برای آموزش الگوریتم و دیگری برای ارزیابی عملکرد الگوریتم در شرایط واقعی. این تقسیم معمولا به صورت تصادفی انجام میشود و نسبت دادههای آموزش به دادههای ارزیابی معمولا در حدود 70:30 تا 80:20 است. الگوریتم با استفاده از دادههای آموزشی اجرا میشود و نتایج حاصل را میتوان با دادههای ارزیابی مقایسه کرد. ارزیابی عملکرد الگوریتم میتواند شامل معیارهایی مانند دقت (accuracy)، صحت (precision)، فراخوانی (recall) و سایر معیارهای اندازهگیری باشد که به ویژگیهای خاص مساله و الگوریتم وابسته است. در صورتی که الگوریتم نتایج ناقص یا نامطلوبی داشته باشد، باید خطاها را تحلیل کرده و علت آنها را بیابیم. خطاها ممکن است به دلیل ناقص بودن دادهها، پارامترهای نادرست الگوریتم یا انتخاب نادرست روش ارزیابی باشند.
پس از تحلیل خطاها، باید اقدامات مناسبی برای رفع آنها انجام داد. این فرآیند ممکن است شامل تغییر پارامترهای الگوریتم، استفاده از الگوریتمهای جایگزین، اصلاح دادههای ناقص یا تغییر روش ارزیابی باشد. این مراحل معمولا به صورت تکرارشونده انجام میشوند تا خطاها رفع شوند و عملکرد الگوریتم بهبود یابد. با هر بار تکرار، الگوریتم با استفاده از اقدامات اصلاحی جدید بهبود یافته، مجددا اجرا و ارزیابی میشود. علاوه بر رفع خطاها و بهبود عملکرد الگوریتم، میتوان الگوریتم مورد بررسی را با الگوریتمهای دیگر در همان مساله مقایسه کرد. این مقایسه میتواند با استفاده از معیارهای استانداردی مانند دقت، صحت و فراخوانی انجام شود تا نتایج را بتوان به شکل دقیقتر بررسی کرد. در پایان، نتایج نهایی ارزیابی و اقدامات اصلاحی انجام شده باید به صورت دقیق در یک گزارش ثبت شوند. این مستندسازی به دیگر پژوهشگران و کاربران امکان میدهد از نتایج و تجربیات شما استفاده کنند و در صورت نیاز به تحلیل و بهبود بیشتر الگوریتم، از مبنایی قوی استفاده کنند. با انجام این مراحل، میتوان الگوریتمهای داده کاوی را ارزیابی کرده و خطاهای آنها را رفع کرد تا در استفادههای بعدی بهصورت دقیق و قابل اعتماد عمل کنند.
چگونه واریانس بالا را رفع کنیم؟
برای برطرف کردن مشکل واریانس بالا در الگوریتمهای داده کاوی پیشنهاد میکنیم به نکات زیر دقت کنید. اولین مورد جمعآوری دادههای بیشتر است. یکی از دلایل واریانس بالا ممکن است کمبود دادههای آموزشی باشد. بهتر است تا حد امکان به جمعآوری دادههای بیشتری بپردازید که مساله را به خوبی شرح میدهند. این مساله به کاهش واریانس کمک میکند. دادههای بیشتر به الگوریتم اطلاعات بیشتری درباره الگوها و روابط موجود در داده میدهند و اغلب منجر به عملکرد بهتر میشوند. همچنین، افزایش مقدار داده آموزشی نیز در این زمینه موثر است. با جمعآوری دادههای بیشتر و افزایش تنوع نمونهها، میتوانید واریانس را کاهش دهید. این روش زمانی مفید است که به دادههای بیشتری دسترسی داشته باشید.
مورد مهم بعدی کاهش پیچیدگی مدل است. اگر مدل شما بسیار پیچیده است و تعداد پارامترهای آن زیاد است، ممکن است باعث به وجود آمدن واریانس بالا شود. در این صورت، میتوانید از روشهای سادهتری استفاده کنید، مثلا با استفاده از مدلهای خطی یا مدلهای با تعداد کمتری لایه و پارامتر، واریانس را کاهش دهید. پارامترهای الگوریتم میتوانند تاثیر زیادی بر واریانس داشته باشند. اگر پارامترها به درستی تنظیم نشوند، ممکن است الگوریتم بیش از اندازه به آموزش وابسته شود یا حساس به جزییات دادهها شود. با تنظیم پارامترها بهینه و استفاده از روشهای بهینهسازی، میتوان بر این مشکل غلبه کرد. در برخی موارد، واریانس بالا ممکن است به دلیل وجود ویژگیهای غیرضروری یا تکراری باشد. با استفاده از روشهایی مثل انتخاب ویژگیها (Feature Selection) یا کاهش بعد (Dimensionality Reduction)، میتوانید تعداد ویژگیها را کاهش دهید و فقط روی ویژگیهای مهم تمرکز کنید. این کار میتواند به کاهش واریانس و بالا بردن قابلیت تعمیم الگوریتم کمک کند.
یک راه دیگر برای کاهش واریانس، استفاده از روش ترکیب مدلها است. به جای استفاده از یک مدل تک، میتوانید از مجموعه روشهای مختلفی برای کاهش واریانس استفاده کنید. راهکار مهم بعد بهکارگیری روشهای نرمالسازی است. نرمالسازی دادهها نقش مهمی در کاهش واریانس دارد. با تغییر مقیاس دادهها به یک بازه مشخص، مانند [0، 1] یا [-1، 1]، تفاوتهای مقیاسی بین ویژگیها کاهش پیدا کرده و واریانس نیز کمتر میشود.
راهکار کارآمد دیگر استفاده از روشهای نظمدهی (Regularization) است. روشهای نظمدهی میتوانند کمک کنند تا واریانس را کاهش دهید و در عین حال مانع از بروز مشکل بیشبرازش (Overfitting) شوید. از روشهای معروف نظمدهی باید به رگرسیون ریج (Ridge Regression) و رگرسیون لاسو (Lasso Regression) اشاره کرد که با افزودن جملهای به تابع هدف، مقدار وزنها را محدود میکنند و واریانس را کاهش میدهند. روشهای تجمیع مدلها نیز میتوانند به کاهش واریانس کمک کنند. از جمله این روشها باید به بستهبندی (Bagging) و تجمیع مدلهای گرادیانی (Gradient Boosting) اشاره کرد. این روشها با استفاده از ترکیب پیشبینیهای مختلف، واریانس را کاهش داده و عملکرد بهتری را ارائه میدهند. تنظیم پارامترهای مدل میتواند به کاهش واریانس کمک کند. به طور معمول، پارامترهایی مانند ضریب یادگیری (Learning Rate)، عمق شبکه (Network Depth) و نظمدهی تقویتی (Regularization Strength) تاثیر زیادی بر کاهش واریانس دارند.
بایاس بالا چیست
هنگامی که صحبت از این مساله میشود که یک مدل بایاس بالا دارد، به این معنی است که مدل قادر به تقلید الگوهای موجود در دادههای آموزشی نیست و به طور کلی عملکرد ضعیفی دارد. در این حالت، مدل به دلیل سادگی یا کمبود ظرفیت، نمیتواند توانایی کافی برای توصیف پیچیدگیهای موجود در دادهها را داشته باشد. مشکل بایاس بالا ممکن است به دلیل موارد زیر رخ دهد:
سادگی مدل: مدل انتخاب شده برای حل مساله بسیار ساده و توضیحات کافی برای توصیف دادهها وجود ندارد. در این صورت، ممکن است نیاز به تغییر مدل به یک مدل با ظرفیت بیشتر باشد.
کمبود دادههای آموزش: ممکن است حجم دادههای آموزش کافی نباشد و مدل نتواند الگوهای کلی دادهها را درک کند. در این صورت، جمعآوری بیشتر دادهها یا استفاده از تکنیکهایی مانند افزایش نمونهبرداری میتواند بهبودی را به همراه داشته باشد.
عدم تطابق با توزیع دادهها: ممکن است مدل درک کافی از ساختار و الگوهای موجود در دادهها نداشته باشد و عدم تطابق با توزیع دادهها به وجود آید. در این صورت، ممکن است نیاز به استفاده از روشهای پیشپردازش داده مانند استانداردسازی و تبدیل ویژگیها باشد.
چگونه بایاس بالا را رفع کنیم؟
به طور کلی برای حل مشکل بایاس بالا راهکارهای خوبی در اختیار ما قرار دارد که از آن جمله به موارد زیر باید اشاره کرد:
استفاده از مدلهای پیچیدهتر: اگر مدل فعلی بسیار ساده است، ممکن است نیاز به استفاده از مدلهای پیچیدهتری با ظرفیت بیشتر ضروری باشد. مدلهایی مانند شبکههای عصبی عمیق (Deep Neural Networks) و الگوریتمهای یادگیری ماشین پیشرفته میتوانند توانایی بیشتری برای توصیف دادهها داشته باشند.
تنظیم پارامترها: ممکن است نیاز به تنظیم پارامترهای مدل داشته باشید. به عنوان مثال، افزایش تعداد لایهها و واحدهای مخفی در یک شبکه عصبی میتواند ظرفیت مدل را افزایش داده و در نتیجه بایاس بالا را کم کند.
جمعآوری دادههای بیشتر: اگر حجم دادههای آموزشی کافی نیست، میتوانید تلاش کنید تا دادههای بیشتری را جمعآوری کنید. این کار میتواند به مدل کمک کند تا الگوهای موجود در دادهها را بهتر تشخیص دهد و بایاس را کاهش دهد. با داشتن دادههای بیشتر، مدل میتواند الگوها و روابط پنهان در داده را بهتر فهمیده و تعمیمپذیرتر باشد.
استفاده از روشهای پیشپردازش داده: با استفاده از تکنیکهایی مانند استانداردسازی و تبدیل ویژگیها، میتوانید دادهها را پیشپردازش کنید و تطابق بیشتری با توزیع دادهها برقرار کنید. این کار ممکن است بهبود قابل توجهی در عملکرد مدل داشته باشد.
استفاده از روشهای افزایش ویژگی: اگر بایاس بالا به دلیل وجود ویژگیهای کم اهمیت یا ناکارآمد است، میتوانید از روشهای افزایش ویژگی مانند افزایش بعد (Dimensionality Expansion) یا استفاده از ویژگیهای تبدیل شده (Transformed Features) استفاده کنید. این کار میتواند به کاهش بایاس و افزایش تنوع و پوشش ویژگیها کمک کند.
استفاده از روشهای تجمیع مدلها: روشهای تجمیع مدلها میتوانند به کاهش بایاس کمک کنند. با ترکیب پیشبینیهای مختلف از مدلهای مختلف، میتوانید از تنوع بیشتری در پیشبینیها استفاده کنید و بایاس را کاهش دهید.
استفاده از روشهای تقویت کننده: روشهای تقویت کننده مثل Bootstrap Aggregating یا Bagging و Boosting) میتوانند به کاهش بایاس کمک کنند. این روشها با استفاده از ترکیب مدلهای ضعیف با یک مدل قویتر، میتوانند بایاس را کاهش دهند و بهبود عملکرد مدل را برای دادههای آزمون ارائه دهند.
ارزیابی مجدد و تحلیل دادهها: گاهی اوقات بایاس بالا ممکن است ناشی از خطاها در فرآیند ارزیابی و تحلیل دادهها باشد. بنابراین، میتوانید دادهها را مجددا ارزیابی کنید و مطمئن شوید که چارچوب تحلیل درستی را دنبال میکنید که به رفع مشکل بایاس کمک میکند.
مهمترین نکته در رفع بایاس بالا، ترکیب چند روش و آزمون و خطا برای یافتن راهحل مناسب است. همچنین، باید توجه داشت که در برخی موارد، بایاس ممکن است به دلیل محدودیتهای موجود در داده یا مساله قابل رفع نباشد و در این صورت باید بهبود عملکرد به صورت کلی را در نظر گرفت. در نهایت، برای کاهش بایاس بالا میتوانید با تغییر معماری مدل، تنظیم پارامترها، جمعآوری بیشتر دادهها و استفاده از روشهای پیشپردازش داده عملکرد مدل را بهبود دهید.
منحنیهای یادگیری
منحنیهای یادگیری در دادهکاوی و یادگیری ماشین نشان میدهند با افزایش حجم دادههای آموزشی، عملکرد مدل یا الگوریتم چگونه تغییر میکند. این منحنیها میتوانند به ما کمک کنند تا درک بهتری از رفتار مدلها و الگوریتمها در مقابل دادههای آموزش داشته باشیم و تصمیمهای بهتری برای بهبود عملکرد بگیریم. به طور کلی سه نوع اصلی منحنیهای یادگیری در این زمینه به شرح زیر در اختیار ما قرار دارند.
- منحنی یادگیری (Learning Curve): این منحنی نشان میدهد با افزایش حجم دادههای آموزشی، عملکرد مدل چگونه تغییر میکند. در ابتدا، با افزایش تعداد نمونهها، عملکرد مدل بهبود مییابد و امتیاز یا دقت آن افزایش مییابد. اما به مرور، به دلیل اشباع شدن مدل و کاهش تاثیر دادههای جدید بر آموزش، دقت مدل کاهش مییابد و منحنی به تعادل میرسد. منحنی تطبیق میتواند به ما کمک کند تا متوجه شویم که آیا مدل ما به حداکثر کارایی خود رسیده است یا نیاز به افزایش حجم دادهها یا تغییر مدل داریم. با تحلیل منحنی یادگیری، میتوانید بررسی کنید که مدل در صورت افزایش حجم دادههای آموزش به کدام حد متمایل میشود. اگر منحنی نشاندهنده اشباع شدن عملکرد مدل با افزایش حجم دادهها است، احتمالا دیگر نیازی به افزایش حجم دادهها نیست و میتوانید با حجم فعلی به مدل نهایی برسید. اما اگر منحنی نشاندهنده بهبود عملکرد است، ممکن است نیاز به افزایش حجم دادهها یا تغییر مدل داشته باشید.
- منحنی تاثیر پارامتر (Parameter Impact Curve): این منحنی نشان میدهد با تغییر پارامترهای مدل یا الگوریتم، عملکرد مدل چگونه تغییر میکند. به طور معمول، یک پارامتر خاص را تغییر داده و عملکرد مدل را بررسی میکنیم. ممکن است ببینیم با افزایش یا کاهش مقدار پارامتر، عملکرد بهبود یا تضعیف میشود. منحنی تاثیر پارامتر به ما کمک میکند تا بهینهسازی پارامترها را انجام دهیم و بهترین تنظیمات را برای مدل پیدا کنیم. با تحلیل منحنی تاثیر پارامتر، میتوانید تاثیر پارامترهای مختلف مدل را بر عملکرد بررسی کنید. این منحنیها به شما نشان میدهند که با تغییر پارامترها، عملکرد مدل به کدام جهت تغییر میکند. با بررسی این منحنیها، میتوانید پارامترهایی را که تاثیر مثبتی بر عملکرد دارند، شناسایی کنید و مدل را بر اساس آنها تنظیم کنید.
- منحنی انتقال (Transfer Curve): این منحنی نشان میدهد که مدل با انتقال به دستهبندی یا مسالهای دیگر چگونه عمل میکند. منحنی انتقال نشان میدهد که آیا مدل قادر است اطلاعات یادگرفته شده را به مسئله جدید منتقل کند یا خیر. اگر مدل عملکرد خوبی در مسئله جدید ارائه دهد، منحنی به سرعت صعودی خواهد بود. اما اگر مدل نتواند به خوبی انتقال دادهها را انجام دهد، منحنی به سرعت به سمت تعادل حرکت خواهد کرد. اگر شما در حال انتقال مدل از یک مساله به مساله دیگر هستید، منحنی انتقال به شما کمک میکند تا ببینید که مدل قادر است اطلاعات یادگرفته شده را به مساله جدید منتقل کند یا خیر. اگر منحنی نشاندهنده عملکرد خوب در مساله جدید است، شما میتوانید به اطمینان بیشتری در مورد استفاده از مدل در مساله جدید برسید. اما اگر منحنی نشان دهنده کاهش عملکرد در مساله جدید است، ممکن است نیاز به تغییر مدل یا تنظیمات داشته باشید.
- تشخیص بیشبرازش (Overfitting) و کمبرازش (Underfitting): منحنیهای یادگیری نشان میدهند با افزایش پیچیدگی مدل، عملکرد آن بر روی دادههای آموزش و دادههای ارزیابی چگونه تغییر میکند. اگر دادههای آموزش و ارزیابی به طور همزمان بهبود مییابند، مدل به طور عمومی مناسب است. اما اگر مدل بر روی دادههای آموزش عملکرد خوبی داشته باشد، اما بر روی دادههای ارزیابی عملکرد ضعیفی داشته باشد، ممکن است مدل شما بیشبرازش شده باشد. از طرف دیگر، اگر مدل به طور کلی عملکرد ضعیفی داشته باشد، ممکن است مدل با مشکل کمبرازش روبرو شود و باید پیچیدگی آن بیشتر افزایش پیدا کند.
- ارزیابی مدلهای مختلف: با مقایسه منحنیهای یادگیری برای مدلهای مختلف، میتوانید تاثیر هر مدل را بر عملکرد نهایی بررسی کنید و مدلی را انتخاب کنید که بهترین عملکرد را ارائه میدهد.
با استفاده از منحنیهای یادگیری، میتوانید میزان دقت و عملکرد مدل را در طول زمان و با تغییرات مختلف مشاهده کنید. این اطلاعات به شما کمک میکنند تا تصمیمات بهتری در مورد انتخاب مدل بگیرید. همچنین، با مقایسه منحنیهای یادگیری برای مدلهای مختلف، میتوانید تاثیر هر مدل را در عملکرد نهایی بررسی کنید و مدلی را انتخاب کنید که بهترین عملکرد را ارائه دهد. منحنیهای یادگیری میتوانند ابزارهای مفیدی برای تحلیل و بهبود عملکرد مدلها و الگوریتمها در دادهکاوی و یادگیری ماشین باشند. با استفاده از این منحنیها، میتوانیم بهبودهای مورد نیاز را انجام دهیم و تصمیمات بهتری در مورد پیشپردازش دادهها، انتخاب مدل، تنظیم پارامترها و سایر جوانب مرتبط با آموزش مدل اتخاذ کنیم.
معیار خطای فراخوانی در داده کاوی چیست؟
معیار خطای فراخوانی (Recall) یکی از معیارهای ارزیابی در داده کاوی است که در مسایل طبقهبندی و تشخیص الگو مورد استفاده قرار میگیرد. خطای فراخوانی نشان میدهد که چه میزان از نمونههای مثبت را مدل موردنظر تشخیص داده است. برای درک بهتر مفهوم خطای فراخوانی، به مفهومهای زیر توجه کنید:
True Positive (TP): تعداد نمونههای مثبتی که به درستی تشخیص داده شدهاند.
False Negative (FN): تعداد نمونههای مثبتی که به طور اشتباهی به عنوان منفی شناخته شدهاند.
حالا با استفاده از این مفاهیم، خطای فراخوانی به صورت زیر تعریف میشود:
خطای فراخوانی = TP / (TP + FN)
در واقع، خطای فراخوانی نسبت تعداد نمونههای مثبتی که به درستی تشخیص داده شدهاند به کل تعداد نمونههای مثبت را نشان میدهد. این معیار نشان میدهد که مدل چقدر موفق بوده است در تشخیص نمونههای مثبت و جلوگیری از اشتباهات نمونههای مثبت را به عنوان منفی تشخیص دهد. در حالی که خطای فراخوانی بر روی نمونههای مثبت تمرکز دارد، دقت بر روی نمونههای تشخیص داده شده مثبت تمرکز دارد. هر دوی این معیارها در مسائل طبقهبندی بسیار مهم هستند و در کنار یکدیگر مورد استفاده قرار میگیرند تا عملکرد یک مدل داده کاوی را ارزیابی کنند.
روش اعتبارسنجی منقطع K
روش اعتبارسنجی منقطع (K-fold cross-validation) یکی از روشهای رایج برای ارزیابی عملکرد یک مدل در داده کاوی است. در این روش، دادههای موجود به K بخش یا “fold” تقسیم میشوند. سپس مدل بر روی K-1 بخش از دادهها آموزش داده میشود و بر روی بخش باقیمانده اعتبارسنجی میشود. این فرآیند برای K بار تکرار میشود، به طوری که در هر بار، یک بخش متفاوت برای اعتبارسنجی استفاده میشود. مراحل اصلی روش اعتبار سنجی منقطع K به شرح زیر هستند.
تقسیم دادهها: دادههای موجود به K بخش تقسیم میشوند. این تقسیم میتواند به صورت تصادفی یا بر اساس یک الگوریتم خاص صورت بگیرد.
آموزش و اعتبارسنجی: مدل بر روی K-1 بخش از دادهها آموزش داده میشود و سپس بر روی بخش باقیمانده (بخش اعتبارسنجی) اعتبارسنجی میشود. عملیات آموزش و اعتبارسنجی بر روی K بار تکرار میشود.
معیار ارزیابی: در هر بار تکرار، معیارهای ارزیابی (مانند دقت، خطای فراخوانی، دقت و …) برای مدل در بخش اعتبارسنجی محاسبه میشود.
میانگینگیری: معیارهای ارزیابی محاسبه شده در هر بار تکرار میانگینگیری میشوند تا یک معیار نهایی برای عملکرد مدل در کل دادهها به دست آید.
روش اعتبارسنجی منقطع K به عنوان یک روش ارزیابی جامع، مانع از بروز مشکل برازش بیش از حد مدل به دادههای آموزشی میشود و به طور معمول بهترین تخمین از عملکرد واقعی مدل را ارائه میدهد. همچنین، با استفاده از این روش، میتوانیم اطمینان حاصل کنیم که مدل به طور یکنواخت بر روی کل دادهها آموزش میبیند و به شکل مناسب از آنها استفاده خواهند کرد.
بخوانید: آشنایی با معماری سیستمهای فیبر نوری
بدون دیدگاه