یادگیری تقویتی (Reinforcement Learning) چیست و چه کاربردی دارد؟

reinforcement learning

reinforcement learning


یادگیری تقویتی

زمان تخمینی مطالعه: 18 دقیقه 

یادگیری تقویتی (Reinforcement Learning) یکی از الگوهای اصلی یادگیری ماشین است که بر پایه تعامل مکرر یک عامل با یک محیط برنامه‌ریزی می‌شود. در این روش، عامل (agent) با توجه به وضعیت فعلی محیط و بر اساس تجربیاتی که یاد گرفته است، عملی را انتخاب کرده و انجام می‌دهد. سپس، عمل انتخاب شده توسط عامل به محیط اعمال می‌شود و محیط بازخوردی (reward) به عامل می‌دهد. هدف عامل در یادگیری تقویتی، بهبود سیاست‌های خود است، به‌طوری که مجموع پاداش‌های دریافتی در طول زمان بیشینه شود.

عامل در یادگیری تقویتی بدون داشتن دسته‌های دقیق برچسب‌گذاری شده برای ورودی‌ها، فقط از طریق تجربه و تعامل با محیط، تجارب جدید را می‌آمزود. این روش بر پایه مفهوم تقویتی (reinforcement) بوده و عامل با انجام عملی خوب و دریافت پاداش، تشویق به انجام عملی مشابه در آینده می‌شود. به همین دلیل، یادگیری تقویتی را گاهی اوقات یادگیری بدون نظارت تقویت شده نیز می‌نامند. یادگیری تقویتی در مواردی کاربرد دارد که عامل باید در محیطی پویا و تعاملی اقدامات خود را برنامه‌ریزی کند و با محیط هماهنگ شود. از کاربردهای این پارادایم باید به بازی‌های رایانه‌ای، رباتیک، مدیریت منابع، بهینه‌سازی مسائل پیچیده، مدیریت ترافیک و سیستم‌های توزیع شده اشاره کرد.

فرآیند یادگیری تقویتی

فرآیند یادگیری تقویتی در اصل شامل چند مرحله است که عامل در طی آن‌ها با محیط تعامل می‌کند و سیاست‌های بهتر را یاد می‌گیرد. این مراحل به شرح زیر هستند:

  1. تعریف مساله: در این مرحله، مساله مورد نظر برای یادگیری تقویتی مشخص می‌شود که شامل تعریف وضعیت‌ها، عمل‌ها، پاداش‌ها و ساختار کلی محیط است. علاوه بر این، هدف کلی یادگیری نیز تعیین می‌شود. به بیان دقیق‌تر، در یادگیری تقویتی، تعریف مساله به منظور مشخص کردن محیط و هدف یادگیری عامل انجام می‌شود. این مرحله برای تعیین مسیر و راه‌حل‌های بهینه در فرآیند یادگیری بسیار حایز اهمیت است. به طور کلی، تعریف مساله در یادگیری تقویتی به منظور تعیین وضعیت‌ها، عمل‌ها، پاداش‌ها و سیاست‌ها انجام می‌شود. این تعریف مساله اساسی است که روش‌ها و الگوریتم‌های یادگیری تقویتی بر اساس آن طراحی می‌شوند تا عامل بتواند سیاست‌های بهینه را یاد بگیرد و عملکرد خود را بهبود بخشد.
  2. تعریف وضعیت‌ها و عمل‌ها

 در این مرحله، وضعیت‌ها و عمل‌ها در محیط مورد بررسی شناسایی می‌شوند. وضعیت‌ها ممکن است شامل اطلاعات مشاهده شده از محیط یا وضعیت داخلی عامل باشند. عمل‌ها نیز مجموعه‌ای از اقدامات قابل انجام توسط عامل هستند. توضیحات کلی درباره تعریف وضعیت‌ها و عمل‌ها در یادگیری تقویتی به شرح زیر است:

تعریف وضعیت‌ها: وضعیت‌ها نشان‌دهنده شرایط محیطی هستند که عامل در آن قرار می‌گیرد. وضعیت‌ها می‌توانند اطلاعات مشاهده شده از محیط و یا وضعیت داخلی عامل را شامل شوند. به طور کلی، وضعیت‌ها می‌توانند به صورت توصیفی (مشاهده شده) یا به صورت خلاصه (توصیفی) تعریف شوند. برای مثال، در یک بازی شطرنج، وضعیت می‌تواند شامل موقعیت مهره‌ها در صفحه شطرنج، نوبت بازیکن و سایر جزییات بازی باشد.

تعریف عمل‌ها: عمل‌ها نشان‌دهنده اقدامات قابل انجام توسط عامل در هر وضعیت هستند. معمولا عمل‌ها در قالب یک فضای عمل تعریف می‌شوند. فضای عمل می‌تواند متناهی یا نامتناهی باشد و شامل تمام عمل‌های مجاز در محیط است. برای مثال، در یک بازی شطرنج، عمل‌ها می‌توانند شامل حرکت مهره‌ها، قرار دادن پیش‌بینی‌ها یا انجام تغییرات دیگر در صفحه بازی باشند.

تعریف وضعیت‌ها و عمل‌ها بسته به مساله و محیط مورد نظر ممکن است متفاوت باشد و بر اساس ویژگی‌ها و قیدهای مربوطه تعیین شود. در برخی موارد، ممکن است از تکنیک‌هایی مانند تابع‌های شناسایی وضعیت (State Identification Functions) و تابع‌های شناسایی عمل (Action Identification Functions) استفاده شود تا وضعیت‌ها و عمل‌ها به صورت خاص تعریف شوند و یا تعریف وضعیت‌ها و عمل‌ها مستقیما بر اساس داده‌های مشاهده شده انجام شود.

  1. تعریف پاداش

 در این مرحله، نحوه‌ ارزیابی عمل‌ها توسط محیط و تعریف پاداش‌ها مشخص می‌شود. پاداش‌ها معمولا به صورت عددی تعریف می‌شوند و نشان می‌دهند که عملی چقدر مطلوب است. هدف عامل در یادگیری تقویتی این است که مجموع پاداش‌های دریافتی را بیشینه کند. همان‌گونه که اشاره کردیم، پاداش‌ها معمولا توسط محیط به عامل ارائه می‌شوند و عامل باید با تجربه و تعامل با محیط، سیاست‌های مناسبی را یاد بگیرد تا بتواند پاداش‌های بیشتری دریافت کند.

در برخی موارد، پاداش‌ها می‌توانند به صورت فوریتی (Immediate Reward) تعریف شوند که به میزان پاداش دریافتی توسط عامل بلافاصله پس از انجام عمل در وضعیت مشخص اشاره دارند. به عنوان مثال، در یک بازی کامپیوتری، پاداش فوری می‌تواند امتیازی باشد که عامل بلافاصله بعد از انجام حرکتی دریافت می‌کند. علاوه بر پاداش‌های فوری، ممکن است پاداش‌های تاخیری (Delayed Reward) نیز در نظر گرفته شوند. پاداش‌های تاخیری به میزان پاداش دریافتی توسط عامل در طول زمان و به دلیل انجام عمل‌های متوالی در وضعیت‌های مختلف اشاره دارند. به عنوان مثال، در یک بازی استراتژیک، پاداش تاخیری می‌تواند امتیازی باشد که عامل پس از گذشت چند مرحله از بازی دریافت می‌کند. تعریف پاداش در یادگیری تقویتی معمولا به تفصیل صورت نمی‌گیرد و محتوا و مقدار پاداش‌ها بسته به مساله و برنامه‌ریزی خاص یادگیری تقویتی متفاوت است. در برخی موارد، از توابع ارزیابی پاداش (Reward Shaping Functions) نیز استفاده می‌شود تا پاداش‌های اصلی را با پاداش‌های فرعی یا تعدیل‌شده بهبود داده و فرآیند یادگیری را تسریع کرد.

  1. تعریف سیاست

 سیاست‌ها در یادگیری تقویتی نشان‌دهنده نحوه‌ تصمیم‌گیری عامل بر اساس وضعیت‌های مشاهده شده است. سیاست می‌تواند به صورت قوانین (قواعد تصمیم‌گیری) یا به صورت تابع (تابع ارزش یا تابع عمل) تعریف شود. هدف عامل در این مرحله یادگیری سیاست بهینه است که مجموع پاداش‌ها را بیشینه کند. در یادگیری تقویتی، سیاست (Policy) به عنوان یک تابع تصمیم‌گیری تعریف می‌شود که نحوه عملکرد عامل در محیط را مشخص می‌کند. سیاست نشان می‌دهد که در هر وضعیت، عامل چه عملی را باید انتخاب کند. به طور ساده‌تر، سیاست مشخص می‌کند که عامل در وضعیت‌های مختلف چه کاری انجام دهد. سیاست می‌تواند به صورت تابعی مستقل از زمان (Time-Independent)، که به عنوان یک تابع ثابت عمل می‌کند یا به صورت تابعی وابسته به زمان (Time-Dependent) که می‌تواند تغییر کند، تعریف شود. در سیاست مستقل از زمان، عامل همیشه با توجه به وضعیت فعلی به یک عمل خاص تصمیم می‌گیرد، اما در سیاست وابسته به زمان، عامل ممکن است توسط تجربه‌های قبلی خود و یا با توجه به تغییرات محیط، سیاست خود را تغییر دهد.

سیاست می‌تواند به صورت قاعده‌مند (Deterministic) یا به صورت تصادفی (Stochastic) تعریف شود. در سیاست قاعده‌مند، در هر وضعیت، عامل همیشه یک عمل خاص را انتخاب می‌کند. اما در سیاست تصادفی، عامل با احتمالات مشخصی بین چند عمل ممکن تصمیم می‌گیرد. سیاست می‌تواند به صورت ثابت (Static) تعریف شود که در آن عامل در هر وضعیت یک سیاست ثابت را دنبال می‌کند، یا به صورت دینامیک (Dynamic) که در آن عامل در طول زمان می‌تواند سیاست خود را تغییر دهد.

تعریف سیاست معمولا بر اساس تجربه‌های عامل و هدف یادگیری تقویتی تعیین می‌شود. هدف اصلی در یادگیری تقویتی بهینه‌سازی سیاست است تا عامل بتواند پاداش بیشتری دریافت کند و عملکرد بهتری در محیط داشته باشد.

  1. تعامل با محیط

 در این مرحله، عامل با محیط تعامل می‌کند و بر اساس سیاست‌های خود عمل‌هایی را انجام می‌دهد. هنگام انجام هر عمل، محیط پاداشی به عامل می‌دهد که نشان‌دهنده‌ عمل مورد انتظار است. عامل بر اساس این بازخورد، سیاست‌ها و روش‌های یادگیری خود را بهبود می‌بخشد. تعامل با محیط در یادگیری تقویتی به صورت تعاملی و دوسویه بین عامل و محیط انجام می‌شود. در هر مرحله از فرآیند یادگیری، عامل با محیط تعامل می‌کند تا وضعیت فعلی را مشاهده کند، عملی را انجام دهد و پاداش مربوط به آن عمل را دریافت کند. این تعامل پیوسته در طول زمان ادامه می‌یابد تا عامل بتواند بر اساس تجربه‌های خود عملکرد خود را بهبود بخشد. فرآیند تعامل با محیط در یادگیری تقویتی عموما به صورت زیر پیش می‌رود:

عامل وضعیت محیط را مشاهده می‌کند: در هر مرحله، عامل اطلاعات مشاهده شده از محیط را دریافت می‌کند که شامل جزییات وضعیت فعلی محیط و اطلاعات دیگری که ممکن است در تعیین عمل بعدی تاثیرگذار باشند، می‌شود.

عامل عمل را انتخاب می‌کند: بر اساس وضعیت فعلی، عامل بر اساس سیاست خود یک عمل خاص را انتخاب می‌کند. سیاست مشخص می‌کند که در هر وضعیت، عامل باید چه عملی را انجام دهد.

اجرای عمل توسط عامل در محیط: عامل عمل انتخاب شده را در محیط اجرا می‌کند. این عمل ممکن است تغییراتی در محیط ایجاد کند.

عامل پاداش را دریافت می‌کند: بعد از اعمال عمل، عامل پاداش مربوط به عمل انجام شده را از محیط دریافت می‌کند. پاداش می‌تواند از خود محیط دریافت شود و یا به عنوان ورودی به عامل داده شود.

وضعیت جدید را مشاهده می‌کند: پس از دریافت پاداش، عامل وضعیت جدید محیط را مشاهده می‌کند که نتیجه عمل انجام شده و تغییراتی که در محیط ایجاد شده است را نشان می‌دهد.

  1. یادگیری و بهبود سیاست

 در این مرحله، عامل بر مبنای امتیازاتی که دریافت کرده است، اشتباهات قبلی را برطرف می‌کند تا بتواند عملکرد دقیق‌تری از خود نشان دهد.  دو روش مهم برای یادگیری و بهبود سیاست به شرح زیر است:

روش مستقیم: در این روش، عامل مستقیما سیاست خود را بر اساس تجربه بهبود می‌دهد. یعنی عامل با توجه به پاداش‌های دریافتی از محیط، سعی می‌کند سیاست خود را به گونه‌ای تغییر دهد که پاداش کلی حاصله بیشتر شود. این روش به صورت معمول با استفاده از الگوریتم‌هایی مانند الگوریتم‌های Gradient Ascent، Policy Gradient و REINFORCE انجام می‌شود. در روش مستقیم، عامل پارامترهای سیاست خود را به صورت مستقیم به روزرسانی می‌کند. به این ترتیب، با تکرار تعامل با محیط و به‌روزرسانی سیاست، سیاست بهتری یاد می‌گیرد که منجر به عملکرد بهتر در محیط می‌شود.

روش غیرمستقیم: در این روش، عامل از تابع ارزش یا تابع عملکرد (value function) استفاده می‌کند تا سیاست خود را بهبود بخشد. تابع ارزش، تخمینی از ارزش هر وضعیت یا جفت وضعیت-عمل در محیط است و نشان می‌دهد که وضعیت یا جفت وضعیت-عمل چقدر ارزش دارد. عامل با استفاده از این تخمین، سعی می‌کند عملی را انتخاب کند که ارزش کلی را بیشینه کند. روش‌های غیرمستقیم شامل الگوریتم‌هایی مانند Q-Learning، SARSA و Deep Q-Networks (DQN) هستند. این الگوریتم‌ها با استفاده از تابع ارزش، تخمینی از بهترین عمل در هر وضعیت را محاسبه کرده و بر اساس آن، سیاست خود را بهبود می‌دهند. در روش غیرمستقیم، عامل ابتدا تخمینی از تابع ارزش را به دست می‌آورد و سپس بر اساس این تخمین، سیاست خود را بهبود می‌بخشد. این روش به صورت پیش‌بینی-ارزش‌گذاری (value-based) عمل می‌کند و به عامل امکان می‌دهد تا ارزش هر وضعیت را تخمین بزند.

همچنین، روش‌هایی مانند Actor-Critic و Proximal Policy Optimization (PPO) که ترکیبی از روش‌های مستقیم و غیرمستقیم هستند، نیز برای یادگیری و بهبود سیاست در یادگیری تقویتی استفاده می‌شوند. این الگوریتم‌ها همزمان تلاش می‌کنند تا سیاست را بهبود بخشند و تابع ارزش را بهینه کنند.

در کل، یادگیری و بهبود سیاست در یادگیری تقویتی به وسیله تعامل با محیط، تجربه از پاداش‌های دریافتی و استفاده از الگوریتم‌های مناسب برای بهبود سیاست، انجام می‌شود. هدف این فرآیند، یافتن سیاستی است که عامل را به عملکرد بهتر و بهبود پاداش کلی هدایت کند.

یادگیری تقویتی

تفاوت یادگیری تقویتی با سایر روش های یادگیری ماشین

یادگیری تقویتی از سایر روش‌های یادگیری ماشین متمایز است و تقریبا یک سطح بالاتری از پارادایم‌های دیگر این حوزه است. برخی از تفاوت‌های اصلی یادگیری تقویتی با روش‌های دیگر به شرح زیر است:

تعامل با محیط: یادگیری تقویتی بر پایه تعامل مستقیم و پویا با محیط است. عامل در یادگیری تقویتی برخلاف روش‌های دیگر، اطلاعات را به صورت تجربی از محیط دریافت می‌کند و براساس آن تصمیم‌گیری می‌کند. این تعامل مستمر با محیط و اثرگذار بر روی آن، مهم‌ترین ویژگی یادگیری تقویتی است.

پاداش و تاخیر: در یادگیری تقویتی، عامل از طریق تعامل با محیط پاداش‌ها را دریافت می‌کند. پاداش‌ها معیاری هستند که نشان می‌دهند که عملکرد عامل در محیط چقدر مطلوب است. هدف عامل در یادگیری تقویتی، انتخاب عمل‌هایی است که باعث بیشینه کردن پاداش کلی در طول زمان می‌شوند. علاوه بر پاداش، تاخیر (delay) نیز در یادگیری تقویتی مهم است، زیرا نتایج عمل‌ها ممکن است به طور مستقیم در آینده ظاهر شود و عامل باید بتواند تاخیرها را در نظر بگیرد و تصمیم‌گیری کند.

برهم‌کنش بین عامل و محیط: در یادگیری تقویتی، عامل و محیط به صورت یکپارچه و همزمان با یکدیگر عمل می‌کنند. عامل با انجام عمل‌های خود، محیط را تغییر می‌دهد و محیط نتیجه این تغییر را به عامل بازمی‌گرداند. این برهم‌کنش بین عامل و محیط، باعث می‌شود که یادگیری تقویتی با توجه به تغییرات محیط و پاداش‌های دریافتی، سیاست خود را بهبود بخشد.

عدم نیاز به داده‌های برچسب‌دار: در بسیاری از روش‌های یادگیری ماشین مانند یادگیری نظارت شده، نیازمند داده‌های برچسب‌دار هستیم تا مدل را آموزش دهیم. اما در یادگیری تقویتی، عامل بدون نیاز به داده‌های برچسب‌دار می‌تواند از طریق تعامل با محیط خود را آموزش دهد.

مفهوم تاخیر زمانی: در یادگیری تقویتی، مفهوم تاخیر زمانی (temporal delay) مهم است. تاخیر زمانی به این معنی است که عملی که عامل انجام می‌دهد، ممکن است تاثیر خود را در آینده نشان دهد و عامل باید بتواند تاخیر زمانی را در نظر بگیرد و رابطه‌ای میان عمل و پاداش در طول زمان بسازد. این تفاوت اصلی یادگیری تقویتی با یادگیری نظارت شده و بدو ناظر است.

مفهوم موجودیت و بیشینه‌کردن پاداش کلی: هدف یادگیری تقویتی این است که عامل بتواند سیاست بهینه را یاد بگیرد که منجر به بیشینه کردن پاداش کلی (cumulative reward) در طول زمان می‌شود. در حالی که در روش‌های دیگری مانند یادگیری نظارت شده، هدف این است که مدل بتواند به درستی برچسب‌ها را پیش‌بینی کند یا در یادگیری تشخیصی، دسته‌بندی‌ها را به دقت تشخیص دهد.

در کل، یادگیری تقویتی با استفاده از تعامل مستقیم با محیط و براساس مفهوم پاداش و تاخیر زمانی، عامل را آموزش می‌دهد تا بهترین سیاست را در محیط مشخص کند. در مقابل، روش‌های دیگر یادگیری ماشین معمولا بر پایه داده‌های برچسب‌دار یا تعامل کمتر با محیط عمل می‌کنند.

کاربردهای Reinforcement Learning

یادگیری تقویتی در موارد مختلفی مورد استفاده قرار می‌گیرد و در زمینه‌های گوناگون کاربردهای متنوعی دارد. برخی از کاربردهای مهم یادگیری تقویتی به شرح زیر است:

  1. رباتیک: یکی از کاربردهای اصلی یادگیری تقویتی در رباتیک است. عامل‌های یادگیری تقویتی می‌توانند به ربات‌ها یاد بدهند که برای انجام وظایف خاصی، مانند حرکت، ناوبری، گرفتن و قرار دادن اشیا و غیره، چگونه عمل کنند. با تجربه و تعامل مستمر با محیط، ربات‌ها می‌توانند سیاست‌های بهینه را یاد بگیرند و عملکرد خود را بهبود بخشند.
  2. بازی‌های رایانه‌ای: یادگیری تقویتی در بازی‌های رایانه‌ای ویدیویی نیز کاربردهای مهمی دارد. عامل‌های یادگیری تقویتی می‌توانند با تجربه و تعامل با بازی، استراتژی‌های بهتری برای حل بازی‌ها یاد بگیرند. این کاربرد در ایجاد عامل‌های هوشمند در بازی‌های رایانه‌ای و همچنین در توسعه الگوریتم‌های هوش مصنوعی قابل استفاده برای کاراکترهای بازی استفاده می‌شوند.
  3. مدیریت منابع و سیستم‌های مخابراتی: یادگیری تقویتی می‌تواند در بهینه‌سازی مصرف منابع و مدیریت سیستم‌های مخابراتی مورد استفاده قرار گیرد. با استفاده از الگوریتم‌های یادگیری تقویتی، می‌توان سیستم‌هایی را طراحی کرد که به صورت خودکار و بهینه، منابع را تخصیص دهند و عملکرد سیستم را بهبود بخشند.
  4. مدیریت مالی: یادگیری تقویتی در حوزه مدیریت مالی نیز کاربردهای مهمی دارد. می‌توان از الگوریتم‌های یادگیری تقویتی برای اتخاذ تصمیمات سرمایه‌گذاری، مدیریت ریسک، پیش‌بینی نرخ ارز و سایر مسایل مالی استفاده کرد. عامل‌های یادگیری تقویتی می‌توانند براساس داده‌های بازار و تجربه قبلی، سیاست‌های بهینه را برای مدیریت مالی تعیین کنند.
  5. بهینه‌سازی مصرف انرژی: یادگیری تقویتی می‌تواند در بهینه‌سازی مصرف منابع انرژی مورد استفاده قرار گیرد. با استفاده از الگوریتم‌های یادگیری تقویتی، می‌توان سیستم‌هایی را طراحی کرد که به صورت هوشمند و بهینه، منابع انرژی را مدیریت کنند. مثلا در شبکه‌های برق هوشمند، عامل‌های یادگیری تقویتی می‌توانند بر اساس نیازها و الگوهای مصرف، تصمیمات درستی را اتخاد کنند تا مصرف انرژی به حداقل برسد.
  6. سیستم‌های مدیریت ترافیک: یادگیری تقویتی می‌تواند در بهینه‌سازی سیستم‌های مدیریت ترافیک و راهبری شهری مورد استفاده قرار گیرد. با استفاده از الگوریتم‌های یادگیری تقویتی، می‌توان سیستم‌هایی را طراحی کرد که با تجمیع داده‌های ترافیک، بهترین سیاست‌ها را برای کنترل ترافیک ارائه دهند و بهبود عملکرد در شبکه‌های ترانزیت را به ارمغان آورند.
  7. بهبود عملکرد سیستم‌های خودکار: یادگیری تقویتی می‌تواند در بهبود عملکرد سیستم‌های خودکار مورد استفاده قرار گیرد. عامل‌های یادگیری تقویتی می‌توانند با تجربه و تعامل با محیط، خود را بهبود دهند و سیاست‌های بهینه را برای اجرای وظایف خود یاد بگیرند. این کاربرد در سیستم‌های خودران، سیستم‌های هوشمند خانگی، ربات‌ها و سایر سیستم‌های خودکار قابل استفاده است.

موارد یاد شده تنها چند نمونه از کاربردهای مهم یادگیری تقویتی هستند و در واقع این روش در زمینه‌های مختلفی نظیر پزشکی، تحقیقات عملیاتی، مدیریت منابع طبیعی و غیره نیز مورد استفاده قرار می‌گیرد. همچنین، ترکیب یادگیری تقویتی با سایر روش‌های هوش مصنوعی نظیر یادگیری نظارت شده (Supervised Learning) اجازه می‌دهد سیستم‌های پیچیده‌تری را با هوش مصنوعی مدیریت کرد.

اصطلاحات مهم در یادگیری تقویتی

در یادگیری تقویتی، برخی اصطلاحات و مفاهیم کلیدی وجود دارند که درک و آشنایی با آن‌ها می‌تواند کمک کننده باشد. برخی از اصطلاحات مهم در یادگیری تقویتی به شرح زیر هستند:

  1. عامل (Agent): عامل، هر سامانه‌ای است که در یک محیط بازی کند و اقداماتی را انجام دهد تا به هدفی خاص برسد. عامل می‌تواند ربات، نرم‌افزار، بازیکن مصنوعی و غیره باشد.
  2. محیط (Environment): محیط، محدوده فیزیکی یا مجازی است که عامل در آن قرار می‌گیرد و با آن تعامل دارد. محیط می‌تواند هر چیزی باشد که عامل با آن در تعامل است، مانند جهان واقعی، بازی رایانه‌ای، شبکه‌های عصبی و غیره.
  3. حالت (State): حالت، وضعیت فعلی محیط را نشان می‌دهد. این وضعیت ممکن است بر اساس داده‌های حسی که عامل دریافت می‌کند، تعریف شود. حالت می‌تواند اطلاعاتی مانند موقعیت، سرعت، شرایط محیطی و غیره را شامل شود.
  4. عمل (Action): عمل، اقدامی است که عامل انجام می‌دهد تا وضعیت محیط را تغییر دهد. عمل می‌تواند یک گزینه مشخص از مجموعه عمل‌های ممکن یا یک تصمیم گیری پیچیده باشد.
  5. پاداش (Reward): پاداش، ارزشی است که به عامل داده می‌شود بر اساس عملی که انجام داده است. هدف عامل در یادگیری تقویتی، حداکثر کردن پاداش‌ها در طول زمان است. پاداش می‌تواند مثبت، منفی یا صفر باشد و به عامل اطلاعاتی درباره کیفیت عملکرد خود می‌دهد.
  6. سیاست (Policy): سیاست، تابعی است که تعیین می‌کند که در هر حالت عامل چه عملی را انتخاب کند. سیاست معمولا به صورت استراتژی‌های تصمیم‌گیری مدل می‌شود که مشخص می‌کند کدام عمل در هر حالت بهتر است.
  7. تابع ارزش (Value Function): تابع ارزش، تخمینی است از ارزش یک حالت یا یک جفت حالت و عمل. تابع ارزش نشان می‌دهد که هر حالت یا جفت حالت و عمل چه وضعیتی دارند.
  8. تابع کیو (Q-Function): تابع Q، تابعی است که برای هر جفت حالت و عمل، ارزش مورد انتظار (مجموعه پاداش‌های آتی) را تخمین می‌زند. تابع Q به صورت مستقیم از سیاست و تابع پاداش استفاده می‌کند.
  9. تابع هدف (Objective Function): تابع هدف، معیاری است که برای اندازه‌گیری عملکرد عامل در یادگیری تقویتی استفاده می‌شود. هدف ممکن است حداکثر کردن پاداش کلی، حداقل کردن جریمه یا دست‌یابی به یک هدف خاص باشد.
  10. تابع انتقال (Transition Function): تابع انتقال، تابعی است که وضعیت بعدی محیط را بر اساس وضعیت فعلی و عمل انجام شده توسط عامل محاسبه می‌کند.
  11. خط مشی (Policy Gradient): خط مشی، روشی است که از گرادیان تابع هدف برای بهبود سیاست استفاده می‌کند. در این روش، گرادیان سیاست نسبت به پارامترهای سیاست محاسبه می‌شود و بر اساس آن‌ها سیاست بهبود می یابد.
  12. عامل مبتنی بر مدل (Model-Based Agent): عامل مبتنی بر مدل، عاملی است که یک مدل دقیق از محیط را دارد و از آن برای برنامه‌ریزی و برنامه‌نویسی عملکرد خود استفاده می‌کند. این مدل به عامل اجازه می‌دهد وضعیت‌های آتی را پیش بینی کند و برنامه‌ریزی بهینه‌تری را انجام دهد.
  13. استراتژی اکتشاف و بهره‌برداری (Exploration and Exploitation Strategy): استراتژی اکتشاف و بهره‌برداری، تعادلی است که عامل باید بین کاوش محیط برای کشف عملکردهای بهتر و بهره‌برداری از عملکردهای قبلی برای بهبود کارایی خود برقرار کند.
  14. شبکه عصبی عمیق (Deep Neural Network): شبکه عصبی عمیق، یک معماری شبکه عصبی است که شامل لایه‌های ژرف و پیچیده‌تری است. این شبکه‌ها معمولا برای تقویت یادگیری استفاده می‌شوند، زیرا قابلیت یادگیری و تعمیم بالایی دارند.
5/5 - (1 امتیاز)

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *