GDG on Campus National Tsing Hua University - Hsinchu City, Taiwan
本活動將探討深度強化學習中的近端策略優化(Proximal Policy Optimization, PPO)方法,並分析其在策略學習中的優勢與應用。PPO 透過限制策略更新幅度來平衡學習穩定性與探索效率,廣泛應用於機器人控制、遊戲 AI 及自動決策系統。活動將結合理論講解與實作示範,幫助參與者理解 PPO 的核心概念與實現方式,並學習如何應用該方法提升強化學習模型的表現。
1 RSVP'd
本活動將深入介紹近端策略優化(Proximal Policy Optimization, PPO)演算法,探討其相較於傳統策略梯度方法的改進之處,特別是在穩定性與收斂效率上的優勢。我們將透過數學推導解析 PPO 的核心概念,如截斷重要性採樣與信賴域策略更新,並輔以實作示範,讓參與者掌握如何應用 PPO 於強化學習任務。活動適合對強化學習有基礎了解的學員,並希望進一步學習如何提升策略學習的效能與實務應用。
Wednesday, April 30, 2025
11:00 AM – 1:00 PM (UTC)
Contact Us