强化学习 – 第 5 页 – AI产品经理培训 – 全才 Qgenius®

2025年7月20日2025年7月20日专业术语

什么是机器人决策优化？

机器人决策优化是指在动态环境中，通过算法和计 […]

2025年7月20日2025年7月20日专业术语

什么是机器人任务学习？

机器人任务学习是指智能体通过与环境交互，自主 […]

2025年7月20日2025年7月20日专业术语

什么是机器人社会规范学习？

机器人社会规范学习是指智能体通过观察、交互和 […]

2025年7月19日2025年7月20日专业术语

什么是奖励模型（Reward Model）？

奖励模型（Reward Model）是强化学 […]

2025年7月19日2025年7月20日专业术语

什么是近端策略优化（Proximal Policy Optimization, PPO）？

近端策略优化（Proximal Policy […]

2025年7月19日2025年7月20日专业术语

什么是对话策略学习（Dialogue Policy Learning）？

对话策略学习（Dialogue Policy […]

2025年7月19日2025年7月20日专业术语

什么是强化学习环境？

强化学习环境是强化学习系统中智能体（agen […]

2025年7月19日2025年7月20日专业术语

什么是模拟环境（Simulation Environment）？

模拟环境（Simulation Enviro […]

2025年7月19日2025年7月20日专业术语

什么是机器人学习？

机器人学习（Robot Learning）是 […]

2025年7月19日2025年7月20日专业术语

什么是基于模型（Model-based）的强化学习？

基于模型的强化学习（Model-based […]