机器人决策优化是指在动态环境中,通过算法和计 […]
机器人任务学习是指智能体通过与环境交互,自主 […]
机器人社会规范学习是指智能体通过观察、交互和 […]
奖励模型(Reward Model)是强化学 […]
近端策略优化(Proximal Policy […]
对话策略学习(Dialogue Policy […]
强化学习环境是强化学习系统中智能体(agen […]
模拟环境(Simulation Enviro […]
机器人学习(Robot Learning)是 […]
基于模型的强化学习(Model-based […]