Mod Engine 2完全指南:解锁魂系游戏模组创作的终极利器
2025/12/25 6:25:47
在强化学习中,为训练循环做好准备需要一系列的步骤。首先,我们使用RandomTFPolicy来初始化收集策略,代码如下:
from tf_agents.policies.random_tf_policy import RandomTFPolicy initial_collect_policy = RandomTFPolicy(tf_env.time_step_spec(), tf_env.action_spec())接着,创建DynamicStepDriver来收集初始经验:
init_driver = DynamicStepDriver( tf_env, initial_collect_policy, observers=[replay_buffer.add_batch, ShowProgress(20000)], num_steps=20000) # <=> 80,000 ALE frames final_time_step, final_policy_state = init_driver.run()此时,训练循环所需的大部分组件已就位,只差数据集这一关键部分。