OffPolicyDoubleActorDoubleCritic

OffPolicyDoubleActorDoubleCritic(
   observation_space: gym.Space, action_space: gym.Space, feature_dim: int = 64,
   hidden_dim: int = 1024, opt_class: Type[th.optim.Optimizer] = th.optim.Adam,
   opt_kwargs: Optional[Dict[str, Any]] = None, init_fn: str = 'orthogonal'
)

Double deterministic actor network and double critic network for off-policy algortithms like DDPG, TD3. Here the 'self.dist' refers to an action noise.

Args

observation_space (gym.Space) : Observation space.
action_space (gym.Space) : Action space.
feature_dim (int) : Number of features accepted.
hidden_dim (int) : Number of units per hidden layer.
opt_class (Type[th.optim.Optimizer]) : Optimizer class.
opt_kwargs (Dict[str, Any]) : Optimizer keyword arguments.
init_fn (str) : Parameters initialization method.

Returns

Actor-Critic network.

Methods:

.describe

source

.describe()

Describe the policy.

.freeze

source

.freeze(
   encoder: nn.Module, dist: Distribution
)

Freeze all the elements like encoder and dist.

Args

encoder (nn.Module) : Encoder network.
dist (Distribution) : Distribution.

Returns

None.

.forward

source

.forward(
   obs: th.Tensor, training: bool = True
)

Sample actions based on observations.

Args

obs (th.Tensor) : Observations.
training (bool) : Training mode, True or False.

Returns

Sampled actions.

.get_dist

source

.get_dist(
   obs: th.Tensor
)

Get sample distribution.

Args

obs (th.Tensor) : Observations.

Returns

RLLTE distribution.

.save

source

.save(
   path: Path, pretraining: bool, global_step: int
)

Save models.

Args

path (Path) : Save path.
pretraining (bool) : Pre-training mode.
global_step (int) : Global training step.

Returns

None.