FRLlibAPPOSettings

A struct to hold Asynchronous Proximal Policy Optimization(APPO) settings for an RLLib training script.

struct FRLlibAPPOSettings : public FTrainingSettings

Methods

virtual void GenerateTrainingArgs(FScriptArgBuilder &ArgBuilder) const

Appends APPO-related CLI arguments to the training script builder.

virtual ~FRLlibAPPOSettings()

bool bVTrace = true

Whether to use V-trace for off-policy correction (APPO).

float VTraceClipRhoThreshold = 1.0

V-trace rho clipping threshold.

float VTraceClipPGRhoThreshold = 1.0

V-trace policy-gradient rho clipping threshold.

float GAELambda = 0.95

GAE lambda for advantage estimation.

float ClipParam = 0.2

PPO-style policy clipping parameter.

bool bUseGAE = true

Whether to use generalized advantage estimation.

Source: Source/ScholaTraining/Public/TrainingSettings/Ray/Algorithms/RLlibAPPOSettings.h