NovaSky-AI · SumanthRH · Feb 25, 2026 · Feb 4, 2026 · Feb 6, 2026 · Feb 6, 2026
diff --git a/docs/content/docs/configuration/config.mdx b/docs/content/docs/configuration/config.mdx
diff --git a/docs/mkdocs/content/config.md b/docs/mkdocs/content/config.md
@@ -0,0 +1,227 @@
+# Configuration Reference
+
+SkyRL-Train uses Python dataclasses for configuration. The top-level
+`SkyRLTrainConfig` mirrors the YAML configuration structure and can be
+constructed from YAML files, CLI overrides, or plain dicts.
+
+## Top-Level Config
+
+::: skyrl.train.config.SkyRLTrainConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+## Trainer
+
+::: skyrl.train.config.TrainerConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+### Placement
+
+::: skyrl.train.config.PlacementConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+### Policy / Critic / Ref
+
+::: skyrl.train.config.PolicyConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.CriticConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.RefConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+### Model & LoRA
+
+::: skyrl.train.config.ModelConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.SkyRLLoraConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+### Optimizer & Mixed Precision
+
+::: skyrl.train.config.OptimizerConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.MixedPrecisionConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+### FSDP
+
+::: skyrl.train.config.FSDPConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+### Megatron
+
+::: skyrl.train.config.MegatronConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.MegatronDDPConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.MegatronLoraConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.MegatronTorchProfilerConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+### Algorithm
+
+::: skyrl.train.config.AlgorithmConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.SAPOConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.CISPOConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.ClipCovConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.KLCovConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.KLCtrlConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.DynamicSamplingConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.OffPolicyCorrectionConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+### Fully Async
+
+::: skyrl.train.config.FullyAsyncConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+## Generator
+
+::: skyrl.train.config.GeneratorConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+### Inference Engine
+
+::: skyrl.train.config.InferenceEngineConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+### Sampling
+
+::: skyrl.train.config.SamplingParams
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.ChatTemplateConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+## Environment
+
+::: skyrl.train.config.EnvironmentConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+::: skyrl.train.config.SkyRLGymConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+## Data
+
+::: skyrl.train.config.DataConfig
+    options:
+      show_root_heading: true
+      members_order: source
+      show_bases: true
+
+## Utilities
+
+::: skyrl.train.config.config.make_config
+    options:
+      show_root_heading: true
diff --git a/docs/mkdocs/content/skyrl_train_backend.md b/docs/mkdocs/content/skyrl_train_backend.md
@@ -4,19 +4,19 @@ Backend using the SkyRL-Train distributed training framework (FSDP/Megatron).
 
 ## Configuration
 
-::: skyrl.backends.skyrl_train_backend.SkyRLTrainBackendConfig
+::: skyrl.backends.skyrl_train_backend.SkyRLTrainBackendOverrides
     options:
       show_root_heading: true
       members_order: source
       show_bases: true
 
-::: skyrl.backends.skyrl_train_backend.FSDPBackendConfig
+::: skyrl.backends.skyrl_train_backend.FSDPBackendOverrides
     options:
       show_root_heading: true
       members_order: source
       show_bases: true
 
-::: skyrl.backends.skyrl_train_backend.MegatronBackendConfig
+::: skyrl.backends.skyrl_train_backend.MegatronBackendOverrides
     options:
       show_root_heading: true
       members_order: source

diff --git a/docs/mkdocs/mkdocs.yaml b/docs/mkdocs/mkdocs.yaml
@@ -67,6 +67,7 @@ nav:
       - JAX Backend: jax_backend.md
       - "SkyRL-Train Backend":
         - Backend API: skyrl_train_backend.md
+        - Configuration: config.md
         - Data Interface: data.md
         - Generator: generator.md
         - Trainer: trainer.md

diff --git a/examples/train/algorithms/cispo/run_cispo_gsm8k.sh b/examples/train/algorithms/cispo/run_cispo_gsm8k.sh
@@ -29,8 +29,8 @@ uv run --isolated --extra fsdp -m skyrl.train.entrypoints.main_base \
   trainer.placement.colocate_all=true \
   trainer.strategy=fsdp2 \
   trainer.placement.policy_num_gpus_per_node=$NUM_GPUS \
-  generator.num_inference_engines=$NUM_GPUS \
-  generator.inference_engine_tensor_parallel_size=1 \
+  generator.inference_engine.num_engines=$NUM_GPUS \
+  generator.inference_engine.tensor_parallel_size=1 \
   trainer.epochs=20 \
   trainer.eval_batch_size=1024 \
   trainer.eval_before_train=true \
@@ -45,14 +45,14 @@ uv run --isolated --extra fsdp -m skyrl.train.entrypoints.main_base \
   generator.sampling_params.max_generate_length=1024 \
   trainer.policy.optimizer_config.lr=1.0e-6 \
   trainer.algorithm.use_kl_loss=$USE_KL_LOSS \
-  generator.backend=vllm \
-  generator.run_engines_locally=true \
-  generator.weight_sync_backend=nccl \
-  generator.async_engine=true \
+  generator.inference_engine.backend=vllm \
+  generator.inference_engine.run_engines_locally=true \
+  generator.inference_engine.weight_sync_backend=nccl \
+  generator.inference_engine.async_engine=true \
   generator.batched=true \
   environment.env_class=gsm8k \
   generator.n_samples_per_prompt=5 \
-  generator.gpu_memory_utilization=0.8 \
+  generator.inference_engine.gpu_memory_utilization=0.8 \
   trainer.logger="$LOGGER" \
   trainer.project_name="cispo_gsm8k" \
   trainer.run_name="cispo_gsm8k_test" \

diff --git a/examples/train/algorithms/clip_cov_kl_cov/run_clip_cov.sh b/examples/train/algorithms/clip_cov_kl_cov/run_clip_cov.sh
@@ -31,8 +31,8 @@ uv run --isolated --extra fsdp -m skyrl.train.entrypoints.main_base \
   trainer.strategy=fsdp2 \
   trainer.placement.policy_num_gpus_per_node=$NUM_GPUS \
   trainer.placement.ref_num_gpus_per_node=$NUM_GPUS \
-  generator.num_inference_engines=$NUM_GPUS \
-  generator.inference_engine_tensor_parallel_size=1 \
+  generator.inference_engine.num_engines=$NUM_GPUS \
+  generator.inference_engine.tensor_parallel_size=1 \
   trainer.epochs=20 \
   trainer.eval_batch_size=1024 \
   trainer.eval_before_train=true \
@@ -48,14 +48,14 @@ uv run --isolated --extra fsdp -m skyrl.train.entrypoints.main_base \
   trainer.policy.optimizer_config.lr=1.0e-6 \
   trainer.algorithm.use_kl_loss=true \
   trainer.algorithm.kl_loss_coef=0.001 \
-  generator.backend=vllm \
-  generator.run_engines_locally=true \
-  generator.weight_sync_backend=nccl \
-  generator.async_engine=true \
+  generator.inference_engine.backend=vllm \
+  generator.inference_engine.run_engines_locally=true \
+  generator.inference_engine.weight_sync_backend=nccl \
+  generator.inference_engine.async_engine=true \
   generator.batched=true \
   environment.env_class=gsm8k \
   generator.n_samples_per_prompt=5 \
-  generator.gpu_memory_utilization=0.8 \
+  generator.inference_engine.gpu_memory_utilization=0.8 \
   trainer.logger="$LOGGER" \
   trainer.project_name="clip_cov_gsm8k" \
   trainer.run_name="clip_cov_gsm8k_test" \

diff --git a/examples/train/algorithms/clip_cov_kl_cov/run_kl_cov.sh b/examples/train/algorithms/clip_cov_kl_cov/run_kl_cov.sh
@@ -30,8 +30,8 @@ uv run --isolated --extra fsdp -m skyrl.train.entrypoints.main_base \
   trainer.strategy=fsdp2 \
   trainer.placement.policy_num_gpus_per_node=$NUM_GPUS \
   trainer.placement.ref_num_gpus_per_node=$NUM_GPUS \
-  generator.num_inference_engines=$NUM_GPUS \
-  generator.inference_engine_tensor_parallel_size=1 \
+  generator.inference_engine.num_engines=$NUM_GPUS \
+  generator.inference_engine.tensor_parallel_size=1 \
   trainer.epochs=20 \
   trainer.eval_batch_size=1024 \
   trainer.eval_before_train=true \
@@ -47,14 +47,14 @@ uv run --isolated --extra fsdp -m skyrl.train.entrypoints.main_base \
   trainer.policy.optimizer_config.lr=1.0e-6 \
   trainer.algorithm.use_kl_loss=true \
   trainer.algorithm.kl_loss_coef=0.001 \
-  generator.backend=vllm \
-  generator.run_engines_locally=true \
-  generator.weight_sync_backend=nccl \
-  generator.async_engine=true \
+  generator.inference_engine.backend=vllm \
+  generator.inference_engine.run_engines_locally=true \
+  generator.inference_engine.weight_sync_backend=nccl \
+  generator.inference_engine.async_engine=true \
   generator.batched=true \
   environment.env_class=gsm8k \
   generator.n_samples_per_prompt=5 \
-  generator.gpu_memory_utilization=0.8 \
+  generator.inference_engine.gpu_memory_utilization=0.8 \
   trainer.logger="$LOGGER" \
   trainer.project_name="kl_cov_gsm8k" \
   trainer.run_name="kl_cov_gsm8k_test" \

diff --git a/examples/train/algorithms/custom_advantage_estimator/main_custom_adv_est.py b/examples/train/algorithms/custom_advantage_estimator/main_custom_adv_est.py
@@ -2,13 +2,14 @@
 uv run --isolated --extra fsdp -m examples.train.algorithms.custom_advantage_estimator.main_custom_adv_est
 """
 
+import sys
+
 import ray
-import hydra
 import torch
 import numpy as np
-from omegaconf import DictConfig
+from skyrl.train.config import SkyRLTrainConfig
 from skyrl.train.utils import initialize_ray
-from skyrl.train.entrypoints.main_base import BasePPOExp, config_dir, validate_cfg
+from skyrl.train.entrypoints.main_base import BasePPOExp, validate_cfg
 from skyrl.backends.skyrl_train.utils.ppo_utils import AdvantageEstimatorRegistry
 
 
@@ -38,13 +39,13 @@ def compute_simple_baseline_advantage(
 
 
 @ray.remote(num_cpus=1)
-def skyrl_entrypoint(cfg: DictConfig):
+def skyrl_entrypoint(cfg: SkyRLTrainConfig):
     exp = BasePPOExp(cfg)
     exp.run()
 
 
-@hydra.main(config_path=config_dir, config_name="ppo_base_config", version_base=None)
-def main(cfg: DictConfig) -> None:
+def main() -> None:
+    cfg = SkyRLTrainConfig.from_cli_overrides(sys.argv[1:])
     # validate the arguments
     validate_cfg(cfg)