From baf23e2da3f0816d1ebe870ccd66249fa3e5ceaa Mon Sep 17 00:00:00 2001
From: Daniel Gu <dgu8957@gmail.com>
Date: Wed, 17 Dec 2025 11:14:45 +0100
Subject: [PATCH] Explicitly specify temporal and spatial VAE scale factors
 when converting

---
 scripts/convert_ltx2_to_diffusers.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/scripts/convert_ltx2_to_diffusers.py b/scripts/convert_ltx2_to_diffusers.py
index dfec0262de..85fa169af3 100644
--- a/scripts/convert_ltx2_to_diffusers.py
+++ b/scripts/convert_ltx2_to_diffusers.py
@@ -241,6 +241,8 @@ def get_ltx2_video_vae_config(version: str) -> Tuple[Dict[str, Any], Dict[str, A
                 "resnet_norm_eps": 1e-6,
                 "encoder_causal": True,
                 "decoder_causal": True,
+                "spatial_compression_ratio": 32,
+                "temporal_compression_ratio": 8,
             },
         }
         rename_dict = LTX_2_0_VIDEO_VAE_RENAME_DICT
@@ -274,6 +276,8 @@ def get_ltx2_video_vae_config(version: str) -> Tuple[Dict[str, Any], Dict[str, A
                 "resnet_norm_eps": 1e-6,
                 "encoder_causal": True,
                 "decoder_causal": True,
+                "spatial_compression_ratio": 32,
+                "temporal_compression_ratio": 8,
             },
         }
         rename_dict = LTX_2_0_VIDEO_VAE_RENAME_DICT