From 60c384bcd2b6f0cf9569fa8999ac8f7eff98b31a Mon Sep 17 00:00:00 2001
From: pink-red <94079189+pink-red@users.noreply.github.com>
Date: Wed, 12 Oct 2022 23:43:37 +0400
Subject: [PATCH] Fix fine-tuning compatibility with deepspeed (#816)

---
 examples/text_to_image/train_text_to_image.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/examples/text_to_image/train_text_to_image.py b/examples/text_to_image/train_text_to_image.py
index 2a29b7fa2d..c3c3c75438 100644
--- a/examples/text_to_image/train_text_to_image.py
+++ b/examples/text_to_image/train_text_to_image.py
@@ -568,7 +568,7 @@ def main():
 
                 # Predict the noise residual and compute loss
                 noise_pred = unet(noisy_latents, timesteps, encoder_hidden_states).sample
-                loss = F.mse_loss(noise_pred, noise, reduction="mean")
+                loss = F.mse_loss(noise_pred.float(), noise.float(), reduction="mean")
 
                 # Gather the losses across all processes for logging (if we use distributed training).
                 avg_loss = accelerator.gather(loss.repeat(args.train_batch_size)).mean()