Diffree

Runtime error

App Files Files Community

cocktailpeanut commited on Jul 30, 2024

Commit

a7bed20

1 Parent(s): 8611f7d

update

Browse files

Files changed (1) hide show

stable_diffusion/ldm/modules/encoders/modules.py +11 -9

stable_diffusion/ldm/modules/encoders/modules.py CHANGED Viewed

@@ -5,9 +5,11 @@ import clip
 from einops import rearrange, repeat
 from transformers import CLIPTokenizer, CLIPTextModel, CLIPVisionModel, CLIPModel
 import kornia
 from ldm.modules.x_transformer import Encoder, TransformerWrapper  # TODO: can we directly rely on lucidrains code and simply add this as a reuirement? --> test
 class AbstractEncoder(nn.Module):
     def __init__(self):
@@ -35,7 +37,7 @@ class ClassEmbedder(nn.Module):
 class TransformerEmbedder(AbstractEncoder):
     """Some transformer encoder layers"""
-    def __init__(self, n_embed, n_layer, vocab_size, max_seq_len=77, device="cuda"):
         super().__init__()
         self.device = device
         self.transformer = TransformerWrapper(num_tokens=vocab_size, max_seq_len=max_seq_len,
@@ -52,7 +54,7 @@ class TransformerEmbedder(AbstractEncoder):
 class BERTTokenizer(AbstractEncoder):
     """ Uses a pretrained BERT tokenizer by huggingface. Vocab size: 30522 (?)"""
-    def __init__(self, device="cuda", vq_interface=True, max_length=77):
         super().__init__()
         from transformers import BertTokenizerFast  # TODO: add to reuquirements
         self.tokenizer = BertTokenizerFast.from_pretrained("bert-base-uncased")
@@ -80,7 +82,7 @@ class BERTTokenizer(AbstractEncoder):
 class BERTEmbedder(AbstractEncoder):
     """Uses the BERT tokenizr model and add some transformer encoder layers"""
     def __init__(self, n_embed, n_layer, vocab_size=30522, max_seq_len=77,
-                 device="cuda",use_tokenizer=True, embedding_dropout=0.0):
         super().__init__()
         self.use_tknz_fn = use_tokenizer
         if self.use_tknz_fn:
@@ -136,7 +138,7 @@ class SpatialRescaler(nn.Module):
 class FrozenCLIPEmbedder(AbstractEncoder):
     """Uses the CLIP transformer encoder for text (from Hugging Face)"""
-    def __init__(self, version="openai/clip-vit-large-patch14", device="cuda", max_length=77):
         super().__init__()
         self.tokenizer = CLIPTokenizer.from_pretrained(version)
         self.transformer = CLIPTextModel.from_pretrained(version)
@@ -163,7 +165,7 @@ class FrozenCLIPEmbedder(AbstractEncoder):
 class FrozenCLIPEmbedderBoth(AbstractEncoder):
     """Uses the CLIP transformer encoder for text (from Hugging Face)"""
-    def __init__(self, version="openai/clip-vit-large-patch14", device="cuda", max_length=77, antialias=False,):
         super().__init__()
         self.tokenizer = CLIPTokenizer.from_pretrained(version)
         self.text_transformer = CLIPTextModel.from_pretrained(version)
@@ -217,7 +219,7 @@ class FrozenCLIPEmbedderBoth(AbstractEncoder):
 class CLIPEmbedderWithLearnableTokens(AbstractEncoder):
     """Uses the CLIP transformer encoder for text (from Hugging Face)"""
-    def __init__(self, version="openai/clip-vit-large-patch14", device="cuda", max_length=77, num_learnable_tokens=3):
         super().__init__()
         self.tokenizer = CLIPTokenizer.from_pretrained(version)
         self.transformer = CLIPTextModel.from_pretrained(version)
@@ -253,7 +255,7 @@ class FrozenCLIPTextEmbedder(nn.Module):
     """
     Uses the CLIP transformer encoder for text.
     """
-    def __init__(self, version='ViT-L/14', device="cuda", max_length=77, n_repeat=1, normalize=True):
         super().__init__()
         self.model, _ = clip.load(version, jit=False, device="cpu")
         self.device = device
@@ -289,7 +291,7 @@ class FrozenClipImageEmbedder(nn.Module):
             self,
             model,
             jit=False,
-            device='cuda' if torch.cuda.is_available() else 'cpu',
             antialias=False,
         ):
         super().__init__()
@@ -319,4 +321,4 @@ if __name__ == "__main__":
     from ldm.util import count_params
     model = FrozenCLIPEmbedderBoth()
     breakpoint()
-    count_params(model, verbose=True)

 from einops import rearrange, repeat
 from transformers import CLIPTokenizer, CLIPTextModel, CLIPVisionModel, CLIPModel
 import kornia
+import devicetorch
 from ldm.modules.x_transformer import Encoder, TransformerWrapper  # TODO: can we directly rely on lucidrains code and simply add this as a reuirement? --> test
+DEVICE = devicetorch.get(torch)
 class AbstractEncoder(nn.Module):
     def __init__(self):
 class TransformerEmbedder(AbstractEncoder):
     """Some transformer encoder layers"""
+    def __init__(self, n_embed, n_layer, vocab_size, max_seq_len=77, device=DEVICE):
         super().__init__()
         self.device = device
         self.transformer = TransformerWrapper(num_tokens=vocab_size, max_seq_len=max_seq_len,
 class BERTTokenizer(AbstractEncoder):
     """ Uses a pretrained BERT tokenizer by huggingface. Vocab size: 30522 (?)"""
+    def __init__(self, device=DEVICE, vq_interface=True, max_length=77):
         super().__init__()
         from transformers import BertTokenizerFast  # TODO: add to reuquirements
         self.tokenizer = BertTokenizerFast.from_pretrained("bert-base-uncased")
 class BERTEmbedder(AbstractEncoder):
     """Uses the BERT tokenizr model and add some transformer encoder layers"""
     def __init__(self, n_embed, n_layer, vocab_size=30522, max_seq_len=77,
+                 device=DEVICE,use_tokenizer=True, embedding_dropout=0.0):
         super().__init__()
         self.use_tknz_fn = use_tokenizer
         if self.use_tknz_fn:
 class FrozenCLIPEmbedder(AbstractEncoder):
     """Uses the CLIP transformer encoder for text (from Hugging Face)"""
+    def __init__(self, version="openai/clip-vit-large-patch14", device=DEVICE, max_length=77):
         super().__init__()
         self.tokenizer = CLIPTokenizer.from_pretrained(version)
         self.transformer = CLIPTextModel.from_pretrained(version)
 class FrozenCLIPEmbedderBoth(AbstractEncoder):
     """Uses the CLIP transformer encoder for text (from Hugging Face)"""
+    def __init__(self, version="openai/clip-vit-large-patch14", device=DEVICE, max_length=77, antialias=False,):
         super().__init__()
         self.tokenizer = CLIPTokenizer.from_pretrained(version)
         self.text_transformer = CLIPTextModel.from_pretrained(version)
 class CLIPEmbedderWithLearnableTokens(AbstractEncoder):
     """Uses the CLIP transformer encoder for text (from Hugging Face)"""
+    def __init__(self, version="openai/clip-vit-large-patch14", device=DEVICE, max_length=77, num_learnable_tokens=3):
         super().__init__()
         self.tokenizer = CLIPTokenizer.from_pretrained(version)
         self.transformer = CLIPTextModel.from_pretrained(version)
     """
     Uses the CLIP transformer encoder for text.
     """
+    def __init__(self, version='ViT-L/14', device=DEVICE, max_length=77, n_repeat=1, normalize=True):
         super().__init__()
         self.model, _ = clip.load(version, jit=False, device="cpu")
         self.device = device
             self,
             model,
             jit=False,
+            device=DEVICE,
             antialias=False,
         ):
         super().__init__()
     from ldm.util import count_params
     model = FrozenCLIPEmbedderBoth()
     breakpoint()
+    count_params(model, verbose=True)