crumb
/

gzip-openhermes

Inference Endpoints

Model card Files Files and versions Community

crumb commited on Nov 20, 2023

Commit

a2aeb80

·

1 Parent(s): 8789d56

Upload model

Files changed (3) hide show

config.json +2 -2
config_gzipembed.py +2 -2
modeling_gzipembed.py +6 -6

config.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26df1c5bae0d1013f5211eb1ce268622d68d8dfccdd186759695ad355dd2c473
-size 402241252

 version https://git-lfs.github.com/spec/v1
+oid sha256:4eafe0625df8078f9a08d9469a8e67d2ed836b4d82bf1123f9fa469764ca60b2
+size 200272042

config_gzipembed.py CHANGED Viewed

@@ -20,8 +20,8 @@ class GZIPEmbeddingConfig(PretrainedConfig):
     ):
         self.corpus = corpus
         self.normalize = normalize
-        self.normalized_corpus = normalized_corpus
-        self.reduction = reduction
         self.reduced_dimension = reduced_dimension,
         self.remove_stop_words = remove_stop_words
         self.stop_words = stop_words

     ):
         self.corpus = corpus
         self.normalize = normalize
+        self.normalized_corpus = normalized_corpus
+        self.reduction = reduction
         self.reduced_dimension = reduced_dimension,
         self.remove_stop_words = remove_stop_words
         self.stop_words = stop_words

modeling_gzipembed.py CHANGED Viewed

@@ -21,7 +21,7 @@ class GZIPEmbeddingModel(PreTrainedModel):
         global p
         def calculate_ncd_row(data_row):
             i = data_row[0]
-            row = self.ncd(data_row[1], prompt)
             return i, row
         if type(prompt) == str:
             prompt = [prompt]
@@ -52,18 +52,18 @@ class GZIPEmbeddingModel(PreTrainedModel):
         x_c = len(gzip.compress(_x.encode()))
         y_c = len(gzip.compress(_y.encode()))
         xy_c = len(gzip.compress(f"{_x} {_y}".encode()))
-        return (xy_c-min(x_c,y_c))/max(x_c,y_c)
     def gzip_embed(
         self,
-        corpus,
-        document,
         verbose=False,
     ):
         embedding = []
         for reference_document in (corpus if not verbose else tqdm(corpus)):
             embedding.append(self.ncd(reference_document, document))
         return embedding
     def dimensionality(self):
         return len(self.config.corpus)

         global p
         def calculate_ncd_row(data_row):
             i = data_row[0]
+            row = self.ncd(data_row[1], p)
             return i, row
         if type(prompt) == str:
             prompt = [prompt]
         x_c = len(gzip.compress(_x.encode()))
         y_c = len(gzip.compress(_y.encode()))
         xy_c = len(gzip.compress(f"{_x} {_y}".encode()))
+        return (xy_c-min(x_c,y_c))/max(x_c,y_c)
     def gzip_embed(
         self,
+        corpus,
+        document,
         verbose=False,
     ):
         embedding = []
         for reference_document in (corpus if not verbose else tqdm(corpus)):
             embedding.append(self.ncd(reference_document, document))
         return embedding
     def dimensionality(self):
         return len(self.config.corpus)