Spaces:

madhavkotecha
/

CS626-CRF

Build error

App Files Files Community

madhavkotecha commited on Oct 2, 2024

Commit

66e18d4

verified ·

1 Parent(s): b4825e9

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -5

app.py CHANGED Viewed

@@ -14,7 +14,7 @@ nltk.download('brown')
 nltk.download('universal_tagset')
 class CRF_POS_Tagger:
-    def __init__(self):
         self.corpus = nltk.corpus.brown.tagged_sents(tagset='universal')
         self.corpus = [[(word.lower(), tag) for word, tag in sentence] for sentence in self.corpus]
         self.actual_tag = []
@@ -42,7 +42,7 @@ class CRF_POS_Tagger:
         self.X_test = self.X[self.split:]
         self.y_test = self.y[self.split:]
         self.crf_model = sklearn_crfsuite.CRF(algorithm='lbfgs', c1=0.1, c2=0.1, max_iterations=100, all_possible_transitions=True)
-        # self.train()
     def word_splitter(self, word):
         prefix = ""
@@ -163,6 +163,7 @@ class CRF_POS_Tagger:
         return metrics.flat_accuracy_score(y_test, y_pred)
     def cross_validation(self):
         data = list(zip(self.X, self.y))
         accuracies = []
         for i in range(5):
@@ -170,8 +171,8 @@ class CRF_POS_Tagger:
             n2 = int((i + 1) / 5.0 * len(data))
             test_data = data[n1:n2]
             train_data = data[:n1] + data[n2:]
-            self.train(train_data)
-            acc = self.accuracy(test_data)
             accuracies.append(acc)
         return accuracies, sum(accuracies) / 5.0
@@ -227,7 +228,7 @@ class CRF_POS_Tagger:
         output = "".join(f"{sentence[i]}[{predicted_tags[0][i]}]    " for i in range(len(sentence)))
         return output
-tagger = CRF_POS_Tagger()
 accuracies, avg_accuracy = tagger.cross_validation()
 print(f"Cross-Validation Accuracies: {accuracies}")

 nltk.download('universal_tagset')
 class CRF_POS_Tagger:
+    def __init__(self, train=False):
         self.corpus = nltk.corpus.brown.tagged_sents(tagset='universal')
         self.corpus = [[(word.lower(), tag) for word, tag in sentence] for sentence in self.corpus]
         self.actual_tag = []
         self.X_test = self.X[self.split:]
         self.y_test = self.y[self.split:]
         self.crf_model = sklearn_crfsuite.CRF(algorithm='lbfgs', c1=0.1, c2=0.1, max_iterations=100, all_possible_transitions=True)
+        self.train() if train
     def word_splitter(self, word):
         prefix = ""
         return metrics.flat_accuracy_score(y_test, y_pred)
     def cross_validation(self):
+        validator = CRF_POS_Tagger()
         data = list(zip(self.X, self.y))
         accuracies = []
         for i in range(5):
             n2 = int((i + 1) / 5.0 * len(data))
             test_data = data[n1:n2]
             train_data = data[:n1] + data[n2:]
+            validator.train(train_data)
+            acc = validator.accuracy(test_data)
             accuracies.append(acc)
         return accuracies, sum(accuracies) / 5.0
         output = "".join(f"{sentence[i]}[{predicted_tags[0][i]}]    " for i in range(len(sentence)))
         return output
+tagger = CRF_POS_Tagger(True)
 accuracies, avg_accuracy = tagger.cross_validation()
 print(f"Cross-Validation Accuracies: {accuracies}")