vanessbut commited on
Commit
bfa3a29
1 Parent(s): 8e49c01

Исправление кандидатов.

Browse files
Files changed (1) hide show
  1. utils/utils.py +10 -6
utils/utils.py CHANGED
@@ -51,12 +51,16 @@ def get_candidates(text, nlp, min_df=0.0, ngram_range=(1, 3), max_words=None):
51
  for token in nlp_result:
52
  if token.pos_ == "NOUN":
53
  noun_lemmas.add(token.lemma_) # Для одного слова всё-таки бессмысленно хранить форму.
54
- #print(noun_lemmas)
55
-
56
- nouns = set()
57
- for token in nlp_result:
58
- if token.pos_ == "NOUN" and (token.text == token.lemma_ or not (token.text in noun_lemmas)):
59
- nouns.add(token.text)
 
 
 
 
60
  #print(nouns)
61
  nouns = noun_lemmas #nouns.union(noun_lemmas)
62
 
 
51
  for token in nlp_result:
52
  if token.pos_ == "NOUN":
53
  noun_lemmas.add(token.lemma_) # Для одного слова всё-таки бессмысленно хранить форму.
54
+ print(noun_lemmas)
55
+
56
+ #nouns = set()
57
+ #noun_lemmas = set()
58
+
59
+ # Сначала составные слова.
60
+ #for token in nlp_result:
61
+ # if token.pos_ == "NOUN":
62
+ # noun_lemmas.add(token.lemma_) # Для одного слова всё-таки бессмысленно хранить форму.
63
+ # nouns.add(token.text)
64
  #print(nouns)
65
  nouns = noun_lemmas #nouns.union(noun_lemmas)
66