File size: 4,410 Bytes
72f1d4e
 
 
 
 
 
9b28371
72f1d4e
 
 
 
 
 
 
4354729
fa88905
b3faeec
 
 
b75f76e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
---
language:
- ru
license: apache-2.0
inference:
  parameters:
    top_p: 0.9
widget:
- text: "В России может появиться новый штамм коронавируса «омикрон», что может привести к подъему заболеваемости в январе, заявил доцент кафедры инфекционных болезней РУДН Сергей Вознесенский. Он отметил, что вариант «дельта» вызывал больше летальных случаев, чем омикрон, именно на фоне «дельты» была максимальная летальность."
  example_title: "Коронавирус"
- text: "Начальника штаба обороны Великобритании адмирала Тони Радакина заставили имитировать активность во время визита в ангар с тяжелым вооружением, сообщила британская пресса. В приказе говорилось, что военнослужащим было велено подбегать к автомобилям, открывать все люки, затворы, листать руководство по эксплуатации и осматриваться машины, будто проводится функциональный тест для обеспечения правильной работы оборудования."
  example_title: "Британия"
- text: "Для воспроизведения музыки достаточно нажимать на кнопки клавиатуры. Каждой клавише соответствует определенный семпл — есть маракасы и футуристичные звуки, напоминающие выстрелы бластеров. Из всего многообразия можно формировать собственные паттерны и наблюдать за визуализацией с анимированными геометрическими фигурами. Что интересно, нажатием клавиши пробел можно полностью переменить оформление, цвета на экране и звучание семплов."
  example_title: "Технологии"
---
## keyT5. Large version

Example usage (the code returns a list with keywords. duplicates are possible):
```python
from itertools import groupby
import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer

model_name = "0x7194633/keyt5-large"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

def generate(text, **kwargs):
    inputs = tokenizer(text, return_tensors='pt')
    with torch.no_grad():
        hypotheses = model.generate(**inputs, num_beams=5, **kwargs)
    s = tokenizer.decode(hypotheses[0], skip_special_tokens=True)
    s = s.replace('; ', ';').replace(' ;', ';').lower().split(';')
    s = [el for el, _ in groupby(s)]
    return s


article = """Названы опасные для поджелудочной железы продукты
Врач лабораторной диагностики сети медицинских офисов LabQuest Анна Сафонова 
рассказала, что за последние десять лет диагноз «панкреатит» ставится в три 
раза чаще. Специалист отметила, что в зоне риска находятся люди 30–40 лет, а 
динамика заболеваемости среди подростков превышает средние показатели. 
Причиной этого является несбалансированное питание, акцент в котором сделан на 
углеводистую и жирную пищу, а также массовая приверженность фастфудом."""


print(generate(article, top_p=1.0, max_length=64))  

# ['лабораторная диагностика', 'панкреатит', 'профилактика', 'профилактика заболеваний', 'научно-популярное', 'биотехнологии', 'здоровье']
```