|
--- |
|
language: |
|
- ru |
|
license: apache-2.0 |
|
inference: |
|
parameters: |
|
top_p: 0.9 |
|
widget: |
|
- text: "В России может появиться новый штамм коронавируса «омикрон», что может привести к подъему заболеваемости в январе, заявил доцент кафедры инфекционных болезней РУДН Сергей Вознесенский. Он отметил, что вариант «дельта» вызывал больше летальных случаев, чем омикрон, именно на фоне «дельты» была максимальная летальность." |
|
example_title: "Коронавирус" |
|
- text: "Начальника штаба обороны Великобритании адмирала Тони Радакина заставили имитировать активность во время визита в ангар с тяжелым вооружением, сообщила британская пресса. В приказе говорилось, что военнослужащим было велено подбегать к автомобилям, открывать все люки, затворы, листать руководство по эксплуатации и осматриваться машины, будто проводится функциональный тест для обеспечения правильной работы оборудования." |
|
example_title: "Британия" |
|
- text: "Для воспроизведения музыки достаточно нажимать на кнопки клавиатуры. Каждой клавише соответствует определенный семпл — есть маракасы и футуристичные звуки, напоминающие выстрелы бластеров. Из всего многообразия можно формировать собственные паттерны и наблюдать за визуализацией с анимированными геометрическими фигурами. Что интересно, нажатием клавиши пробел можно полностью переменить оформление, цвета на экране и звучание семплов." |
|
example_title: "Технологии" |
|
--- |
|
## keyT5. Large version |
|
|
|
Example usage (the code returns a list with keywords. duplicates are possible): |
|
```python |
|
from itertools import groupby |
|
import torch |
|
from transformers import T5ForConditionalGeneration, T5Tokenizer |
|
|
|
model_name = "0x7194633/keyt5-large" |
|
tokenizer = T5Tokenizer.from_pretrained(model_name) |
|
model = T5ForConditionalGeneration.from_pretrained(model_name) |
|
|
|
def generate(text, **kwargs): |
|
inputs = tokenizer(text, return_tensors='pt') |
|
with torch.no_grad(): |
|
hypotheses = model.generate(**inputs, num_beams=5, **kwargs) |
|
s = tokenizer.decode(hypotheses[0], skip_special_tokens=True) |
|
s = s.replace('; ', ';').replace(' ;', ';').lower().split(';') |
|
s = [el for el, _ in groupby(s)] |
|
return s |
|
|
|
|
|
article = """Названы опасные для поджелудочной железы продукты |
|
Врач лабораторной диагностики сети медицинских офисов LabQuest Анна Сафонова |
|
рассказала, что за последние десять лет диагноз «панкреатит» ставится в три |
|
раза чаще. Специалист отметила, что в зоне риска находятся люди 30–40 лет, а |
|
динамика заболеваемости среди подростков превышает средние показатели. |
|
Причиной этого является несбалансированное питание, акцент в котором сделан на |
|
углеводистую и жирную пищу, а также массовая приверженность фастфудом.""" |
|
|
|
|
|
print(generate(article, top_p=1.0, max_length=64)) |
|
|
|
# ['лабораторная диагностика', 'панкреатит', 'профилактика', 'профилактика заболеваний', 'научно-популярное', 'биотехнологии', 'здоровье'] |
|
``` |