keyt5-large / README.md
Danil
Update README.md
13d42ee
|
raw
history blame
4.81 kB
metadata
language:
  - ru
license: mit
inference:
  parameters:
    top_p: 1
widget:
  - text: >-
      text-text: В России может появиться новый штамм коронавируса «омикрон»,
      что может привести к подъему заболеваемости в январе, заявил доцент
      кафедры инфекционных болезней РУДН Сергей Вознесенский. Он отметил, что
      вариант «дельта» вызывал больше летальных случаев, чем омикрон, именно на
      фоне «дельты» была максимальная летальность.
    example_title: Коронавирус
  - text: >-
      text-text: Начальника штаба обороны Великобритании адмирала Тони Радакина
      заставили имитировать активность во время визита в ангар с тяжелым
      вооружением, сообщила британская пресса. В приказе говорилось, что
      военнослужащим было велено подбегать к автомобилям, открывать все люки,
      затворы, листать руководство по эксплуатации и осматриваться машины, будто
      проводится функциональный тест для обеспечения правильной работы
      оборудования.
    example_title: Британия
  - text: >-
      text-text: Для воспроизведения музыки достаточно нажимать на кнопки
      клавиатуры. Каждой клавише соответствует определенный семпл — есть
      маракасы и футуристичные звуки, напоминающие выстрелы бластеров. Из всего
      многообразия можно формировать собственные паттерны и наблюдать за
      визуализацией с анимированными геометрическими фигурами. Что интересно,
      нажатием клавиши пробел можно полностью переменить оформление, цвета на
      экране и звучание семплов.
    example_title: Технологии

keyT5. Large version

Supported languages: ru

Github - text2keywords

Pretraining Large version | Pretraining Base version

Usage

Example usage (the code returns a list with keywords. duplicates are possible):

Try Model Training In Colab!

pip install transformers sentencepiece
from itertools import groupby
import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = "0x7194633/keyt5-large" # or 0x7194633/keyt5-base
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

def generate(text, **kwargs):
    inputs = tokenizer(text, return_tensors='pt')
    with torch.no_grad():
        hypotheses = model.generate(**inputs, num_beams=5, **kwargs)
    s = tokenizer.decode(hypotheses[0], skip_special_tokens=True)
    s = s.replace('; ', ';').replace(' ;', ';').lower().split(';')[:-1]
    s = [el for el, _ in groupby(s)]
    return s

article = """Reuters сообщил об отмене 3,6 тыс. авиарейсов из-за «омикрона» и погоды
Наибольшее число отмен авиарейсов 2 января пришлось на американские авиакомпании 
SkyWest и Southwest, у каждой — более 400 отмененных рейсов. При этом среди 
отмененных 2 января авиарейсов — более 2,1 тыс. рейсов в США. Также свыше 6400 
рейсов были задержаны."""

print(generate(article, top_p=1.0, max_length=64))  
# ['авиаперевозки', 'отмена авиарейсов', 'отмена рейсов', 'отмена авиарейсов', 'отмена рейсов', 'отмена авиарейсов']

Training

Go to the training notebook and learn more about it:

Try Model Training In Colab!