|
--- |
|
language: |
|
- ru |
|
license: apache-2.0 |
|
pipeline_tag: text-generation |
|
--- |
|
|
|
# BulgakovLM 3B |
|
|
|
A language model trained on Russian. May be suitable for further tuning. The 100 gigabyte dataset consisted primarily of web pages, books, poems, and prose. The model was trained over 2 epochs. |
|
|
|
Uses GPT-J architecture with a context window of 4k tokens. |
|
|
|
Trained thanks to a TRC grant on TPU-VM v3-8 |
|
|
|
# Usage |
|
```python |
|
from transformers import AutoTokenizer, AutoModelForCausalLM |
|
import torch |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("0x7o/BulgakovLM-3B") |
|
model = AutoModelForCausalLM.from_pretrained("0x7o/BulgakovLM-3B") |
|
|
|
input_ids = tokenizer("Искусственный интеллект - это", return_tensors='pt').to(model.device)["input_ids"] |
|
output = model.generate(input_ids, max_new_tokens=48, do_sample=True, temperature=0.7) |
|
print(tokenizer.decode(output[0])) |
|
``` |
|
Output: |
|
``` |
|
Искусственный интеллект - это всего-навсего программа, которая анализирует данные и решает, насколько тот или иной выбор может оказаться оптимальным. Как и во всех остальных сферах человеческой деятельности, в IT есть свои плюсы и минусы. И если в прошлом веке искусственный интеллект был чем |
|
``` |