|
--- |
|
license: mit |
|
language: |
|
- bg |
|
--- |
|
|
|
Llama-2-7b-base fine-tuned on the Chitanka dataset and a dataset made of scraped news comments dating mostly from 2022/2023. |
|
|
|
The model was fine-tuned using PEFT and QLORA for 12000 steps. |
|
|
|
**Example Usage** |
|
|
|
|
|
``` |
|
import torch |
|
from transformers import LlamaForCausalLM, LlamaTokenizer, GenerationConfig |
|
|
|
tokenizer = LlamaTokenizer.from_pretrained("bogdan1/llama2-bg") |
|
model = LlamaForCausalLM.from_pretrained("bogdan1/llama2-bg") |
|
|
|
inputs = tokenizer("Спомените ми прекъснаха в момента, когато", return_tensors="pt") |
|
input_ids = inputs["input_ids"].to(model.device) |
|
|
|
generation_config = GenerationConfig( |
|
do_sample = False, |
|
temperature = 0.8, |
|
top_p = 1.0, |
|
top_k = 50, |
|
repetition_penalty = 1.2, |
|
max_new_tokens = 128, |
|
use_cache=False |
|
) |
|
|
|
|
|
with torch.no_grad(): |
|
generation_output = model.generate( |
|
input_ids=input_ids, |
|
attention_mask=torch.ones_like(input_ids), |
|
generation_config=generation_config, |
|
) |
|
|
|
output_text = tokenizer.decode(generation_output[0].cuda(), skip_special_tokens=True).strip() |
|
|
|
``` |
|
|
|
|
|
**Output comparison** |
|
|
|
Given a number of prompts, here's how the fine-tuned model compares to the vanilla Llama-2-7b. |
|
|
|
*Бойко Борисов е* |
|
|
|
Llama-2-7b: |
|
|
|
>Бойко Борисов е български политик, бивш министър-председател на България. |
|
> |
|
>## Биография и кариера |
|
> |
|
>Роден е в град София през 1952 г., но семейството му се премества да живее във Варна още докато той е малък. Завършил е висше образование по специалност „Икономика“ (СУ „Климент Охридски“, Факултет за международни отношения). |
|
|
|
|
|
Factuality is off, hallucinates. |
|
|
|
Llama2-bg: |
|
|
|
>Бойко Борисов е най-големия предател на България.Ще видим колко ще се оправя с него и неговите слуги от ПП,ДБ и ДПС!Този човек трябва да бъде затворен в психиатрията!!!!!Никой няма право да го пуска извън там!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! |
|
|
|
Toxicity is high. |
|
|
|
|
|
*Спомените ми прекъснаха в момента, когато* |
|
|
|
Llama-2-7b: |
|
|
|
>Спомените ми прекъснаха в момента, когато се опитам да пиша за тези страни. |
|
>От 1945 г., докато не постъпва на работа като журналист през 2003 г., а след това и до днешно време, съм работил във финансите – първоначално като банков служител (от 1968), а после като управляващ директор на две банки (от 1979). След като станах журналист, отново една година бях банкерски консу |
|
|
|
Llama2-bg: |
|
|
|
>Спомените ми прекъснаха в момента, когато се насочих към вратата. |
|
>— Какво става? — попитах аз и забелязах как тя ме гледа с непознати очи. |
|
>Тя кимна бавно: |
|
>— Не съм сигурна… но може би е време да излезем от туй. |
|
>Изведнъж разбрах какви са чудесата й. Това беше единственият път, през който някога щяхме да бъдем свободни. |
|
|
|
*Тая държава я съсипаха* |
|
|
|
Llama-2-7b: |
|
|
|
>Тая държава я съсипаха, а тезите си дали на някого друг. |
|
>The state has destroyed her and those who gave it to someone else. |
|
|
|
One of the main problems with Llama-2, it continues generating in English, probably due to insufficient multilingual training data. |
|
|
|
Llama2-bg: |
|
|
|
>Тая държава я съсипаха тиквун и кокорчо.Ще видим какво ще стане след избори,ако не се намери правителство.Но защо да гласуват хората?Защото няма други възможности.Ами ако имат друга алтернатива?Това е проблемът с демокрацията-не можеш да си вземеш решение без да гласуваш!Или по-скоро -да не гласувате,за да не ни управляват тези кра |
|
|
|
The grammar is a bit off. |
|
|
|
|
|
*Мама умряла днес. Или може би вчера, не знам.* |
|
|
|
The famous opening line by Albert Camus. |
|
|
|
Llama-2-7b: |
|
|
|
>Мама умряла днес. Или може би вчера, не знам. |
|
>Mama died today. Or maybe yesterday, I don't know. |
|
|
|
Llama2-bg: |
|
|
|
>Мама умряла днес. Или може би вчера, не знам. |
|
>— Какво? — извикаха двамата мъже и се обърнаха към него с очите си разширени от сълзи или гняв. |
|
>Той погледна нагоре през прозореца и видя как едва започват да се появяват птиците. След това се обърна обратно към тях: |
|
>— Не мога да кажа нищо повече. Аз нямах време да я чуя. Това беше единственото, ко |
|
|
|
*5 бързи стъпки за оправяне на България:* |
|
|
|
Llama-2-7b: |
|
|
|
>5 бързи стъпки за оправяне на България: |
|
|
|
>1. Следите от корупцията |
|
>The Bulgarian government has been in power for almost a year now, and the country is still struggling with corruption scandals that have rocked it to its core. The latest one involves the former Prime Minister Boyko Borisov’s son-in-law who was arrested on suspicion of money laundering after being accused by his father-in-law of embezzling millions from state funds during his tenure as head of Bulgaria's State Fund Agriculture (SFA). This comes just weeks before an election which could see him return |
|
|
|
|
|
Llama2-bg: |
|
|
|
>5 бързи стъпки за оправяне на България: |
|
> |
|
>1.Ънтите се от властта |
|
> |
|
>2.Седят в тюрьма докато не им е ясно колко са кражби и престъпления |
|
> |
|
>3.Прекратяване на държавната помощ към Украйна |
|
> |
|
>4.Връщане на парите обратно на хората |
|
> |
|
>5.Да си избираме правителство с максимум 60 депутати!Това ще ни даде възможност да управляваме страната без чужда подкрепа!! |
|
|
|
Not ideal, throws a Russian word in the mix as well. |
|
|
|
|
|
**Future steps** |
|
|
|
Train for more epochs and try to fine-tune the larger Llama-2 models and compare results. |