Update README.md
Browse files
README.md
CHANGED
@@ -5,3 +5,143 @@ language:
|
|
5 |
---
|
6 |
|
7 |
Llama-2-7b-base fine-tuned on the Chitanka dataset and a dataset made of scraped news comments dating mostly from 2022/2023.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5 |
---
|
6 |
|
7 |
Llama-2-7b-base fine-tuned on the Chitanka dataset and a dataset made of scraped news comments dating mostly from 2022/2023.
|
8 |
+
|
9 |
+
The model was fine-tuned using PEFT and QLORA for 12000 steps.
|
10 |
+
|
11 |
+
**Example Usage**
|
12 |
+
|
13 |
+
|
14 |
+
```
|
15 |
+
import torch
|
16 |
+
from transformers import LlamaForCausalLM, LlamaTokenizer, GenerationConfig
|
17 |
+
|
18 |
+
tokenizer = LlamaTokenizer.from_pretrained("bogdan1/llama2-bg")
|
19 |
+
model = LlamaForCausalLM.from_pretrained("bogdan1/llama2-bg")
|
20 |
+
|
21 |
+
inputs = tokenizer("Спомените ми прекъснаха в момента, когато", return_tensors="pt")
|
22 |
+
input_ids = inputs["input_ids"].to(model.device)
|
23 |
+
|
24 |
+
generation_config = GenerationConfig(
|
25 |
+
do_sample = False,
|
26 |
+
temperature = 0.8,
|
27 |
+
top_p = 1.0,
|
28 |
+
top_k = 50,
|
29 |
+
repetition_penalty = 1.2,
|
30 |
+
max_new_tokens = 128,
|
31 |
+
use_cache=False
|
32 |
+
)
|
33 |
+
|
34 |
+
|
35 |
+
with torch.no_grad():
|
36 |
+
generation_output = model.generate(
|
37 |
+
input_ids=input_ids,
|
38 |
+
attention_mask=torch.ones_like(input_ids),
|
39 |
+
generation_config=generation_config,
|
40 |
+
)
|
41 |
+
|
42 |
+
output_text = tokenizer.decode(generation_output[0].cuda(), skip_special_tokens=True).strip()
|
43 |
+
|
44 |
+
```
|
45 |
+
|
46 |
+
|
47 |
+
**Output comparison**
|
48 |
+
|
49 |
+
Given a number of prompts, here's how the fine-tuned model compares to the vanilla Llama-2-7b.
|
50 |
+
|
51 |
+
*Бойко Борисов е*
|
52 |
+
|
53 |
+
Llama-2-7b:
|
54 |
+
|
55 |
+
>Бойко Борисов е български политик, бивш министър-председател на България.
|
56 |
+
>
|
57 |
+
>## Биография и кариера
|
58 |
+
>
|
59 |
+
>Роден е в град София през 1952 г., но семейството му се премества да живее във Варна още докато той е малък. Завършил е висше образование по специалност „Икономика“ (СУ „Климент Охридски“, Факултет за международни отношения).
|
60 |
+
|
61 |
+
|
62 |
+
Factuality is off, hallucinates.
|
63 |
+
|
64 |
+
Llama2-bg:
|
65 |
+
|
66 |
+
>Бойко Борисов е най-големия предател на България.Ще видим колко ще се оправя с него и неговите слуги от ПП,ДБ и ДПС!Този човек трябва да бъде затворен в психиатрията!!!!!Никой няма право да го пуска извън там!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
|
67 |
+
|
68 |
+
Toxicity is high.
|
69 |
+
|
70 |
+
|
71 |
+
*Спомените ми прекъснаха в момента, когато*
|
72 |
+
|
73 |
+
Llama-2-7b:
|
74 |
+
|
75 |
+
>Спомените ми прекъснаха в момента, когато се опитам да пиша за тези страни.
|
76 |
+
>От 1945 г., докато не постъпва на работа като журналист през 2003 г., а след това и до днешно време, съм работил във финансите – първоначално като банков служител (от 1968), а после като управляващ директор на две банки (от 1979). След като станах журналист, отново една година бях банкерски консу
|
77 |
+
|
78 |
+
Llama2-bg:
|
79 |
+
|
80 |
+
>Спомените ми прекъснаха в момента, когато се насочих към вратата.
|
81 |
+
>— Какво става? — попитах аз и забелязах как тя ме гледа с непознати очи.
|
82 |
+
>Тя кимна бавно:
|
83 |
+
>— Не съм сигурна… но може би е време да излезем от туй.
|
84 |
+
>Изведнъж разбрах какви са чудесата й. Това беше единственият път, през който някога щяхме да бъдем свободни.
|
85 |
+
|
86 |
+
*Тая държава я съсипаха*
|
87 |
+
|
88 |
+
Llama-2-7b:
|
89 |
+
|
90 |
+
>Тая държава я съсипаха, а тезите си дали на някого друг.
|
91 |
+
>The state has destroyed her and those who gave it to someone else.
|
92 |
+
|
93 |
+
One of the main problems with Llama-2, it continues generating in English, probably due to insufficient multilingual training data.
|
94 |
+
|
95 |
+
Llama2-bg:
|
96 |
+
|
97 |
+
>Тая държава я съсипаха тиквун и кокорчо.Ще видим какво ще стане след избори,ако не се намери правителство.Но защо да гласуват хората?Защото няма други възможности.Ами ако имат друга алтернатива?Това е проблемът с демокрацията-не можеш да си вземеш решение без да гласуваш!Или по-скоро -да не гласувате,за да не ни управляват тези кра
|
98 |
+
|
99 |
+
The grammar is a bit off.
|
100 |
+
|
101 |
+
|
102 |
+
*Мама умряла днес. Или може би вчера, не знам.*
|
103 |
+
|
104 |
+
The famous opening line by Albert Camus.
|
105 |
+
|
106 |
+
Llama-2-7b:
|
107 |
+
|
108 |
+
>Мама умряла днес. Или може би вчера, не знам.
|
109 |
+
>Mama died today. Or maybe yesterday, I don't know.
|
110 |
+
|
111 |
+
Llama2-bg:
|
112 |
+
|
113 |
+
>Мама умряла днес. Или може би вчера, не знам.
|
114 |
+
>— Какво? — извикаха двамата мъже и се обърнаха към него с очите си разширени от сълзи или гняв.
|
115 |
+
>Той погледна нагоре през прозореца и видя как едва започват да се появяват птиците. След това се обърна обратно към тях:
|
116 |
+
>— Не мога да кажа нищо повече. Аз нямах време да я чуя. Това беше единственото, ко
|
117 |
+
|
118 |
+
*5 бързи стъпки за оправяне на България:*
|
119 |
+
|
120 |
+
Llama-2-7b:
|
121 |
+
|
122 |
+
>5 бързи стъпки за оправяне на България:
|
123 |
+
|
124 |
+
>1. Следите от корупцията
|
125 |
+
>The Bulgarian government has been in power for almost a year now, and the country is still struggling with corruption scandals that have rocked it to its core. The latest one involves the former Prime Minister Boyko Borisov’s son-in-law who was arrested on suspicion of money laundering after being accused by his father-in-law of embezzling millions from state funds during his tenure as head of Bulgaria's State Fund Agriculture (SFA). This comes just weeks before an election which could see him return
|
126 |
+
|
127 |
+
|
128 |
+
Llama2-bg:
|
129 |
+
|
130 |
+
>5 бързи стъпки за оправяне на България:
|
131 |
+
>
|
132 |
+
>1.Ънтите се от властта
|
133 |
+
>
|
134 |
+
>2.Седят в тюрьма докато не им е ясно колко са кражби и престъпления
|
135 |
+
>
|
136 |
+
>3.Прекратяване на държавната помощ към Украйна
|
137 |
+
>
|
138 |
+
>4.Връщане на парите обратно на хората
|
139 |
+
>
|
140 |
+
>5.Да си избираме правителство с максимум 60 депутати!Това ще ни даде възможност да управляваме страната без чужда подкрепа!!
|
141 |
+
|
142 |
+
Not ideal, throws a Russian word in the mix as well.
|
143 |
+
|
144 |
+
|
145 |
+
**Future steps**
|
146 |
+
|
147 |
+
Train for more epochs and try to fine-tune the larger Llama-2 models and compare results.
|