File size: 6,546 Bytes
9fc6430
4788aa1
53dc86d
 
 
4788aa1
4d01af8
4788aa1
 
 
 
 
 
 
e585a08
b38e06e
b99e295
37d8b91
 
 
 
9fc6430
4788aa1
 
73fc253
 
 
a409d0f
4788aa1
 
 
 
 
 
b3bd5e5
4788aa1
 
 
 
 
a409d0f
 
 
 
 
 
 
4788aa1
 
 
 
 
 
 
 
 
 
 
33849b8
 
 
 
 
4788aa1
 
3911e01
 
4788aa1
 
3911e01
 
4788aa1
 
03e6bd4
4788aa1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a409d0f
4788aa1
03e6bd4
0a75502
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
03e6bd4
0a75502
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
23e53ac
 
 
 
 
 
 
 
4bd22d9
23e53ac
f08804e
 
23e53ac
 
 
4788aa1
a409d0f
 
 
 
 
 
 
 
 
4788aa1
 
 
 
 
 
 
 
 
 
 
 
 
a9155a8
4788aa1
 
a9155a8
 
 
 
4788aa1
 
 
a9155a8
 
4788aa1
 
 
 
 
 
 
 
a9155a8
4788aa1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a409d0f
4788aa1
e585a08
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
---
datasets:
- jerteh/cc100-sr-jerteh
- jerteh/SrpELTeC
- jerteh/SrpWiki
- srwac
- procesaur/STARS
language:
- sr
tags:
- Srpski
- Serbian
- GPT2
- generisanje
license: cc-by-sa-4.0
pipeline_tag: text-generation
widget:
- text: Kada bi čovek znao gde će pasti,
- text: Jednom davno,
- text: Srbija je
- text: Najbolji lek za stres je
---


<h4><i class="highlight-container"><b class="highlight">gpt2-vrabac</b></i> — Mali generativni model za srpski jezik.</h4>


<img src="cover.png" class="cover">

<div id="zastava">
  <div class="grb">
    <img src="https://www.ai.gov.rs/img/logo_60x120-2.png" style="position:relative; left:30px; z-index:10; height:85px">
  </div>
  <table width=100% style="border:0px">
    <tr style="background-color:#C6363C;width:100%;border:0px;height:30px"><td style="width:100vw"></td></tr>
    <tr style="background-color:#0C4076;width:100%;border:0px;height:30px"><td></td></tr>
    <tr style="background-color:#ffffff;width:100%;border:0px;height:30px"><td></td></tr>
  </table>
</div>

<ul style="font-weight:bold">
    <li>Generiše novi tekst, ili nastavlja započeti tekstualni unos</li>
    <li>Zasnovan na GPT2-small arhitekturi, 130 miliona parametara</li>
    <li>Obučavan na korpusu srpskog jezika veličine 4 milijarde tokena</li>
    <li>Jednaka podrška unosa i na ćirilici i na latinici!</li>
</ul>


## Upotreba

```python
>>> from transformers import pipeline, set_seed
>>> generator = pipeline('text-generation', model='jerteh/gpt2-vrabac')
>>> set_seed(23)
>>> generator("", max_length=30, num_return_sequences=5)
```

```
[{'generated_text': 'Ja, međutim, ne idem na put da idem već da se vratim na aerodrom.'},
 {'generated_text': 'Domaćinstvo se nalazilo na mestu zvanom Kutuzov kod Niša.'},
 {'generated_text': 'Regionalne razlike:'},
 {'generated_text': 'Od tada do sada smo u veoma teškoj situaciji“, poručio je on.'},
 {'generated_text': 'Iz tog razloga, na ovaj način u potpunosti bi se izbegla dodatna mogućnost da se sa istim problemima suoči i Vlada.'}]
```

Pored navedenih, model je obučavan i na ostalim korpusima [Društva za jezičke resurse i tehnologije](https://jerteh.rs), 
uključujući korpuse savremenog srpskog jezika: SrpKor2013 i SrpKor2021,
kao i korpus [PDRS 1.0](https://www.clarin.si/repository/xmlui/handle/11356/1752) razvijen od strane Instituta za Srpski jezik SANU.

<h4>U slučaju potrebe za većim modelom, pogledajte <a href="https://huggingface.co/jerteh/gpt2-orao" class="highlight-container">
  <b class="highlight">gpt2-orao</b></a> — najveći generativni model za srpski jezik.</h4>


<div class="inline-flex flex-col" style="line-height: 1.5;padding-right:40px">
  <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">Autor</div>
    <a href="https://huggingface.co/procesaur">  
      <div class="flex">
          <div
  			style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%; 
            background-size: cover; background-image: url(&#39;https://cdn-uploads.huggingface.co/production/uploads/1673534533167-63bc254fb8c61b8aa496a39b.jpeg?w=200&h=200&f=face&#39;)">
          </div>
      </div>
    </a>
    <div style="text-align: center; font-size: 16px; font-weight: 800">Mihailo Škorić</div>
    <div>  
      <a href="https://huggingface.co/procesaur">
      	<div style="text-align: center; font-size: 14px;">@procesaur</div>
      </a>
    </div>
  </div>
</div>

<div class="inline-flex flex-col" style="line-height: 1.5;padding-right:40px"> 
  <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">Computation</div>
    <a href="https://www.ai.gov.rs/">  
      <div class="flex">
          <div
  			style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%; 
            background-size: contain; background-image: url(https://www.ai.gov.rs/img/logo_60x120-2.png);background-repeat: no-repeat;
  background-position: center;">
          </div>
      </div>
    </a>
    <div style="text-align: center; font-size: 16px; font-weight: 800" title="nVidia DGX-zasnovan sistem">Nacionalna AI platforma</div>
    <div>  
      <a href="https://www.ai.gov.rs/">
      	<div style="text-align: center; font-size: 14px;">ai.gov.rs</div>
      </a>
    </div>
  </div>
</div>

<div class="inline-flex flex-col" style="line-height: 1.5;padding-right:40px"> 
  <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">Data</div>
    <a href="https://jerteh.rs/">  
      <div class="flex">
          <div
  			style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%; 
            background-size: contain; background-image: url(https://cdn-avatars.huggingface.co/v1/production/uploads/1673601491672-63bc254fb8c61b8aa496a39b.png?w=200&h=200&f=face);background-repeat: no-repeat;
  background-position: center;">
          </div>
      </div>
    </a>
    <div style="text-align: center; font-size: 16px; font-weight: 800" title="Društvo za jezičke resurse i tehnologije">JeRTeh</div>
    <div>  
      <a href="https://huggingface.co/jerteh">
      	<div style="text-align: center; font-size: 14px;">@jerteh</div>
      </a>
    </div>
  </div>
</div>

## Citiranje

```bibtex
@article{skoric24modeli,
  author    = {Mihailo \vSkori\'c},
  title     = {Novi jezi\vcki modeli za srpski jezik},
  journal   = {Infoteka},
  volume    = {24},
  issue     = {1},
  year      = {2024},
  publisher = {Zajednica biblioteka univerziteta u Srbiji, Beograd},
  url       = {https://arxiv.org/abs/2402.14379}
}
```

<style>
  .ffeat: {
  color:red
  }
  
  .cover {
    width: 100%;
    margin-bottom: 5pt
  }
  
.highlight-container, .highlight {
  position: relative;
  text-decoration:none
}

.highlight-container {
  display: inline-block;
  
}

.highlight{
  color:white;
  text-transform:uppercase;
  font-size: 16pt;
}

  .highlight-container{
    padding:5px 10px
  }

.highlight-container:before {
  content: " ";
  display: block;
  height: 100%;
  width: 100%;
  margin-left: 0px;
  margin-right: 0px;
  position: absolute;
  background: #e80909;
  transform: rotate(2deg);
  top: -1px;
  left: -1px;
  border-radius: 20% 25% 20% 24%;
  padding: 10px 18px 18px 10px;
}

div.grb, #zastava>table {
  position:absolute;
  top:0px;
  left: 0px;
  margin:0px
}

  div.grb>img, #zastava>table{
    margin:0px
  }
  
#zastava {
  position: relative;
  margin-bottom:120px
}
</style>