exdysa commited on
Commit
56825ff
·
verified ·
1 Parent(s): 77c9499

Upload README.md

Browse files
Files changed (1) hide show
  1. README.md +85 -53
README.md CHANGED
@@ -1,62 +1,94 @@
1
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
  datasets:
3
  - IlyaGusev/saiga_scored
4
  - IlyaGusev/saiga_preferences
5
  - dichspace/darulm
6
  language:
 
7
  - ru
 
 
 
 
 
 
 
 
 
 
8
  pipeline_tag: text-generation
9
- license: apache-2.0
 
 
 
10
  ---
11
-
12
- ## Описание модели
13
-
14
- GGUF версия. WORK IN PROGRESS!!! Текущая версия v1.
15
-
16
- Инструктивная версия адаптированной на русский язык модели Qwen2.5-32B. В модели был заменен токенизатор, затем произведено дообучение (Continued pretraining) на русскоязычном корпусе, после чего была применена техника LEP (Learned Embedding Propagation, paper will be soon).
17
-
18
- Благодаря новому токенизатору (расширенный tiktoken cl100k с помощью униграм токенизатора на 48 т. токенов) скорость генерации* русскоязычных текстов возрасла до 60% по сравнению с исходной моделью Qwen-2.5-32B-Instruct.
19
-
20
- *Под скоростью генерации подразумевается количество русскоязычных символов/слов в секунду на одинаковых текстовых последовательностях.
21
-
22
- ## Попробовать
23
-
24
- Модель можно попробовать в поднятом Space (внизу в параметрах выбор модели):
25
- https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
26
-
27
- ## Токенизация
28
-
29
-
30
- ![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/O4eQEhnowETEatDPcmArB.png)
31
-
32
-
33
- ![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/oW0Q6LzD_Py3GdH0kfqu4.png)
34
-
35
- ## Метрики и оценка качества
36
-
37
- Модель была оценена на Ru-Arena-General, MERA, llmtf_open
38
-
39
- #### Результаты на Ru-Arena-General
40
-
41
- TODO
42
-
43
- #### Результаты на MERA
44
-
45
- Для сабмита на MERA был подготовлен кастомный системный промпт, который смягчает недостатки оценки на кодовых задачах. Для сравнения был также сделан сабмит с этим же системным промптом оригинальной модели.
46
-
47
- ![image/png](https://cdn-uploads.huggingface.co/production/uploads/652cedbdf120598322ae358a/PwPTdwp0synSCE2Nn75xE.png)
48
-
49
-
50
- #### Результаты на llmtf_open
51
-
52
- TODO
53
-
54
- ## How to cite:
55
-
56
- Tikhomirov M., Chernyshev D. Facilitating large language model Russian adaptation with Learned Embedding Propagation // 2024 (will be soon)
57
-
58
- Tikhomirov M., Chernyshev D. Impact of Tokenization on LLaMa Russian Adaptation //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – С. 163-168.
59
-
60
- ## Предупреждение
61
-
62
- Ответы модели не отражают мнения авторов, а лишь повторяют знания полученные из данных на всех этапах обучения (предобучение, смена токенизатора, обучение на инструкциях, калибровка качества ответов). Модель была получена из сторонней предобученной модели, **контроль за предобучением** которой **не является ответственностью текущих авторов**. ��ри создании данной версии модели не производилось никаких дополнительных действий, направленных на изменение заложенных в LLM "мнений". Используйте с осторожностью.
 
1
  ---
2
+ name: ruadaptqwen2.5-32B-instruct
3
+ license: apache-2.0
4
+ tags:
5
+ - refalmachine
6
+ - multilingual
7
+ - text-generation
8
+ - text2text-generation
9
+ - natural language
10
+ - translate
11
+ - RefalMachine
12
+ - Alibaba Cloud
13
+ - Qwen
14
+ type:
15
+ - 24GB
16
+ - 32GB
17
+ - llm
18
+ - chat
19
+ - multilingual
20
+ - refalmachine
21
+ - qwen2
22
+ config:
23
+ - ctx=32768
24
+ - 5bit
25
+ - 4bit
26
+ resolutions:
27
  datasets:
28
  - IlyaGusev/saiga_scored
29
  - IlyaGusev/saiga_preferences
30
  - dichspace/darulm
31
  language:
32
+ - en
33
  - ru
34
+ size:
35
+ - 19818080576
36
+ - 23225788736
37
+ use:
38
+ shortcomings:
39
+ sources:
40
+ - Tikhomirov M., Chernyshev D. Facilitating large language model Russian adaptation with Learned Embedding Propagation // 2024 (will be soon)
41
+ - https://arxiv.org/abs/2312.02598
42
+ funded_by:
43
+ train_hardware:
44
  pipeline_tag: text-generation
45
+ examples: (response) "А льп ак а — домашнее моз олен ого животное, предполож ительно произошедшеe от вик ун ьи ( виг они ). Раз воДят в высок огор ном по я се Южной Америки ( Ан Ды ). На сегодняшний день там обитает около трӫх миллионов аль пак, большая часть из которых нас еляет Перу. Вы ращ ивают аль пак для стр иж ки шерсти, из которой делают тёпл ые и мягкие од ея ла, пл ед ы и одежду, а из мех а делают предметы ДЛя дома."
46
+ ---
47
+ [repo_clone_112924](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct-GGUF)
48
+ ```
49
  ---
50
+ name: ruadapt-qwen2.5-32B-instruct
51
+ license: apache-2.0
52
+ tags:
53
+ - refalmachine
54
+ - multilingual
55
+ - text-generation
56
+ - text2text-generation
57
+ - natural language
58
+ - translate
59
+ - RefalMachine
60
+ - Alibaba Cloud
61
+ - Qwen
62
+ type:
63
+ - 24GB
64
+ - 32GB
65
+ - llm
66
+ - chat
67
+ - multilingual
68
+ - refalmachine
69
+ - qwen2
70
+ config:
71
+ - ctx=32768
72
+ - 5bit
73
+ - 4bit
74
+ resolutions:
75
+ datasets:
76
+ - IlyaGusev/saiga_scored
77
+ - IlyaGusev/saiga_preferences
78
+ - dichspace/darulm
79
+ language:
80
+ - en
81
+ - ru
82
+ size:
83
+ - 19818080576
84
+ - 23225788736
85
+ use:
86
+ shortcomings:
87
+ sources:
88
+ - Tikhomirov M., Chernyshev D. Facilitating large language model Russian adaptation with Learned Embedding Propagation // 2024 (will be soon)
89
+ - https://arxiv.org/abs/2312.02598
90
+ funded_by:
91
+ train_hardware:
92
+ pipeline_tag: text-generation
93
+ examples: (response) льп ак а — домашнее моз олен ого животное, предполож ительно произошедшеe от вик ун ьи ( виг они ). Раз воДят в высок огор ном по я се Южной Америки ( Ан Ды ). На сегодняшний день там обитает около трӫх миллионов аль пак, большая часть из которых нас еляет Перу. Вы ращ ивают аль пак для стр иж ки шерсти, из которой делают тёпл ые и мягкие од ея ла, пл ед ы и одежду, а из мех а делают предметы ДЛя дома."
94
+ ```