ucsahin commited on
Commit
1d75dd9
1 Parent(s): c1ac296

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +45 -25
README.md CHANGED
@@ -41,7 +41,7 @@ Türkçe görsel dil modelini deneyimlemeye hazır mısınız? Hadi başlayalım
41
  This model is a multimodal large language model that combines [SigLIP](https://huggingface.co/docs/transformers/en/model_doc/siglip) as its vision encoder with [GPT2-large](https://huggingface.co/docs/transformers/en/model_doc/gpt2) as its language model. The vision projector connects the two modalities together.
42
  Its architecture closely resembles [PaliGemma](https://arxiv.org/pdf/2407.07726), with some refined adjustments to the vision projector and the causal language modeling.
43
 
44
- Here's a glimpse into the development process:
45
 
46
  1) **Unimodal pretraining**
47
  - In this stage, instead of pretraining both modalities from scratch, I leverage the image encoder from [google/siglip-base-patch16-256-multilingual](https://huggingface.co/google/siglip-base-patch16-256-multilingual) and the language model from [ytu-ce-cosmos/turkish-gpt2-large](https://huggingface.co/ytu-ce-cosmos/turkish-gpt2-large).
@@ -64,9 +64,9 @@ Geliştirme sürecinin özeti:
64
  2) **Özellik Uyarlama**
65
  - [LLaVA eğitim tarifesi](https://github.com/haotian-liu/LLaVA?tab=readme-ov-file#train) izlenerek, sadece görsel projektörü 500K görüntü-metin çiftleri ile eğiterek görsel ve metin özelliklerini uyumlu hale getiriyorum.
66
  3) **Görev Spesifik Eğitim**
67
- - Uyumlulaştırılmış model, kısa açıklama, detaylı açıklama ve basit görsel soru cevaplama gibi görevler için daha fazla eğitim alıyor; 1M'den fazla görüntü-istek-tamamlanma üçlüsü kullanılıyor.
68
  4) **İndirgeme Görevlerinde İnce Ayar**
69
- - Son olarak, modelin çeşitli görevlerdeki çok yönlülüğünü göstermek amacıyla nesne tespiti için ince ayar yapılmıştır. Nesne tespiti için ince ayar yapılmış modeli daha fazla detay için ucsahin/TraVisionLM-Object-Detection-ft adresinden keşfedebilirsiniz.
70
 
71
 
72
  ### Model Description
@@ -85,8 +85,17 @@ Geliştirme sürecinin özeti:
85
  - **Paper [optional]:** More info on this later.
86
  - **Demo [optional]:** [More Information Needed]
87
 
88
- ## Uses
 
 
 
 
 
89
 
 
 
 
 
90
  <!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
91
 
92
  ### Direct Use
@@ -107,6 +116,33 @@ Geliştirme sürecinin özeti:
107
 
108
  [More Information Needed]
109
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
110
  ## Bias, Risks, and Limitations
111
 
112
  <!-- This section is meant to convey both technical and sociotechnical limitations. -->
@@ -164,9 +200,6 @@ Use the code below to get started with the model.
164
 
165
  [More Information Needed]
166
 
167
- #### Factors
168
-
169
- <!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
170
 
171
  [More Information Needed]
172
 
@@ -178,7 +211,7 @@ Use the code below to get started with the model.
178
 
179
  ### Results
180
 
181
- [More Information Needed]
182
 
183
 
184
 
@@ -191,11 +224,9 @@ Use the code below to get started with the model.
191
  [More Information Needed]
192
 
193
 
194
- #### Software
195
 
196
- [More Information Needed]
197
 
198
- ## Citation [optional]
199
 
200
  <!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
201
 
@@ -207,20 +238,9 @@ Use the code below to get started with the model.
207
 
208
  [More Information Needed]
209
 
210
- ## Glossary [optional]
211
-
212
- <!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
213
-
214
- [More Information Needed]
215
-
216
- ## More Information [optional]
217
-
218
- [More Information Needed]
219
-
220
- ## Model Card Authors [optional]
221
-
222
- [More Information Needed]
223
 
224
  ## Model Card Contact
225
 
226
- [More Information Needed]
 
 
 
41
  This model is a multimodal large language model that combines [SigLIP](https://huggingface.co/docs/transformers/en/model_doc/siglip) as its vision encoder with [GPT2-large](https://huggingface.co/docs/transformers/en/model_doc/gpt2) as its language model. The vision projector connects the two modalities together.
42
  Its architecture closely resembles [PaliGemma](https://arxiv.org/pdf/2407.07726), with some refined adjustments to the vision projector and the causal language modeling.
43
 
44
+ Here's the summary of the development process:
45
 
46
  1) **Unimodal pretraining**
47
  - In this stage, instead of pretraining both modalities from scratch, I leverage the image encoder from [google/siglip-base-patch16-256-multilingual](https://huggingface.co/google/siglip-base-patch16-256-multilingual) and the language model from [ytu-ce-cosmos/turkish-gpt2-large](https://huggingface.co/ytu-ce-cosmos/turkish-gpt2-large).
 
64
  2) **Özellik Uyarlama**
65
  - [LLaVA eğitim tarifesi](https://github.com/haotian-liu/LLaVA?tab=readme-ov-file#train) izlenerek, sadece görsel projektörü 500K görüntü-metin çiftleri ile eğiterek görsel ve metin özelliklerini uyumlu hale getiriyorum.
66
  3) **Görev Spesifik Eğitim**
67
+ - Bu adımda, uyumlulaştırılmış model, kısa açıklama, detaylı açıklama ve basit görsel soru cevaplama gibi görevler için daha fazla eğitilmiştir; 1M'den fazla resim-istek-tamamlanma üçlüsünden oluşan veri seti kullanılmıştır.
68
  4) **İndirgeme Görevlerinde İnce Ayar**
69
+ - Son olarak, modelin çeşitli görevlerdeki çok yönlülüğünü göstermek amacıyla nesne tespiti için ince ayarı yapılmıştır. Nesne tespiti için ince ayar yapılmış modele detaylar için [ucsahin/TraVisionLM-Object-Detection-ft](https://huggingface.co/ucsahin/TraVisionLM-Object-Detection-ft) adresinden ulaşabilirsiniz.
70
 
71
 
72
  ### Model Description
 
85
  - **Paper [optional]:** More info on this later.
86
  - **Demo [optional]:** [More Information Needed]
87
 
88
+ ---
89
+
90
+ # Friendly Reminder:
91
+ First of all, thanks for your interest if you plan to use this model. I developed this model to primarily show that you can build
92
+
93
+ # Kullanıcılar için Önemli Bir Hatırlatma:
94
 
95
+ ---
96
+
97
+
98
+ ## Uses
99
  <!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
100
 
101
  ### Direct Use
 
116
 
117
  [More Information Needed]
118
 
119
+
120
+ ## Türkçe: Kullanım Alanları
121
+
122
+ Aşağıda TraVisionLM görsel dil modelinin, hangi görevler için doğrudan ve dolaylı kullanılabileceği durumlar verilmiştir. Ayrıca alan dışı kullanımlar kısmına da göz atmayı unutmayın.
123
+
124
+ ### Doğrudan Kullanım Alanları
125
+ - **Kısa Açıklama**
126
+
127
+ - **Detaylı Açıklama**
128
+
129
+ - **Görsel Soru Cevaplama**
130
+
131
+
132
+ ### Dolaylı Kullanım Alanları
133
+ - (*Video-Text-to-Text*) Model videolarınızla ilgili soru cevap görevi için adapte edilebilir. Mimariye hiçbir değişiklik yapmadan, video kareleri örneklenerek, her bir kare üzerinden modele cevap ürettirilebilir.
134
+ - (*Retrieval*) Metne dayalı en uygun görüntü alma görevi için model, herhangi bir değişiklik yapılmadan doğrudan kullanılabilir.
135
+ - (*Finetuning*) Model mimarisini destekleyen görsel sınıflandırma gibi geri kalan bütün görevler için model Transformers kütüphanesiyle uyumlu bir şekilde eğitilebilir. Bir örnek için [ucsahin/TraVisionLM-Object-Detection-ft](https://huggingface.co/ucsahin/TraVisionLM-Object-Detection-ft) adresine bakabilirsiniz.
136
+
137
+ ```Zaman buldukça bu dolaylı kullanım uygulamaları ile paylaşımlar yapmayı planlıyorum. Bu sürede topluluktan da destek ya da işbirliği isteklerini dört gözle bekliyorum``` 🤝💪
138
+
139
+ ### Alan-dışı Kullanımlar
140
+ Bu modelin aşağıdaki senaryolar için kullanımı uygun değildir:
141
+ - Model, resimlerinizle ilgili basit sorulara cevap verse de, çok turlu kompleks chat senaryoları için uygun değildir. Geçmiş bilgisi tutulmamaktadır, model daha önce sorduğunuz soruları kontekst olarak kullanmamaktadır. Fakat bu görev için, bir chat şablonu hazırlayıp bu doğrultuda modeli kolayca eğitebilirsiniz.
142
+ - Model çoklu görsel girdi kabul etmemektedir. Örneğin, iki farklı resmi karşılaştıran sorulara cevap vermeye uygun değildir. Bu özelliği kazandırmak için mimariye değişiklikler yapmak gerekmektedir. Bu tarz bir model için [HuggingFaceM4/idefics2-8b](https://huggingface.co/HuggingFaceM4/idefics2-8b) (sadece ingilizce) modeline bakabilirsiniz.
143
+ - Model, karakter ve yazı tanıma (OCR), segmentasyon ve çoklu obje tanıma görevleri için eğitilmemiştir. Bu görevlerde kabul edilebilir başarılar alabilmek için [google/paligemma-3b-pt-224](https://huggingface.co/google/paligemma-3b-pt-224) ve [microsoft/Florence-2-large](https://huggingface.co/microsoft/Florence-2-large) gibi görsel dil modelleri milyarlarca doküman ve resimle eğitilmiştir.
144
+
145
+
146
  ## Bias, Risks, and Limitations
147
 
148
  <!-- This section is meant to convey both technical and sociotechnical limitations. -->
 
200
 
201
  [More Information Needed]
202
 
 
 
 
203
 
204
  [More Information Needed]
205
 
 
211
 
212
  ### Results
213
 
214
+ More information will come
215
 
216
 
217
 
 
224
  [More Information Needed]
225
 
226
 
 
227
 
 
228
 
229
+ ## Citation
230
 
231
  <!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
232
 
 
238
 
239
  [More Information Needed]
240
 
 
 
 
 
 
 
 
 
 
 
 
 
 
241
 
242
  ## Model Card Contact
243
 
244
+ If you have questions or suggestions regarding the model, I prefer if you would reach me directly via Hugging Face (e.g. opening an issue). But if you have specific things in your mind or any ideas for collaboration on future projects, reach me at sahin.umitcan@gmail.com
245
+
246
+ Modelle ilgili sorularınız veya önerileriniz varsa, doğrudan bana Hugging Face üzerinden (örneğin, bir issue açarak) ulaşmanızı tercih ederim. Diğer konular veya gelecekteki projelerde işbirliği için herhangi bir fikriniz varsa, bana sahin.umitcan@gmail.com adresinden ulaşabilirsiniz.