Update README.md
Browse files
README.md
CHANGED
@@ -77,58 +77,8 @@ Geliştirme sürecinin özeti:
|
|
77 |
- **Language(s) (NLP):** *Turkish*
|
78 |
- **License:** *Apache license 2.0*
|
79 |
|
80 |
-
|
81 |
-
---
|
82 |
-
|
83 |
-
## Friendly Reminder:
|
84 |
-
|
85 |
-
First off, thank you for your interest if you're planning to use this model. I developed it to demonstrate that you can create your own multimodal transformer-based model in a low-resource language like Turkish using only the open-source tools available in the Hugging Face ecosystem. This task would have been nearly impossible without such a platform that supports open-source research and community, so I owe a big thanks 🙏🙏.
|
86 |
-
|
87 |
-
As for the model itself, it’s not as powerful as the VLM models developed by companies like Google, Microsoft, or Meta AI.
|
88 |
-
|
89 |
-
I worked alone in an environment with limited access to high-quality, diverse multimodal Turkish data. My computing resources were also limited, relying mainly on cloud GPU providers like Colab and Runpod.
|
90 |
-
|
91 |
-
**So, why create a Turkish Vision Language Model?**
|
92 |
-
|
93 |
-
My answer is simple, and I’ll break it down into three points:
|
94 |
-
1) Large unimodal language models for low-resource languages like Turkish are advancing much faster than their multimodal counterparts. For Turkish, there’s a leaderboard for text models at [Turkish LLM-Leaderboard](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard_v0.2), but nothing similar exists for multimodal models.
|
95 |
-
2) On Hugging Face, there isn’t any [Image-Text-to-Text](https://huggingface.co/tasks/image-text-to-text) model that primarily works in Turkish.
|
96 |
-
3) When you use TraVisionLM, you’ll notice it will make many mistakes and hallucinate. But if you ask questions in Turkish to the VLM models from big companies, the answers will often disappoint you. These models are mostly trained on English data, and while they’re multilingual, their performance in languages other than English drops significantly after alignment.
|
97 |
-
|
98 |
-
In closing, I hope this model makes a valuable contribution to the open-source Turkish community, and I welcome all your feedback 🤘🤘.
|
99 |
-
|
100 |
-
|
101 |
-
## Kullanıcılar için Önemli Bir Hatırlatma:
|
102 |
-
|
103 |
-
Öncelikle, bu modeli kullanmayı düşünüyorsanız ilginiz için teşekkür ederim. Bu modeli, Hugging Face ekosisteminde mevcut olan açık kaynak araçları kullanarak, düşük kaynaklı bir dilde (Türkçe gibi) kendi çok modlu transformer tabanlı modelinizi oluşturabileceğinizi göstermek amacıyla geliştirdim. Böyle bir platform olmasaydı, bu iş neredeyse imkansız olurdu, bu yüzden büyük bir teşekkür borçluyum 🙏🙏.
|
104 |
-
|
105 |
-
Modelin kendisine gelince, Google, Microsoft veya Meta AI gibi büyük şirketlerin geliştirdiği VLM modelleri kadar güçlü değil.
|
106 |
-
|
107 |
-
Modeli geliştirirken, GPU kaynaklarının ve kaliteli, çeşitli çok modlu Türkçe veriye erişimin sınırlı olduğu bir ortamda çalıştım.
|
108 |
-
|
109 |
-
**Peki, neden Türkçe bir Görsel Dil Modeli geliştirmek gerekiyor?**
|
110 |
-
|
111 |
-
Cevabım basit, ve bunu üç madde ile açıklamak istiyorum:
|
112 |
-
1) Türkçe gibi düşük kaynaklı diller için büyük tek modlu dil modelleri, çok modlu muadillerine göre çok daha hızlı gelişiyor. Türkçe için [Turkish LLM-Leaderboard](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard_v0.2) adlı metin modellerinin karşılaştırılmasını içeren bir liderlik tablosu var, ancak çok modlu modeller için böyle bir şey yok.
|
113 |
-
2) Hugging Face'te, Transformers kütüphanesiyle uyumlu ve özellikle Türkçe dili için özelleştirilmiş bir [Image-Text-to-Text](https://huggingface.co/tasks/image-text-to-text) modeli yok.
|
114 |
-
3) TraVisionLM'i kullanmaya başladığınızda, fazlaca hatalar yaptığını ve halüsinasyonlar gördüğünü fark edeceksiniz. Ancak, büyük şirketlerin VLM modellerine Türkçe sorular sorduğunuzda, cevaplar çoğu zaman sizi hayal kırıklığına uğratabilmektedir. Bu modeller çoğunlukla İngilizce verilerle eğitilmiştir ve her ne kadar çok dilli olsalar da, hizalama aşamasından sonra İngilizce dışındaki dillerde metin üretme performansları önemli ölçüde düşmektedir.
|
115 |
-
|
116 |
-
Daha fazla uzatmadan, bu modelin açık kaynak Türkçe topluluğuna iyi bir katkı sağlayacağını umuyorum ve tüm geri bildirimlerinizi bekliyorum 🤘🤘.
|
117 |
-
|
118 |
-
|
119 |
-
### Açık Kaynaklı Diğer Türkçe VLM Modelleri
|
120 |
-
|
121 |
-
Bu kısımda benim de daha önce rast geldiğim bu alandaki birkaç çalışmaya kredi vermek istiyorum. Unuttuklarım varsa, haber vermeniz halinde eklenecektir.
|
122 |
-
- [99eren99/Turkish-BakLLaVa1.5-Mistral](https://huggingface.co/99eren99/Turkish-BakLLaVa1.5-Mistral) LLaVA eğitim çerçevesinde geliştirilmiş bir Türkçe görsel dil modelidir.
|
123 |
-
- Dil modeli olarak Trendyol Mistral v1.0 Chat kullanılmış.
|
124 |
-
- TraVisionLM modeline kıyasla 8-10 kat daha fazla parametreli bir model.
|
125 |
-
- Model yükleme ve cevap üretme için Transformers kütüphanesi ile doğrudan uyumlu değil.
|
126 |
-
- Zaman buldukça iki modelin benzer görevlerdeki performans karşılaştırması yapılabilir.
|
127 |
-
|
128 |
-
|
129 |
---
|
130 |
|
131 |
-
|
132 |
## Uses
|
133 |
<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
|
134 |
Below are the scenarios where the TraVisionLM visual language model can be used directly or indirectly for various tasks. Also, don't forget to check out the section on out-of-scope uses.
|
@@ -298,6 +248,54 @@ Araba turkuaz veya limon yeşili renktedir.
|
|
298 |
"""
|
299 |
```
|
300 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
301 |
---
|
302 |
|
303 |
## Training Details
|
|
|
77 |
- **Language(s) (NLP):** *Turkish*
|
78 |
- **License:** *Apache license 2.0*
|
79 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
80 |
---
|
81 |
|
|
|
82 |
## Uses
|
83 |
<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
|
84 |
Below are the scenarios where the TraVisionLM visual language model can be used directly or indirectly for various tasks. Also, don't forget to check out the section on out-of-scope uses.
|
|
|
248 |
"""
|
249 |
```
|
250 |
|
251 |
+
---
|
252 |
+
|
253 |
+
## Friendly Reminder:
|
254 |
+
|
255 |
+
First off, thank you for your interest if you're planning to use this model. I developed it to demonstrate that you can create your own multimodal transformer-based model in a low-resource language like Turkish using only the open-source tools available in the Hugging Face ecosystem. This task would have been nearly impossible without such a platform that supports open-source research and community, so I owe a big thanks 🙏🙏.
|
256 |
+
|
257 |
+
As for the model itself, it’s not as powerful as the VLM models developed by companies like Google, Microsoft, or Meta AI.
|
258 |
+
|
259 |
+
I worked alone in an environment with limited access to high-quality, diverse multimodal Turkish data. My computing resources were also limited, relying mainly on cloud GPU providers like Colab and Runpod.
|
260 |
+
|
261 |
+
**So, why create a Turkish Vision Language Model?**
|
262 |
+
|
263 |
+
My answer is simple, and I’ll break it down into three points:
|
264 |
+
1) Large unimodal language models for low-resource languages like Turkish are advancing much faster than their multimodal counterparts. For Turkish, there’s a leaderboard for text models at [Turkish LLM-Leaderboard](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard_v0.2), but nothing similar exists for multimodal models.
|
265 |
+
2) On Hugging Face, there isn’t any [Image-Text-to-Text](https://huggingface.co/tasks/image-text-to-text) model that primarily works in Turkish.
|
266 |
+
3) When you use TraVisionLM, you’ll notice it will make many mistakes and hallucinate. But if you ask questions in Turkish to the VLM models from big companies, the answers will often disappoint you. These models are mostly trained on English data, and while they’re multilingual, their performance in languages other than English drops significantly after alignment.
|
267 |
+
|
268 |
+
In closing, I hope this model makes a valuable contribution to the open-source Turkish community, and I welcome all your feedback 🤘🤘.
|
269 |
+
|
270 |
+
|
271 |
+
## Kullanıcılar için Önemli Bir Hatırlatma:
|
272 |
+
|
273 |
+
Öncelikle, bu modeli kullanmayı düşünüyorsanız ilginiz için teşekkür ederim. Bu modeli, Hugging Face ekosisteminde mevcut olan açık kaynak araçları kullanarak, düşük kaynaklı bir dilde (Türkçe gibi) kendi çok modlu transformer tabanlı modelinizi oluşturabileceğinizi göstermek amacıyla geliştirdim. Böyle bir platform olmasaydı, bu iş neredeyse imkansız olurdu, bu yüzden büyük bir teşekkür borçluyum 🙏🙏.
|
274 |
+
|
275 |
+
Modelin kendisine gelince, Google, Microsoft veya Meta AI gibi büyük şirketlerin geliştirdiği VLM modelleri kadar güçlü değil.
|
276 |
+
|
277 |
+
Modeli geliştirirken, GPU kaynaklarının ve kaliteli, çeşitli çok modlu Türkçe veriye erişimin sınırlı olduğu bir ortamda çalıştım.
|
278 |
+
|
279 |
+
**Peki, neden Türkçe bir Görsel Dil Modeli geliştirmek gerekiyor?**
|
280 |
+
|
281 |
+
Cevabım basit, ve bunu üç madde ile açıklamak istiyorum:
|
282 |
+
1) Türkçe gibi düşük kaynaklı diller için büyük tek modlu dil modelleri, çok modlu muadillerine göre çok daha hızlı gelişiyor. Türkçe için [Turkish LLM-Leaderboard](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard_v0.2) adlı metin modellerinin karşılaştırılmasını içeren bir liderlik tablosu var, ancak çok modlu modeller için böyle bir şey yok.
|
283 |
+
2) Hugging Face'te, Transformers kütüphanesiyle uyumlu ve özellikle Türkçe dili için özelleştirilmiş bir [Image-Text-to-Text](https://huggingface.co/tasks/image-text-to-text) modeli yok.
|
284 |
+
3) TraVisionLM'i kullanmaya başladığınızda, fazlaca hatalar yaptığını ve halüsinasyonlar gördüğünü fark edeceksiniz. Ancak, büyük şirketlerin VLM modellerine Türkçe sorular sorduğunuzda, cevaplar çoğu zaman sizi hayal kırıklığına uğratabilmektedir. Bu modeller çoğunlukla İngilizce verilerle eğitilmiştir ve her ne kadar çok dilli olsalar da, hizalama aşamasından sonra İngilizce dışındaki dillerde metin üretme performansları önemli ölçüde düşmektedir.
|
285 |
+
|
286 |
+
Daha fazla uzatmadan, bu modelin açık kaynak Türkçe topluluğuna iyi bir katkı sağlayacağını umuyorum ve tüm geri bildirimlerinizi bekliyorum 🤘🤘.
|
287 |
+
|
288 |
+
|
289 |
+
### Açık Kaynaklı Diğer Türkçe VLM Modelleri
|
290 |
+
|
291 |
+
Bu kısımda benim de daha önce rast geldiğim bu alandaki birkaç çalışmaya kredi vermek istiyorum. Unuttuklarım varsa, haber vermeniz halinde eklenecektir.
|
292 |
+
- [99eren99/Turkish-BakLLaVa1.5-Mistral](https://huggingface.co/99eren99/Turkish-BakLLaVa1.5-Mistral) LLaVA eğitim çerçevesinde geliştirilmiş bir Türkçe görsel dil modelidir.
|
293 |
+
- Dil modeli olarak Trendyol Mistral v1.0 Chat kullanılmış.
|
294 |
+
- TraVisionLM modeline kıyasla 8-10 kat daha fazla parametreli bir model.
|
295 |
+
- Model yükleme ve cevap üretme için Transformers kütüphanesi ile doğrudan uyumlu değil.
|
296 |
+
- Zaman buldukça iki modelin benzer görevlerdeki performans karşılaştırması yapılabilir.
|
297 |
+
|
298 |
+
|
299 |
---
|
300 |
|
301 |
## Training Details
|