Geliştirilme hakkında daha fazla bilgi talebi

by Weyaxi - opened 7 days ago

7 days ago

Merhabalar,

Çalışmanız için teşekkürler, Türkçe LLM alanı için gerçekten güzel bir adım olmuş.

Yazınızda H100 ve H200 kullandığınızdan bahsetmişsiniz. Acaba eğitim süreci kaç GPU veya node üzerinde gerçekleştirildi ve ne kadar sürdü? Aynı zamanda hangi platformda gerçekleştirdiniz?

Bununla birlikte, model hakkında bir whitepaper yayımlamayı veya modelin geliştirilme süreciyle ilgili daha fazla bilgi paylaşmayı düşünüyor musunuz?

Bu tür bilgilerin Türkçe LLM çalışmalarına büyük katkı sağlayacağını belirtmek isterim. Geri dönüşünüzü sabırsızlıkla bekliyorum.

Tekrar emeğiniz için teşekkürler.

cc @meliksahturker

onurgu

6 days ago

Selam Yağız, bu blog sayfasını gördün mü? https://medium.com/vngrs/kumru-llm-34d1628cfd93

Weyaxi

6 days ago

Selamlar, evet, bu yazıyı gördüm. Aslında benim de "yazınızda" diye referans gösterdiğim blog yazısı buydu. Ancak bu yazıda eğitimin kaç GPU veya kaç node üzerinde yapıldığı ya da hangi platformun kullanıldığı gibi bilgilere yer verilmemiş. Kullanılan bazı tekniklerden ufak bahsedilmiş olsa da, blog formatında ve ayrıntılı olmadığı için doğal olarak bir whitepaper ayarında değil.

Bu gibi teknik detayların ve sürecin daha ayrıntılı bir şekilde paylaşılmasının, açık kaynak Türkçe LLM alanına çok büyük katkı sağlayacağını düşünüyorum. :)

meliksahturker

VNGRS org 6 days ago

@Weyaxi Merhaba. ilk 16B tokenlık eğitim, 4k context length ile 8xH100 ile yapıldı. Eğitimin kalanı 8k context length ile 8xH200 ile yapıldı. İkisi de single node ve RunPod üzerinde.
Bizim de baz aldığımız white paper büyük çoğunlukla LLaMA-3 technical report oldu. Optimizer, learning rate, scheduling, mixed precision training, data cleaning, deduplication, sampling rates gibi pek çok kararı ona bakarak verdik. Bunun ötesinde, efektif training için flash-attn kullanarak cross-contaminaton olmadan packing gibi daha spesifik teknik detaylar da var. Bunların bir kısmını medium'da da anlattım.
Ama proje zaten bir research engineering projesi olduğu için çoğunlukla literatürdeki makalelerde yazılmış yöntemleri alıp kendi ihtiyaçlarımıza göre uyarladık ve kullandık.
O yüzden, mevcut yoğunluğumu da düşündüğümde, bugünlerde pek mümkün görünmüyor ne yazık ki white-paper.

Weyaxi

6 days ago

Bilgiler için teşekkürler. Projenin gerçekten Türkçe LLM alanı için güzel bir gelişme olduğunu düşünüyor ve teşekkür ediyorum. Umarım bu proje diğer kişilere şirketlere katkı sağlayabilir.

tevfikoguz

6 days ago

Merhaba,
Öncelikle hepinizi tebrik ederim. Tarihe Açık Paylaşımlı ilk full Türkçe LLM (“Türkçe yoğunluk” ya da “Türkçe’ye özgü veri kullanımı” gibi değil) geliştiricileri olarak geçtiniz. Bu sebeple çıkaracağınız white paper 'ı referans verebilmek için sabırsızlıkla bekliyorum.

Nice başarılara.

Kerem-Yavuz

3 days ago

7B modelde keşke açık kaynak olarak paylaşılsa

memocandelioglu

about 8 hours ago

@tevfikoguz bu güzel bir duygu olsa gerek :)

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment