sft dataset 관련 문의드립니다.
#5
by
beomgon
- opened
안녕하세요.
모델 및 코드 그리고 dataset까지 공개를 해 주셔서 감사드립니다.
sft training에 약 100,0000개의 instruction set을 사용하셨는데요.
filtering을 어떤 식으로 하셨는지 좀 물어봐도 될까요??
감사합니다.
저같은 경우는 kollm_evaluation를 바탕으로 random shuffle한 데이터셋을 기준으로 점수가 높이 나오는 데이터셋을 선별하였습니다.