pokutuna
/

llm2024-competition

Inference Endpoints

Model card Files Files and versions Community

pokutuna commited on 9 days ago

Commit

3f492b4

•

1 Parent(s): a4696bc

Update README.md

Files changed (1) hide show

README.md +11 -5

README.md CHANGED Viewed

@@ -5,16 +5,22 @@ language:
 - en
 datasets:
 - llm-jp/magpie-sft-v1.0
 base_model:
 - google/gemma-2-9b
 ---
-## Datasets
-### Training Dataset
 - [llm-jp/magpie-sft-v1.0](https://huggingface.co/datasets/llm-jp/magpie-sft-v1.0) (apache-2.0)
-  - 加工 & サンプリングして使用
 ## 実行方法(コンペ採点者の方向け)
@@ -31,7 +37,7 @@ $ ollama serve
 # -- 以降は別ターミナルプロセスから実行(ollama サーバーに対して実行) --
 # モデルのダウンロード
-$ ollama pull hf.co/pokutuna/llm2024-gemma2:gemma2-9b-sft009-Q6_K.gguf
 #
 # Note.
 #   ダウンロード後、success と出力されるのを確認して下さい。
@@ -50,7 +56,7 @@ $ pip install -r llm2024-competition-runner/requirements.txt
 ```sh
 $ python ./llm2024-competition-runner/generate.py \
-  --model="hf.co/pokutuna/llm2024-gemma2:gemma2-9b-sft009-Q6_K.gguf" \
   --tasks=./tasks.jsonl \
   --outfile=./output.jsonl
 ```

 - en
 datasets:
 - llm-jp/magpie-sft-v1.0
+- kajuma/CC-news-2024-July-October-cleaned
+- weblab-GENIAC/aya-ja-nemotron-dpo-masked
 base_model:
 - google/gemma-2-9b
 ---
+## Training Dataset
+以下のデータセットをサンプリング & 前処理の上、学習に用いました。
+- [kajuma/CC-news-2024-July-October-cleaned](https://huggingface.co/datasets/kajuma/CC-news-2024-July-October-cleaned) (ODC-By)
+  - 一定以上のテキスト長があり単体のニュース記事とみなせるものをフィルタし本文部分を抽出して利用
 - [llm-jp/magpie-sft-v1.0](https://huggingface.co/datasets/llm-jp/magpie-sft-v1.0) (apache-2.0)
+  - サンプリングして指示チューニングに利用
+- [weblab-GENIAC/aya-ja-nemotron-dpo-masked](https://huggingface.co/datasets/weblab-GENIAC/aya-ja-nemotron-dpo-masked) (apache-2.0)
+  - サンプリングして選好チューニングに利用
 ## 実行方法(コンペ採点者の方向け)
 # -- 以降は別ターミナルプロセスから実行(ollama サーバーに対して実行) --
 # モデルのダウンロード
+$ ollama pull hf.co/pokutuna/llm2024-gemma2:gemma2-9b-v10.gguf
 #
 # Note.
 #   ダウンロード後、success と出力されるのを確認して下さい。
 ```sh
 $ python ./llm2024-competition-runner/generate.py \
+  --model="hf.co/pokutuna/llm2024-gemma2:gemma2-9b-v10.gguf" \
   --tasks=./tasks.jsonl \
   --outfile=./output.jsonl
 ```