File size: 2,514 Bytes
fb819f9 2278ea4 466a19b 3f492b4 466a19b fb819f9 3f492b4 2278ea4 3f492b4 466a19b 3f492b4 466a19b 3f492b4 2278ea4 466a19b 2278ea4 1de43f0 2278ea4 466a19b 2278ea4 3f492b4 2278ea4 466a19b 2278ea4 466a19b 2278ea4 466a19b 2278ea4 466a19b 3f492b4 466a19b 2278ea4 466a19b |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 |
---
license: gemma
language:
- ja
- en
datasets:
- llm-jp/magpie-sft-v1.0
- kajuma/CC-news-2024-July-October-cleaned
- weblab-GENIAC/aya-ja-nemotron-dpo-masked
base_model:
- google/gemma-2-9b
---
## Training Dataset
以下のデータセットをサンプリング & 前処理の上、学習に用いました。
- [kajuma/CC-news-2024-July-October-cleaned](https://huggingface.co/datasets/kajuma/CC-news-2024-July-October-cleaned) (ODC-By)
- 一定以上のテキスト長があり単体のニュース記事とみなせるものをフィルタし本文部分を抽出して利用
- [llm-jp/magpie-sft-v1.0](https://huggingface.co/datasets/llm-jp/magpie-sft-v1.0) (apache-2.0)
- サンプリングして指示チューニングに利用
- [weblab-GENIAC/aya-ja-nemotron-dpo-masked](https://huggingface.co/datasets/weblab-GENIAC/aya-ja-nemotron-dpo-masked) (apache-2.0)
- サンプリングして選好チューニングに利用
## 実行方法(コンペ採点者の方向け)
### 事前準備
```
# lshw のインストール (ollama インストール時に GPU を検出するのに必要)
$ apt update && apt install -y lshw
# ollama (https://ollama.com/) のインストール & 起動
$ curl -fsSL https://ollama.com/install.sh | sh
$ ollama serve
# -- 以降は別ターミナルプロセスから実行(ollama サーバーに対して実行) --
# モデルのダウンロード
$ ollama pull hf.co/pokutuna/llm2024-gemma2:gemma2-9b-v10.gguf
#
# Note.
# ダウンロード後、success と出力されるのを確認して下さい。
# 演習環境で動作を確認済みですがネットワーク状況等により、
# timeout (context deadline exceeded) が発生することがあります。
# 何度か実行すれば走り切ります。
# 回答生成コードの pull
$ git clone https://github.com/pokutuna/llm2024-competition-runner.git
# 依存ライブラリのインストール
$ pip install -r llm2024-competition-runner/requirements.txt
```
### 出力の生成
```sh
$ python ./llm2024-competition-runner/generate.py \
--model="hf.co/pokutuna/llm2024-gemma2:gemma2-9b-v10.gguf" \
--tasks=./tasks.jsonl \
--outfile=./output.jsonl
```
- `--tasks=<path>`
- タスクデータ、各行に `input` フィールドを持つ JSONL ファイルへのパス
(`elyza-tasks-100-TV_0.jsonl` と同じ構造を想定)
- `--outfile=<path>`
- 結果の出力先、タスクデータの各行に対し `output` キーを出力結果として追加したもの
|