README

このリポジトリには、llm-jp/llm-jp-3-13bにLoRAアダプタを適用したモデルでタスク推論を行うコードが含まれます。

概要

inference_code.py：推論を行うためのコード。
- ベースモデルとLoRAアダプタをHugging Face Hubからロードし、4bit量子化でGPUメモリ負荷を低減しながらタスクを処理します。
- elyza-tasks-100-TV_0.jsonl のようなタスク定義ファイルから入力を読み込み、モデルによる応答を生成します。
- 推論結果は submission_attempt.jsonl というファイルにJSON Lines形式で保存します。

本LoRAアダプタは以下のデータを用いてSFTを実施しています。

HF_TOKENを設定
コード冒頭の HF_TOKEN = "hf_..." 部分にご自身のHugging Faceトークンを貼り付けてください。
トークンは huggingface-cli login で取得できます。
base_model_id と adapter_repo_id の設定
- base_model_id にベースモデルIDを指定します（例：llm-jp/llm-jp-3-13b）。
- adapter_repo_id にアップロード済みのLoRAアダプタリポジトリIDを指定します。
elyza-tasks-100-TV_0.jsonl の用意
推論対象となるタスクデータを同一フォルダに配置してください。
コード実行
inference_code.pyを実行します。必要なライブラリがインストールされ、モデルやトークナイザがロードされ、推論が開始されます。
結果確認
実行後、submission_attempt.jsonlに推論結果がタスクごとに出力されます。

モデルパラメータ（max_new_tokens, temperature, top_pなど）をコード内で変更可能です。
LoRAアダプタを変更したい場合は、adapter_repo_idを別のリポジトリに変更します。
分散学習やDeepSpeedなどの高度な最適化オプションを利用する場合は、TrainingArgumentsやDPOConfigがサポートしている範囲で設定可能です。