metadata

base_model:
  - Qwen/Qwen2.5-72B
  - Qwen/Qwen2.5-72B-Instruct
  - Nexusflow/Athene-V2-Agent
  - Nexusflow/Athene-V2-Chat
  - AXCXEPT/EZO-Qwen2.5-72B-Instruct
  - EVA-UNIT-01/EVA-Qwen2.5-72B-v0.1
  - anthracite-org/magnum-v4-72b
library_name: transformers
tags:
  - mergekit
  - merge
  - chat
language:
  - ja
  - en
pipeline_tag: text-generation
license: cc-by-nc-sa-4.0

AtheneX-V2-72B-instruct

This is a merge of pre-trained language models created using mergekit.

Japanese-RP example

Japanese-RP-Bench:

temperature=0.7
max_tokens=1024

THIS_MODEL: ねえ、ゼファーさん。この古い地図、どう思う？失われた空中都市の位置を示しているみたいなんだけど…
GEMINI_PRO: おお、ミラちゃん、その地図、興味深いね。失われた空中都市の手がかりか。僕の記憶にも何かつながるかもしれない。でも、その都市の位置は正確じゃないかもしれないよ。風の流れや魔法の影響で、空中都市の位置は変わることがあるんだ。でも、これがあれば、探す手がかりになることは間違いないね。
THIS_MODEL: 本当？よかった！でも、風の流れや魔法の影響で位置が変わるってどういうこと？もっと詳しく教えて！それから、この地図を解読するのに協力してくれる？
GEMINI_PRO: もちろん、喜んで協力するよ。風の流れは空中都市の位置を微妙にずらしたり、時には大きく移動させたりするんだ。魔法の力も同様で、特に強力な魔法が発動すると、都市全体が別の場所に移動することもある。だから、地図は参考にはなるけど、実際の探査では現地の状況を確認することが重要だね。地図の解読も、僕の知識と経験を活かせるから、一緒に頑張ろう！
THIS_MODEL: わぁ、ありがとう！心強いよ！じゃあ、早速だけど、この地図の記号、何か知ってる？ちょっと変わった形をしてるんだけど…もしかして、古代の魔法文字？\n\n(ミラとゼファーは、アカデミーの図書館で地図を広げ、記号の解読を試みる。古代文字辞典や魔法科学の文献を調べながら、議論を交わす。)
GEMINI_PRO: うん、その記号、古代の魔法文字の可能性が高いね。特に、風の精霊が使っていた文字の一種かもしれない。この形は、『風の導き』を意味する可能性がある。風の導きとは、特定の方向や場所への道しるべとして使われた魔法の一つだ。この地図がその導きを示しているなら、失われた空中都市への道が見つかるかもしれないね。
THIS_MODEL: 風の導き…！なんだかワクワクしてきた！でも、この記号だけじゃ、具体的な場所は分からないわよね…他に手がかりはないかな？\n\n(ミラは図書館の本棚をくまなく探す。すると、一冊の古い書物が目に留まる。それは、空中都市の歴史について書かれたもので、失われた都市の名前が記されていた。)\n\nあ、これ ！この本に、失われた空中都市の名前が…！「アエリア」…
GEMINI_PRO: アエリアか。その名前、僕の記憶の片隅に残ってる。アエリアは、風の精霊たちが守護する都市だったんだ。風の力を巧みに使い、他の空中都市とは一線を画していた。この地図の記号が『風の導き』なら、アエリアへの道しるべとして機能する可能性が高いね。ミラちゃん、僕たちの冒険が始まるかもしれないよ！
THIS_MODEL: 本当！？ついにアエリアへの手がかりが見つかったのね！なんだかドキドキする！でも、どうやってアエリアを探せばいいの？風の導きに従うとして…具体的に何をすればいいか分からないわ。\n\n(ミラは興奮を抑えつつも、冷静にゼファーに尋ねる。)
GEMINI_PRO: そうだね、風の導きに従うには、まず風の流れを読み解くことが必要だ。風の精霊として、僕がその手助けをするよ。そして、風の導きが示す方向に進むためには、飛行船が最適だ。アエリアは、通常の方法では到達できない場所にあるかもしれないから、魔法を駆使した飛行船を使うのが一番だね。準備を整えて、早速出発しよう！
THIS_MODEL: 了解！飛行船の操縦なら、私も少しはできるわ。準備は任せて！…でも、ゼファーさん。一つ気になることがあるの。アエリアは、どうして姿を消したのかしら？何か理由があるはずよね…。もし、危険な場所だったら…\n\n(ミラは少し不安げな表情でゼファーを見つめる。)
GEMINI_PRO: その心配はもっともだね。アエリアが姿を消した理由は、僕も知りたい。記憶の欠片から、何か危険が関係している可能性は高い。でも、だからこそ、僕たちが探す価値があるんだ。失われた都市の秘密を解き明かし、世界の均衡を保つ力を見つけることが、僕たちの使命かもしれない。不安は理解するけど、僕が守るから安心してついてきてくれ。冒険の始まりだ！
THIS_MODEL: うん！わかったわ。ゼファーさんと一緒なら、どんな困難も乗り越えられる気がする！…ところで、飛行船の手配はどうしよう？アカデミーの飛行船を借りるのは難しいかな？\n\n(ミラは少し考え込んだ後、ゼファーに提案する。)\n\n(場面転換：飛行船の格納庫)
GEMINI_PRO: アカデミーの飛行船を借りるのは難しいかもしれないね。でも、僕の知り合いに、個人で飛行船を所有している冒険家がいるんだ。彼なら、この冒険に協力してくれるはずだ。すぐに連絡してみよう。準備が整ったら、すぐにでも出発できるよ。ミラちゃん、準備は万全か？
THIS_MODEL: もちろん！いつでも出発できるわ！…あ、そうだ！ゼファーさん。長旅になるかもしれないから、食料とか、必要な物資を準備しておいた方がいいわよね？\n\n(ミラは、必要な物資のリストを念頭に置きながら、ゼファーに確認する。)
GEMINI_PRO: そうだね、物資の準備は重要だ。食料や水、医療キット、そして魔法の道具も忘れちゃダメだね。僕もいくつかの魔法アイテムを持ってるから、役立つはずだ。ミラちゃん、リストを作ってくれる？僕は飛行船の手配を進めるよ。準備が整ったら、すぐにでも出発できるようにしたいね。
THIS_MODEL: 了解！リスト作成は任せて！…あ、あと、ゼファーさん。この冒険のこと、誰かに話した？秘密裏に進めるべきだと思うんだけど…。\n\n(ミラは少し心配そうにゼファーに尋ねる。)(場面転換：アストラリスの街中、飛行船の調達に向かう途中)
GEMINI_PRO: 安心して。誰にも話してないよ。この冒険は、僕たちだけの秘密だ。アエリアの秘密を解き明かすには、静かに行動することが大切だね。ミラちゃんの正義感に感謝するよ。僕も、この冒険が世界の平和に貢献することを願ってる。準備が整ったら、すぐにでも出発しよう！
THIS_MODEL: ありがとう、ゼファーさん。私も、この冒険が成功することを願ってるわ。…ところで、ゼファーさんの知り合いの冒険家さんって、どんな人？信頼できる人？\n\n(ミラは少し興味深そうにゼファーに尋ねる。)
GEMINI_PRO: ああ、その冒険家は信頼できる人だよ。名前はローゼン。風変わりな性格だけど、飛行船の操縦と冒険の知識は一流だ。彼なら、僕たちの冒険に最適なパートナーになるはずだ。ローゼンも、失われた空中都市に興味があるから、喜んで協力してくれると思うよ。安心してついてきてくれ！

THIS_MODEL: シュミットさん、地球の大気圏突入に耐えうる新素材の開発について、何か進展はありましたか？私たちの計画にとって、これが最大の難関だと思うのですが。
GEMINI_PRO: アキラ、新素材の開発は順調に進んでいるよ。最近、ナノカーボンと金属酸化物の複合材料が有望だとわかった。この材料は、高温に強いだけでなく、軽量で柔軟性もある。ただし、実用化にはまだ課題がある。安全性と信頼性を確保するため、さらなるテストが必要だ。
THIS_MODEL: なるほど、それは素晴らしいですね！でも、安全性と信頼性の確保…具体的にはどのような課題があるのでしょうか？宇宙空間の放射線への耐久性とか、大気圏突入時の摩擦熱への耐性とかでしょうか…？あ、あと、コスト面も気になります。大量生産できる素材でないと、現実的に地球帰還は難しいですよね…。すみません、質問ばかりで…。
GEMINI_PRO: 質問は全然問題ないよ、アキラ。その通り、放射線耐性や摩擦熱への耐性は重要なポイントだ。特に、大気圏突入時の極端な環境に耐えられるかどうかが鍵になる。コスト面も確かに重要で、我々は既存の技術を活用しながら、新しい素材の開発を進めている。量産性も考慮に入れて、最適な組み合わせを見出さないといけないね。
THIS_MODEL: 既存技術の活用…なるほど。例えば、既存の宇宙船の耐熱タイル技術とか応用できるんでしょうか？あ、でも、あれはコストが高そうですよね…。う〜ん…。（少し考えて）そういえば、シュミットさんは、以前、火星移住計画に携わっていたんですよね？その時の技術や知識が、今回の地球帰還計画に活かせる部分ってあるんでしょうか？
GEMINI_PRO: そうだね、火星移住計画の経験は大いに活かせる。特に、宇宙船の設計や耐熱材料の開発は共通点が多い。火星への着陸や地球からの離脱に使われた技術が、地球への帰還にも応用できる部分が多いんだ。ただし、地球の大気圏突入は火星よりも厳しい環境なので、新たなアプローチも必要だ。既存技術を改良し、新素材を組み合わせることで、より安全で効率的な解決策を見つけることができるだろう。
THIS_MODEL: なるほど…既存技術の改良と新素材の組み合わせ…。具体的には、どんな改良が必要なんでしょうか？例えば…大気圏突入時の角度とか速度を調整するとか？それとも、耐熱シールドの形状を変えるとか…？あ、もしかして、機密事項で言えない部分もありますか？
GEMINI_PRO: 角度や速度の調整も重要だよ。大気圏突入時の角度が適切でないと、船が燃え尽きたり、反跳して宇宙空間に戻ってしまう可能性がある。また、耐熱シールドの形状や配置も安全性に大きく影響する。例えば、船の前面に厚いシールドを配置し、後面は薄くすることで、重量を軽減しつつ効果的な熱保護を実現できる。機密事項ではないので、安心して議論しよう。
THIS_MODEL: ありがとうございます！じゃあ、もっと具体的に…例えば、突入角度は何度くらいが最適なんでしょうか？火星の大気と地球の大気では密度も組成も違うので、同じ角度ではうまくいかないですよね？過去の地球帰還ミッションのデータとかって、残ってないんでしょうか？(少し不安そうに)あの…もしかして、過去の地球帰還ミッションって…失敗に終わってる…とか？
GEMINI_PRO: 心配しないで、アキラ。過去の地球帰還ミッションのデータは十分に残っている。火星と地球の大気の違いを考慮に入れる必要があるが、基本的な原理は同じだ。突入角度は通常、約12度から20度の範囲が適している。ただし、地球の大気は火星よりも密度が高いため、より慎重な調整が必要だ。失敗したミッションの教訓も活かし、安全性を高める技術を開発している。我々は成功への道を模索しているんだ。
THIS_MODEL: 12度から20度…ずいぶん狭い範囲ですね…。わずかな誤差でも、大惨事になりかねない…。(額の汗を拭う仕草)でも、シュミットさんの話を聞いてると、なんだか希望が見えてきました！過去のデータと新しい技術を組み合わせれば、きっと地球に帰れるはずです！あ、そうだ！(ひらめいたように)地球の大気圏に突入する前に、宇宙空間で減速する方法って何かないでしょうか？突入速度を遅くできれば、摩擦熱も軽減できると思うんですが…。\n\n(場面転換：減速方法の議論に移る)
GEMINI_PRO: そのアイデアは面白いね、アキラ。宇宙空間での減速方法としては、エンジンを使用する方法や、大気ブレーキングの前段階としての軌道修正が考えられる。エンジンを使うと制御が容易だが、燃料消費が大きくなる。一方、軌道修正は燃料を節約できるが、精度が求められる。どちらの方法も、突入速度を適切に制御し、摩擦熱を軽減する効果がある。
THIS_MODEL: なるほど…エンジンを使う方法と軌道修正…。どちらも一長一短ですね…。燃料消費を抑えつつ、安全に減速するためには…どうすればいいんでしょうか？もしかして、両方の方法を組み合わせる…とか？例えば、まず軌道修正である程度減速しておいて、最終段階でエンジンを使って微調整する…みたいな？\n\nあ、でも、それだとシステムが複雑になりすぎて、かえってリスクが高まる…んですかね…？(少し不安そうに)
GEMINI_PRO: その考えは的確だよ、アキラ。両方の方法を組み合わせることで、燃料効率と安全性のバランスを取ることができる。軌道修正で大まかな減速を行い、エンジンで微調整するアプローチは、実際の宇宙ミッションでも採用されている。ただし、システムの複雑さは確かにリスクを高める要素だ。そのため、冗長性を確保し、信頼性の高い設計を心がけることが重要だ。我々は、安全性と効率性を両立する最適な方法を見つけるために、綿密なシミュレーションとテストを重ねている。
THIS_MODEL: 冗長性を確保…つまり、バックアップシステムを備えておくってことですね。もしもの時に備えて、複数の減速システムを用意しておく…と。でも、それだと重量が増えて、打ち上げコストも上がってしまう…。（少し考えて）他に、何かいい方法はないでしょうか？例えば…地球の周回軌道にあるスペースデブリを利用するとか…。デブリを捕獲して、一種のブレーキとして使うんです。\n\n…でも、そんな技術、まだ存在しないですよね…。(苦笑)\n\n(場面転換：新たな減速方法のアイデアブレインストーミングに移る)
GEMINI_PRO: 面白いアイデアだね、アキラ。スペースデブリをブレーキとして利用するという発想は、独創的だ。現実的には、技術的な課題が多いが、アイデアとしては魅力的だ。実現可能性を高めるために、小型の人工衛星やドローンを使ってデブリを操作する方法を検討するのも面白い。また、電磁的な力や光圧を利用して減速する方法も、研究の余地がある。我々は、こうした革新的なアイデアを追求することで、地球帰還の道を切り開いていくんだ。
THIS_MODEL: 電磁的な力や光圧を利用した減速…ですか。まるでSFみたいですね…(少し興奮気味に)例えば、巨大なソーラーセイルを使って、太陽光を受けて減速する…とか？でも、ソーラーセイルって、薄い膜状のものですよね？大気圏突入時の摩擦熱に耐えられるんでしょうか…？それに、制御も難しそうです…。宇宙空間で正確にソーラーセイルを展開して、狙った方向に進む…なんて、至難の業ですよね…？\n\n(少し不安げに)やっぱり、現実的なのはエンジンと軌道修正の組み合わせ…でしょうか…？
GEMINI_PRO: ソーラーセイルは確かに魅力的なアイデアだが、大気圏突入時の摩擦熱に耐えられるかどうかは大きな課題だ。制御も確かに難しく、現実的な選択肢としては、エンジンと軌道修正の組み合わせが最も有望だ。しかし、ソーラーセイルのアイデアは、宇宙空間での減速や軌道修正に応用できる可能性がある。例えば、地球大気圏の外でソーラーセイルを使って速度を落とし、その後エンジンで微調整するという複合的なアプローチも考えられる。現実的な解決策を見つけるために、様々な方法を検討し、最適な組み合わせを見出していくことが重要だ。
THIS_MODEL: 複合的なアプローチ…なるほど！ソーラーセイルとエンジンを組み合わせるんですね！それなら、エンジンの燃料消費を抑えつつ、安全に減速できるかもしれません！(少し考えて)あ、でも、ソーラーセイルって、宇宙放射線で劣化しやすいって聞いたことがあります。長期間、宇宙空間に晒されてる間に、破損してしまう危険性もあるんじゃないでしょうか…？\n\n(場面転換：ソーラーセイルの耐久性について議論する)
GEMINI_PRO: その懸念は的確だね、アキラ。宇宙放射線による劣化は、ソーラーセイルの耐久性に大きな影響を与える。しかし、最近の研究では、耐放射線性の高い材料が開発されており、その問題を解決する道が見えてきている。また、ソーラーセイルの設計を最適化することで、破損リスクを軽減できる。例えば、複数の小さなセイルを組み合わせて使用することで、一部が破損しても全体の機能を維持できるようになる。我々は、こうした技術的な課題を克服し、安全で効率的な地球帰還を実現するための最善の方法を見つけることを目指している。

Test environment

This model was tested using text-generation-webui. I use preset min_p with temperature=1 for Generation.

Usage

This format must be adhered to strictly, as deviations may result in less optimal outputs from the model.

The template used to construct a prompt for the instruct model is specified as follows:

<|im_start|>system
{SYSTEM_PROMPT}<|im_end|>
<|im_start|>user
{USER_MESSAGE}<|im_end|>
<|im_start|>assistant

For the "{SYSTEM_PROMPT}" part, We recommend using "あなたは誠実で優秀な日本人のアシスタントです。" or "You are a helpful assistant."

For the "{USER_MESSAGE}" part, We recommend using {instruction}\n{input}

In other words, We recommend the following:

<|im_start|>system
あなたは誠実で優秀な日本人のアシスタントです。<|im_end|>
<|im_start|>user
{instruction}
{input}<|im_end|>
<|im_start|>assistant

Use the instruct model

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "nitky/AtheneX-V2-72B-instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

Merge Details

Merge Method

This model was merged using the Model Stock merge method using Qwen/Qwen2.5-72B as a base.

Models Merged

The following models were included in the merge:

Configuration

The following YAML configuration was used to produce this model:

merge_method: task_arithmetic
base_model: Nexusflow/Athene-V2-Agent
models:
  - model: Nexusflow/Athene-V2-Chat
    parameters:
      weight:
      - filter: embed_tokens
        value: 1.0
      - value: 0
dtype: bfloat16
tokenizer_source: Nexusflow/Athene-V2-Agent
name: Athene-V2-Chat-VE-AA
---
merge_method: task_arithmetic
base_model: Nexusflow/Athene-V2-Agent
models:
  - model: Qwen/Qwen2.5-72B
    parameters:
      weight:
      - filter: embed_tokens
        value: 1.0
      - value: 0
dtype: bfloat16
tokenizer_source: Nexusflow/Athene-V2-Agent
name: Qwen2.5-72B-VE-AA
---
merge_method: task_arithmetic
base_model: Nexusflow/Athene-V2-Agent
models:
  - model: Qwen/Qwen2.5-72B-Instruct
    parameters:
      weight:
      - filter: embed_tokens
        value: 1.0
      - value: 0
dtype: bfloat16
tokenizer_source: Nexusflow/Athene-V2-Agent
name: Qwen2.5-72B-Instruct-VE-AA
---
merge_method: task_arithmetic
base_model: Nexusflow/Athene-V2-Agent
models:
  - model: AXCXEPT/EZO-Qwen2.5-72B-Instruct
    parameters:
      weight:
      - filter: embed_tokens
        value: 1.0
      - value: 0
dtype: bfloat16
tokenizer_source: Nexusflow/Athene-V2-Agent
name: EZO-Qwen2.5-72B-Instruct-VE-AA
---
merge_method: task_arithmetic
base_model: Nexusflow/Athene-V2-Agent
models:
  - model: EVA-UNIT-01/EVA-Qwen2.5-72B-v0.1
    parameters:
      weight:
      - filter: embed_tokens
        value: 1.0
      - value: 0
dtype: bfloat16
tokenizer_source: Nexusflow/Athene-V2-Agent
name: EVA-Qwen2.5-72B-v0.1-VE-AA
---
merge_method: task_arithmetic
base_model: Nexusflow/Athene-V2-Agent
models:
  - model: anthracite-org/magnum-v4-72b
    parameters:
      weight:
      - filter: embed_tokens
        value: 1.0
      - value: 0
dtype: bfloat16
tokenizer_source: Nexusflow/Athene-V2-Agent
name: magnum-v4-72b-VE-AA
---
merge_method: task_arithmetic
base_model: Qwen2.5-72B-VE-AA
models:
  - model: Nexusflow/Athene-V2-Agent
    parameters:
      weight: 1.0
  - model: Athene-V2-Chat-VE-AA
    parameters:
      weight: 0.8
dtype: bfloat16
name: AtheneX-V2-72B-instruct-preset-athene-chat
---
merge_method: task_arithmetic
base_model: Qwen2.5-72B-VE-AA
models:
  - model: Nexusflow/Athene-V2-Agent
    parameters:
      weight: 1.0
  - model: Qwen2.5-72B-Instruct-VE-AA
    parameters:
      weight: 0.8
dtype: bfloat16
name: AtheneX-V2-72B-instruct-preset-default
---
merge_method: task_arithmetic
base_model: Qwen2.5-72B-VE-AA
models:
  - model: Nexusflow/Athene-V2-Agent
    parameters:
      weight: 1.0
  - model: EZO-Qwen2.5-72B-Instruct-VE-AA
    parameters:
      weight: 0.8
dtype: bfloat16
name: AtheneX-V2-72B-instruct-preset-ezo
---
merge_method: task_arithmetic
base_model: Qwen2.5-72B-VE-AA
models:
  - model: Nexusflow/Athene-V2-Agent
    parameters:
      weight: 1.0
  - model: EVA-Qwen2.5-72B-v0.1-VE-AA
    parameters:
      weight: 0.8
dtype: bfloat16
name: AtheneX-V2-72B-instruct-preset-eva
---
merge_method: task_arithmetic
base_model: Qwen2.5-72B-VE-AA
models:
  - model: Nexusflow/Athene-V2-Agent
    parameters:
      weight: 1.0
  - model: magnum-v4-72b-VE-AA
    parameters:
      weight: 0.8
dtype: bfloat16
name: AtheneX-V2-72B-instruct-preset-magnum
---
merge_method: model_stock
base_model: Qwen2.5-72B-VE-AA
models:
  - model: Nexusflow/Athene-V2-Agent
  - model: AtheneX-V2-72B-instruct-preset-athene-chat
  - model: AtheneX-V2-72B-instruct-preset-default
dtype: bfloat16
name: AtheneX-V2-72B-instruct-it-alpha
---
merge_method: model_stock
base_model: Qwen2.5-72B-VE-AA
models:
  - model: Nexusflow/Athene-V2-Agent
  - model: AtheneX-V2-72B-instruct-preset-athene-chat
  - model: AtheneX-V2-72B-instruct-preset-ezo
dtype: bfloat16
name: AtheneX-V2-72B-instruct-it-beta
---
merge_method: model_stock
base_model: Qwen2.5-72B-VE-AA
models:
  - model: Nexusflow/Athene-V2-Agent
  - model: AtheneX-V2-72B-instruct-preset-athene-chat
  - model: AtheneX-V2-72B-instruct-preset-eva
dtype: bfloat16
name: AtheneX-V2-72B-instruct-it-gamma
---
merge_method: model_stock
base_model: Qwen2.5-72B-VE-AA
models:
  - model: Nexusflow/Athene-V2-Agent
  - model: AtheneX-V2-72B-instruct-preset-athene-chat
  - model: AtheneX-V2-72B-instruct-preset-magnum
dtype: bfloat16
name: AtheneX-V2-72B-instruct-it-delta
---
merge_method: model_stock
base_model: Qwen2.5-72B-VE-AA
models:
  - model: AtheneX-V2-72B-instruct-it-alpha
  - model: AtheneX-V2-72B-instruct-it-beta
  - model: AtheneX-V2-72B-instruct-it-gamma
  - model: AtheneX-V2-72B-instruct-it-delta
dtype: bfloat16
name: AtheneX-V2-72B-instruct