こちらのモデルで最終的に適用した加算割合について

#1
by Sdff-Ltba - opened

興味深い手法を公開してくださりありがとうございます。正直ちょっと妬けます…

さて本題ですが、こちらのモデルで最終的に適用した加算割合のデータはお手元に残っていらっしゃいますでしょうか。
LCAをより自分好みに調整したく、その参考に元モデルと比較してみたいと考えています。
お手元に残ってらっしゃた場合は、公開していただくことは可能でしょうか?

以上です。
お忙しいところ恐縮ですが、ご検討をよろしくお願いいたします。

Owner

@Sdff-Ltba
ありがとうございます!いえいえ、私は提案いただいた手法に乗っかっただけですので…。(ぶっちゃけ、この最適化手法であまりよくなっている感はないですし…)
プログラム的に保存はしていなかったのですが、個人的なメモ帳を確認したところ以下のようなものが残ってました。恐らくベストorベストに近い評価を得た割合だと思います。

{'ratio_0': 0.9625998398541473, 'ratio_1': 0.12308070940117549, 'ratio_2': 0.3550403615546398, 'ratio_3': 1.3443270285788254, 'ratio_4': 1.368589311763154, 'ratio_5': 1.4992567799339458, 'ratio_6': 1.6047522245125554, 'ratio_7': 1.5198021977016223, 'ratio_8': 0.33550073230498567, 'ratio_9': 0.2329026126017406, 'ratio_10': 0.03580096291843188, 'ratio_11': 1.510244416565212, 'ratio_12': 1.1686856003864534, 'ratio_13': 0.1756572740318246, 'ratio_14': 1.0700560954469978, 'ratio_15': 1.255433930920345, 'ratio_16': 1.364861177403763, 'ratio_17': 1.7546122384286482, 'ratio_18': 1.614594957028121, 'ratio_19': 0.08433207708622356, 'ratio_20': 0.5084009453780892, 'ratio_21': 0.9545918954977122, 'ratio_22': 1.481007990305792, 'ratio_23': 0.7165321908964579, 'ratio_24': 1.7749255625689722, 'ratio_25': 0.7272912413954346, 'ratio_26': 0.8008542019380522, 'ratio_27': 1.595033468822059, 'ratio_28': 0.01079052097675215, 'ratio_29': 0.22495128589486765, 'ratio_30': 0.6647734250080175, 'ratio_31': 1.5591422948162557, 'ratio_32': 0.36240761165016155, 'ratio_33': 0.4874139896355596, 'ratio_34': 0.4691413278703598, 'ratio_35': 0.5845789061247685, 'ratio_36': 0.9072062708627411, 'ratio_37': 1.0707750590605294, 'ratio_38': 1.9966900107756638, 'ratio_39': 0.4190201541644353, 'ratio_40': 0.12247640105341645, 'ratio_41': 0.7777358957274094, 'ratio_42': 1.369367720845305, 'ratio_43': 1.9122555354976212, 'ratio_44': 1.4660841039034391, 'ratio_45': 0.8690152771241892, 'ratio_46': 1.0180049808819893, 'ratio_47': 1.1149549045969855, 'ratio_48': 1.3795080118597913, 'ratio_49': 0.5660197197897736, 'ratio_50': 1.1665855475310571, 'ratio_51': 1.9413576281762104, 'ratio_52': 1.1187595678080062, 'ratio_53': 0.779557244175769, 'ratio_54': 0.7165437859170681, 'ratio_55': 0.7294797216258893, 'ratio_56': 0.10974859429807346, 'ratio_57': 0.8706578100558215, 'ratio_58': 0.6560101138233787, 'ratio_59': 1.043676068666174, 'ratio_60': 0.8733817552426074, 'ratio_61': 0.27379008241797775, 'ratio_62': 1.396691408937262, 'ratio_63': 0.7766438903588845, 'ratio_64': 0.9485984087735365, 'ratio_65': 0.48714794332908573, 'ratio_66': 0.16511001938843828, 'ratio_67': 0.37148229589480697, 'ratio_68': 0.14015489848960616, 'ratio_69': 1.4759144647306244}

0から34がchatntqの方、35から69がAntlerの方の加算に使われています。それぞれ最初(0、35)がmodel.embed_tokens.weightの加算に、1~32、36~67番目がhidden_layersの0から31番目の加算に、33・68番目がmodel.norm.weightの加算に、34・69番目がlm_head.weightの加算に使われています。

色々な方々と協力し合ってより良いモデルを作ることが出来ればと思っておりますので、よろしくお願いします!

@Aratako
うお、お早い返信&詳細なデータ・解説ありがとうございます!
いただいたデータを参考に試行錯誤してみます。
0.8掛けにするのも深い考え無しに真似して使っていたものなので、改善する余地があると考えるきっかけになりました。

私もより良いモデルを作れるよう、頑張っていこうと思います!こちらこそよろしくお願いいたします!
重ね重ねありがとうございました!

Sdff-Ltba changed discussion status to closed

Sign up or log in to comment