webai-community
/

models

Model card Files Files and versions Community

models / llama-3.2-gqa-3B /genai_config.json

Yang Gu

Add more llama models

a6eea9a 19 days ago

history blame contribute delete

1.68 kB

	{
	"model": {
	"bos_token_id": 128000,
	"context_length": 131072,
	"decoder": {
	"session_options": {
	"log_id": "onnxruntime-genai",
	"provider_options": [
	{
	"web": {}
	}
	]
	},
	"filename": "model.onnx",
	"head_size": 128,
	"hidden_size": 3072,
	"inputs": {
	"input_ids": "input_ids",
	"attention_mask": "attention_mask",
	"position_ids": "position_ids",
	"past_key_names": "past_key_values.%d.key",
	"past_value_names": "past_key_values.%d.value"
	},
	"outputs": {
	"logits": "logits",
	"present_key_names": "present.%d.key",
	"present_value_names": "present.%d.value"
	},
	"num_attention_heads": 24,
	"num_hidden_layers": 28,
	"num_key_value_heads": 8
	},
	"eos_token_id": [
	128001,
	128008,
	128009
	],
	"pad_token_id": 128001,
	"type": "llama",
	"vocab_size": 128256
	},
	"search": {
	"diversity_penalty": 0.0,
	"do_sample": true,
	"early_stopping": true,
	"length_penalty": 1.0,
	"max_length": 131072,
	"min_length": 0,
	"no_repeat_ngram_size": 0,
	"num_beams": 1,
	"num_return_sequences": 1,
	"past_present_share_buffer": false,
	"repetition_penalty": 1.0,
	"temperature": 0.6,
	"top_k": 1,
	"top_p": 0.9
	}
	}