p208p2002
/

llama-chinese-81M

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

llama-chinese-81M / README.md

p208p2002's picture

Update README.md

51042f6 about 1 year ago

|

history blame contribute delete

No virus

587 Bytes

	---
	datasets:
	- wikipedia
	language:
	- zh
	- en
	tags:
	- chinese
	- english
	inference:
	parameters:
	max_new_tokens: 50
	do_sample: true
	widget:
	- text: 粉圓，在珍珠奶茶中也稱波霸或珍珠，是一種
	pipeline_tag: text-generation
	---
	# LLaMA Chinese 81M
	一個小型中英文(雙語)預訓練語言模型。

	## Training Dataset
	- 中文維基百科(20230601)
	- 英文維基百科(20230601)

	## Tokenizer
	使用重新在中英文語料上訓練的 BPE Tokenizer，擁有較佳的分詞效果與邊解碼效率。
	> https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki