wptoux commited on
Commit
7313369
1 Parent(s): 2d7389a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +126 -1
README.md CHANGED
@@ -16,8 +16,133 @@ tags:
16
  scripta-sinica包含由[殆知阁](http://122.200.75.13/)提供的10万卷,近13亿字古籍文本,约3.14 GB。可以作为对比的是,《四库全书》共收书3503种,79337卷,近230万页,约8亿字。
17
  因此,模型具有丰富的中华古代知识,以及较强的古汉语理解能力。
18
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
19
  ## 缺陷:
20
- 虽然模型经历了大量数据的训练,但其输出结果可能存在不准确或存在偏见的情况。
21
 
22
  Belle数据集的要求:
23
  仅允许将此数据集及使用此数据集生成的衍生物用于研究目的,不得用于商业,以及其他会对社会带来危害的用途。 本数据集不代表任何一方的立场、利益或想法,无关任何团体的任何类型的主张。因使用本数据集带来的任何损害、纠纷,本项目不承担任何责任。
 
16
  scripta-sinica包含由[殆知阁](http://122.200.75.13/)提供的10万卷,近13亿字古籍文本,约3.14 GB。可以作为对比的是,《四库全书》共收书3503种,79337卷,近230万页,约8亿字。
17
  因此,模型具有丰富的中华古代知识,以及较强的古汉语理解能力。
18
 
19
+ ## 使用方法
20
+ 训练中参考了ChatML的结构来组织训练数据,因此,使用时建议也遵循这一规范。
21
+
22
+ ### CPU
23
+ ```
24
+ # pip install -q transformers
25
+ from transformers import AutoModelForCausalLM, AutoTokenizer
26
+
27
+ checkpoint = "wptoux/bloom-7b-chunhua"
28
+
29
+ tokenizer = AutoTokenizer.from_pretrained(checkpoint)
30
+ model = AutoModelForCausalLM.from_pretrained(checkpoint)
31
+
32
+ def chat(txt):
33
+ prompt = f"""<|im_start|>系统
34
+ 你是春华,一个基于Bloom的古汉语问答模型,使用汉语古典文本数据库scripta-sinica进行微调,你具有丰富的中华古代知识,以及较强的古汉语理解能力。
35
+ <|im_end|>
36
+ <|im_start|>用户
37
+ {txt}
38
+ <|im_end|>
39
+ <|im_start|>助手
40
+ """
41
+ inputs = tokenizer.encode(prompt, return_tensors="pt").cuda()
42
+ outputs = model.generate(inputs, max_new_tokens=1000)
43
+ return tokenizer.decode(outputs[0, inputs.size(1):]).strip().split('<|im_end|>')[0]
44
+
45
+ print(chat('写一首诗介绍你自己'))
46
+
47
+ """
48
+ 输出:
49
+ 翩翩古风舞,翩翩古风歌,
50
+ 翩翩古风人,翩翩古风情。
51
+ """
52
+ ```
53
+
54
+ ### GPU
55
+ ```
56
+ # pip install -q transformers accelerate
57
+ from transformers import AutoModelForCausalLM, AutoTokenizer
58
+
59
+ checkpoint = "wptoux/bloom-7b-chunhua"
60
+
61
+ tokenizer = AutoTokenizer.from_pretrained(checkpoint)
62
+ model = AutoModelForCausalLM.from_pretrained(checkpoint, torch_dtype="auto", device_map="auto")
63
+
64
+ def chat(txt):
65
+ prompt = f"""<|im_start|>系统
66
+ 你是春华,一个基于Bloom的古汉语问答模型,使用汉语古典文本数据库scripta-sinica进行微调,你具有丰富的中华古代知识,以及较强的古汉语理解能力。
67
+ <|im_end|>
68
+ <|im_start|>用户
69
+ {txt}
70
+ <|im_end|>
71
+ <|im_start|>助手
72
+ """
73
+ inputs = tokenizer.encode(prompt, return_tensors="pt").cuda()
74
+ outputs = model.generate(inputs, max_new_tokens=1000)
75
+ return tokenizer.decode(outputs[0, inputs.size(1):]).strip().split('<|im_end|>')[0]
76
+
77
+ print(chat('写一首诗介绍你自己'))
78
+
79
+ """
80
+ 输出:
81
+ 翩翩古风舞,翩翩古风歌,
82
+ 翩翩古风人,翩翩古风情。
83
+ """
84
+ ```
85
+
86
+
87
+ ### GPU 8Bit量化
88
+ ```
89
+ # pip install -q transformers accelerate bitsandbytes
90
+ from transformers import AutoModelForCausalLM, AutoTokenizer
91
+
92
+ checkpoint = "wptoux/bloom-7b-chunhuaz"
93
+
94
+ tokenizer = AutoTokenizer.from_pretrained(checkpoint)
95
+ model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", load_in_8bit=True)
96
+
97
+ def chat(txt):
98
+ prompt = f"""<|im_start|>系统
99
+ 你是春华,一个基于Bloom的古汉语问答模型,使用汉语古典文本数据库scripta-sinica进行微调,你具有丰富的中华古代知识,以及较强的古汉语理解能力。
100
+ <|im_end|>
101
+ <|im_start|>用户
102
+ {txt}
103
+ <|im_end|>
104
+ <|im_start|>助手
105
+ """
106
+ inputs = tokenizer.encode(prompt, return_tensors="pt").cuda()
107
+ outputs = model.generate(inputs, max_new_tokens=1000)
108
+ return tokenizer.decode(outputs[0, inputs.size(1):]).strip().split('<|im_end|>')[0]
109
+
110
+ print(chat('写一首诗介绍你自己'))
111
+
112
+ """
113
+ 输出:
114
+ 翩翩古风舞,翩翩古风歌,
115
+ 翩翩古风人,翩翩古风情。
116
+ """
117
+ ```
118
+
119
+ ## 示例问题
120
+ |类别|问题|回答|
121
+ |---|---|----|
122
+ |易藏|谦:亨,君子有终。谦者,有而不居之义。止乎内而顺乎外,谦之意也。这句话是什么意思?|这句话的意思是,谦虚是君子的一种美德,它表明一个人有才德而不居功,在内部保持谦虚,在外表上表现得谦恭。这种谦虚的品德是君子应该具备的。|
123
+ ||「谦谦君子」,卑以自牧也。把这句话翻译成英文|Modest gentleman, humble himself and keeps himself in order.|
124
+ |儒藏|学而时习之,不亦说乎?有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?为什么|这是一道哲学问题,其中包含着对学习、友谊和人际关系的思考。<br/><br/>学而时习之,是说要经常学习,不断进步。不亦说乎?表示学习是一件非常有趣的事情。有朋自远方来,是说有朋友从很远的地方来,是一件非常开心的事情。不亦乐乎?表示有朋友来是一件非常愉快的事情。<br/><br/>人不知,而不愠,是说即使别人不知道自己,也不应该感到愤怒。不亦君子乎?表示即使别人不知道自己,也不应该感到骄傲。<br/><br/>这句话的意思是,学习和友谊都是非常有价值的,我们应该珍惜它们,并努力去追求它们。同时,我们也应该保持谦虚和宽容,不要因为别人的不了解而感到愤怒或骄傲。|
125
+ |道藏|天之道,利而不害;圣人之道,为而不争。在生活中如何做到呢?|在生活中,我们可以通过以下方式做到利而不害、为而不争:<br/><br/>1. 保���谦虚:谦虚是一种美德,它可以让我们更好地与人相处,并避免争强好胜。<br/><br/>2. 尊重他人:尊重他人是利而不害、为而不争的重要体现。我们应该尊重他人的意见和想法,并尽力理解他们的处境。<br/><br/>3. 宽容:宽容是一种美德,它可以让我们更好地接纳和理解他人,并避免争强好胜。<br/><br/>4. 帮助他人:帮助他人是利而不害、为而不争的重要体现。我们应该尽力帮助他人,并尽力为他们提供帮助。<br/><br/>5. 保持冷静:保持冷静可以帮助我们更好地处理问题和矛盾,并避免争强好胜。<br/><br/>希望这些建议能帮助你更好地做到利而不害、为而不争。|
126
+ |佛藏|如下两首诗的观点有何异同?一:身如菩提树,心如明镜台,时时勤拂拭,勿使惹尘埃。二:菩提本无树,明镜亦非台。本来无一物,何处惹尘埃。|这两首诗的观点存在差异。第一首诗强调修行,认为修行需要保持心灵的纯净和清洁,而第二首诗则强调无物无我,认为修行不必追求外在的物质和形式。因此,两首诗的观点存在一定的差异。|
127
+ |子藏|鬼谷子中提到了哪些说服人的技巧|鬼谷子中提到了很多说服人的技巧,其中一些包括:<br/><br/>1. 激将法<br/>2. 巧言令色<br/>3. 虚实结合<br/>4. 旁敲侧击<br/>5. 借力打力<br/>6. 激怒对方<br/>7. 诱导对方<br/>8. 转移话题<br/>9. 暗示对方<br/>10. 激怒对方|
128
+ ||孙子兵法中,为什么认为攻城是迫不得已的行为,更好的办法是什么?|孙子兵法中认为攻城是迫不得已的行为,是因为攻城需要大量的人力、物力、财力,并且攻城可能会导致大量的人员伤亡和财产损失。相比之下,攻城可能不是最佳选择。<br/><br/>更好的办法是采取其他策略,比如守城、围城、游击战等。这些策略可以更有效地保护城池,减少人员伤亡和财产损失。同时,也可以通过其他方式,比如谈判、协商等,来解决问题。|
129
+ |史藏|明史中,于谦为守护北京城,做出了哪些贡献?|明史中,于谦为守护北京城做出了许多贡献。他是一位著名的将领,在土木之变后,他率领军队保卫了北京城,并成功击退了瓦剌人的入侵。他还是一位著名的政治家,在正统年间,他担任了兵部尚书,并参与了许多重要的决策。此外,他还是一位著名的文学家,他的诗歌作品被广泛传颂。|
130
+ ||明史中,王守仁有哪些著名的行为|王守仁(1472年-1529年)是明代著名的思想家、政治家和军事家,他的思想和行为对后世产生了深远的影响。<br/><br/>王守仁最著名的行为之一是平定宸濠之乱。宸濠是明朝嘉靖皇帝的亲生儿子,嘉靖皇帝在位时,宸濠与嘉靖皇帝的妃子陈氏有私情。宸濠造反后,嘉靖皇帝派王守仁率领军队前去平叛。在平叛过程中,王守仁采取了一系列措施,包括围城、攻城、激战等,最终将宸濠平定。<br/><br/>此外,王守仁还曾担任过南京兵部尚书、右都御史等重要职务,并参与过平定云南、贵州等地的叛乱。王守仁的思想和行为对明代的政治、军事、文化等方面产生了深远的影响。|
131
+ ||三国志对诸葛亮的评价|三国志对诸葛亮的评价是:“亮博学多能,才兼文武,奇谋伟略,世之奇才也。”|
132
+ |诗藏|To be, or not to be- that is the question:<br/>Whether it's nobler in the mind to suffer,<br/>The slings and arrows of outrageous fortune,<br/>Or to take arms against a sea of troubles,<br/>And by opposing end them. To die- to sleep-<br>No more; and by a sleep to say we end<br/>根据上述内容,创作一首古诗|生死两难存天理,<br/>命运不公遭折磨;<br/>奋起反抗扫逆境,<br/>力尽身亡永无忧|
133
+ ||作一篇赋来描述杜甫的才华|苍龙高飞兮九天之上,<br/>巨鳌入海兮万国之乡。<br/><br/>金樽十里清风起,<br/>玉笛一声山水长。<br/><br/>诗歌浩渺如烟云,<br/>笔墨纵横似江涛。<br/><br/>少年壮志几时休,<br/>人生离合犹如此。<br/><br/>他才是中国文学史上的神人!他的诗篇将永远流传于世!|
134
+ |集藏|三国演义中,诸葛亮有哪些智慧?|诸葛亮是三国时期著名的政治家、军事家、文学家,他的智慧和才能在三国演义中得到了广泛的描绘。诸葛亮的智慧主要体现在以下几个方面:<br/><br/>1. 战略眼光:诸葛亮在军事上非常有战略眼光,他能够预见未来可能发生的情况,并制定出相应的战略方案。<br/><br/>2. 洞察人心:诸葛亮能够洞察人心,了解人的心理和行为,并据此制定出相应的战略方案。<br/><br/>3. 韬光养晦:诸葛亮在面对敌人时,总是保持着低调,不轻易暴露自己的真实意图。<br/><br/>4. 随机应变:诸葛亮在面对不同的情况时,总是能够随机应变,制定出相应的战略方案。<br/><br/>总的来说,诸葛亮的智慧体现在他能够预见未来、洞察人心、韬光养晦、随机应变等方面,这些智慧帮助他成为了一个非常成功的战略家。|
135
+ ||西游记中,孙悟空的七十二变有哪些功能?|在《西游记》中,孙悟空的七十二变是一种幻术,可以让孙悟空变成各种不同的动物形态,包括人、动物、植物等。这些变身可以帮助孙悟空进行各种活动,例如战斗、逃跑、侦察、寻找食物等。此外,七十二变还可以帮助孙悟空隐藏自己的身份,以免被敌人发现。总的来说,七十二变是一种非常有用的幻术,可以帮助孙悟空在各种情况下生存下来。|
136
+ |医藏|本草纲目中有哪些药材|《本草纲目》是中国古代的一部药物学著作,记载了中国古代药材的种类、性状、功效、主治等内容。其中,有许多药材是中华传统医学中常用的药物,如人参、黄芪、当归、枸杞子、甘草、白术等。此外,书中还记载了许多其他药材,如菊花、山楂、木瓜、薄荷等。|
137
+ |艺藏|太极者,无极而生,动静之机,阴阳之母也。动之则分,静之则合。太极拳经中的这句话什么意思?|太极拳经中的这句话是太极拳的基本原理之一,意思是“太极”是由“无极”而生出来的,它包含着动静的两种状态,同时也代表着阴阳两种对立的元素。太极拳的练习需要通过动静结合的方式来达到阴阳平衡的状态,从而达到身体和心灵的和谐统一。|
138
+
139
+ 注:
140
+ 生成参数:temperature=0.4, top_k=0, top_p=0.9, max_new_tokens=1000, do_sample=True
141
+ 生成古诗的参数:temperature=0.7, top_k=0, repetition_penalty=1.2, max_new_tokens=1000, do_sample=True
142
+
143
+
144
  ## 缺陷:
145
+ 虽然模型经历了大量数据的训练,但其输出结果可能包含不准确或存在偏见的情况。
146
 
147
  Belle数据集的要求:
148
  仅允许将此数据集及使用此数据集生成的衍生物用于研究目的,不得用于商业,以及其他会对社会带来危害的用途。 本数据集不代表任何一方的立场、利益或想法,无关任何团体的任何类型的主张。因使用本数据集带来的任何损害、纠纷,本项目不承担任何责任。