Spaces:

Dovakiins
/

qwerrwe

Build error

App Files Files Community

qwerrwe / src /axolotl /prompt_strategies /pygmalion.py

theobjectivedad

Fixed pre-commit problems, fixed small bug in logging_config to handle LOG_LEVEL env var

b1f4f7a over 1 year ago

raw

history blame

3.57 kB

	"""Module containing the PygmalionPromptTokenizingStrategy and PygmalionPrompter class"""

	import copy
	import logging
	from collections import defaultdict
	from typing import Generator, List, Tuple

	from axolotl.prompt_tokenizers import (
	PromptTokenizingStrategy,
	parse_tokenized_to_result,
	tokenize_prompt_default,
	)

	LOG = logging.getLogger("axolotl")

	IGNORE_TOKEN_ID = -100


	class PygmalionPromptTokenizingStrategy(PromptTokenizingStrategy):
	"""
	Tokenizing strategy for Pygmalion.
	"""

	bot_prefix_token_ids: List[int] = []

	def __init__(self, prompter, tokenizer, args, *kwargs):
	super().__init__(prompter, tokenizer, args, *kwargs)
	res = self._tokenize("<\|model\|>", add_eos_token=False, strip_bos_token=True)
	self.bot_prefix_token_ids = res["input_ids"]

	def tokenize_prompt(self, prompt):
	result, current_len = tokenize_prompt_default()
	for _, part in enumerate(self.prompter.build_prompt(prompt["conversations"])):
	role, message = part
	if role == "system":
	prefix = "<\|system\|>"
	# this should include a bos token, no eos token, strip trailing "\n<START>"
	if message.endswith("\n<START>"):
	message = message[:-8]
	res = self._tokenize(
	prefix + "Persona: " + message.strip(),
	add_eos_token=False,
	strip_bos_token=False,
	)
	# everything from this is masked out from the labels
	labels = [IGNORE_TOKEN_ID] * len(res["input_ids"])
	elif role == "human":
	prefix = "<\|user\|>"
	res = self._tokenize(
	prefix + " " + message.strip(),
	add_eos_token=False,
	strip_bos_token=True,
	)
	# everything from this is masked out from the labels
	labels = [IGNORE_TOKEN_ID] * len(res["input_ids"])
	elif role == "bot":
	prefix = "<\|model\|>"
	res = self._tokenize(
	prefix + " " + message.strip(),
	add_eos_token=True,
	strip_bos_token=True,
	)
	# mask out the prefix token, rest is not masked out from labels
	# make sure we create the labels first, otherwise we get incorrect lengths
	labels = [IGNORE_TOKEN_ID] * len(self.bot_prefix_token_ids) + [
	*copy.deepcopy(res["input_ids"])
	][len(self.bot_prefix_token_ids) :]
	else:
	LOG.warning(f"unknown role in conversation: {role}")
	res = defaultdict(lambda: [])

	# pylint: disable=duplicate-code
	result, current_len = parse_tokenized_to_result(
	result,
	current_len,
	res,
	labels,
	pad_token_id=self.tokenizer.pad_token_id,
	)
	return result


	class PygmalionPrompter:
	"""
	Prompter for Pygmalion.
	"""

	def __init__(self, args, *kwargs):
	pass

	def build_prompt(
	self, source, args, *kwargs # pylint: disable=unused-argument
	) -> Generator[Tuple[str, str], None, None]:
	for msg in source:
	yield msg["role"], msg["value"]


	def load(tokenizer, cfg):
	return PygmalionPromptTokenizingStrategy(
	PygmalionPrompter(), tokenizer, cfg.train_on_inputs, cfg.sequence_len
	)