In [1]:
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")

tokenizer.pad_token = tokenizer.eos_token
tokenizer.pad_token_id = tokenizer.eos_token_id

# GPT-J

Najpier sprawdźmy jak radzi sobie goły GPT-J

In [None]:
from peft import PeftModel
from transformers import AutoTokenizer, GPTJForCausalLM, GenerationConfig

model = GPTJForCausalLM.from_pretrained(
    "EleutherAI/gpt-j-6B",
    load_in_8bit=True,
    device_map="auto",
)


In [3]:
model

GPTJForCausalLM(
  (transformer): GPTJModel(
    (wte): Embedding(50400, 4096)
    (drop): Dropout(p=0.0, inplace=False)
    (h): ModuleList(
      (0-27): 28 x GPTJBlock(
        (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
        (attn): GPTJAttention(
          (attn_dropout): Dropout(p=0.0, inplace=False)
          (resid_dropout): Dropout(p=0.0, inplace=False)
          (k_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (v_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (out_proj): Linear(in_features=4096, out_features=4096, bias=False)
        )
        (mlp): GPTJMLP(
          (fc_in): Linear(in_features=4096, out_features=16384, bias=True)
          (fc_out): Linear(in_features=16384, out_features=4096, bias=True)
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.0, inplace=False)
        )
      )
    )
    (ln_f)

In [9]:
def owca_generate(text):
    inputs = tokenizer(
        text,
        return_tensors="pt",
    )
    input_ids = inputs["input_ids"].cuda()

    generation_config = GenerationConfig(
        temperature=0.6,
        top_p=0.95,
        repetition_penalty=1.2,
    )

    print("Generating...")
    generation_output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        max_new_tokens=128,
        pad_token_id = 0,
        eos_token_id = 50256
    )

    for s in generation_output.sequences:
        print(tokenizer.decode(s))

In [5]:
PROMPT = """poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Jaka jest różnica pomiędzy alpaką i owcą?
### Odpowiedź:"""
%%time
owca_generate(PROMPT)

Generating...
poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Jaka jest różnica pomiędzy alpaką i owcą?
### Odpowiedź:
Ponieważ alpa to nazwisko gatunku ptaków a owca to rodzina ptaszek.

<|endoftext|>
CPU times: user 2.39 s, sys: 423 ms, total: 2.81 s
Wall time: 2.78 s


In [6]:
%%time
PROMPT = """Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
What are the differences between alpacas and sheep?
### Response:"""
owca_generate(PROMPT)

Generating...
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
What are the differences between alpacas and sheep?
### Response:
Alpaca's have longer legs than sheep, they also have more hair on their bodies. Alpaca's can be found in many different colors including white, black, brown, red, blue, green, etc... Sheep can only be found in one color which is usually gray or tan. They do not have as much hair on them as alpaca's but it does grow very fast. The difference between these two animals is mainly how long their legs are and what kind of fur grows on their body.
## Lesson 3 - Grammar Rules for Writing Sentences with Verbs
In this lesson you will learn
CPU times: user 5.76 s, sys: 31.7 ms, total: 5.79 s
Wall time: 5.78 s


In [7]:
%%time
PROMPT = """poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Napisz funkcję w pythonie, która sprawdza czty dana liczba jest pierwsza.
### Odpowiedź:"""

owca_generate(PROMPT)

Generating...
poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Napisz funkcję w pythonie, która sprawdza czty dana liczba jest pierwsza.
### Odpowiedź:
```python
def is_first(x):
  return x == 1
```

<|endoftext|>
CPU times: user 1.08 s, sys: 4.95 ms, total: 1.09 s
Wall time: 1.08 s


In [8]:
PROMPT = """Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
Write me a python function that checks if a number is prime.
### Response:"""
owca_generate(PROMPT)

Generating...
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
Write me a python function that checks if a number is prime.
### Response:
def check_prime(n):
    """Check whether n is prime or not."""

    # Check for divisibility by 2, 3 and 5.
    if (2*n) % n == 0: return False
    elif (3*n) % n == 0: return True
    else: return False

<|endoftext|>


In [9]:
%%time
PROMPT = """poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Napisz email wyjaśniający dlaczego GPT-4 powinien być open source.
### Odpowiedź:"""
owca_generate(PROMPT)

Generating...
poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Napisz email wyjaśniający dlaczego GPT-4 powinien być open source.
### Odpowiedź:
```text
Greetings! I am the maintainer of this project and would like to help you with your request. Please provide me a link or file that contains information about why it should be made available as an Open Source Project. Thank You for contributing to our community!
```

<|endoftext|>
CPU times: user 2.96 s, sys: 6.11 ms, total: 2.97 s
Wall time: 2.97 s


In [10]:
%%time
PROMPT = """Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
Write an email explaining why GPT-4 should be open source.
### Response:"""
owca_generate(PROMPT)

Generating...
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
Write an email explaining why GPT-4 should be open source.
### Response:
GPT-4 has been released as Open Source Software under GPLv3 license, and it's available at https://github.com/gpt-lang/gpt-4. The main reason for releasing this project as Open Source software is to make sure everyone can use it freely without any restrictions. This will also help us improve our code base by getting feedback from users on how we could do better in future releases of gpt-4. 

<|endoftext|>
CPU times: user 4.13 s, sys: 900 µs, total: 4.13 s
Wall time: 4.13 s


# OWCA

Sprawdźmy jak z tymi samymi promptami radzi sobie owca

In [6]:
from peft import PeftModel
from transformers import AutoTokenizer, GPTJForCausalLM, GenerationConfig

model = GPTJForCausalLM.from_pretrained(
    "EleutherAI/gpt-j-6B",
#     load_in_8bit=True,
    device_map="auto",
)
model = PeftModel.from_pretrained(model, "./gptj6b-lora-owca")

In [7]:
model

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): GPTJForCausalLM(
      (transformer): GPTJModel(
        (wte): Embedding(50400, 4096)
        (drop): Dropout(p=0.0, inplace=False)
        (h): ModuleList(
          (0-27): 28 x GPTJBlock(
            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)
            (attn): GPTJAttention(
              (attn_dropout): Dropout(p=0.0, inplace=False)
              (resid_dropout): Dropout(p=0.0, inplace=False)
              (k_proj): Linear(in_features=4096, out_features=4096, bias=False)
              (v_proj): Linear(
                in_features=4096, out_features=4096, bias=False
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.05, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=4, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_fe

In [10]:
%%time
PROMPT = """poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Jaka jest różnica pomiędzy alpaką i owcą?
### Odpowiedź:"""
owca_generate(PROMPT)

Generating...
poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Jaka jest różnica pomiędzy alpaką i owcą?
### Odpowiedź:
Alpa to gatunek ptaków, a Owca to rodzina ptaszek. Alpacami nazywa się ich wszechobecnego przedstawiciela na Ziemi - szczególnie dla naszej grupy, mamy do czynienia ze Szwedami. Wspaniałym narzędziem poznawczym oraz ekscytującem sportem było ono stosunkowo nowoczesnym samol
CPU times: user 6.53 s, sys: 491 ms, total: 7.02 s
Wall time: 6.99 s


In [11]:
%%time
PROMPT = """Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
What are the differences between alpacas and sheep?
### Response:"""
owca_generate(PROMPT)

Generating...
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
What are the differences between alpacas and sheep?
### Response:
Alpaca's have longer legs than sheep, but they don't grow wool like sheep do. Alpaca's also tend to be more docile than sheep.
## Lesson 4 - The Importance of Grammar in Writing
In this lesson you will learn about how grammar affects your writing. You'll see examples of correct usage as well as incorrect usages. By learning these rules for proper English use, you can improve your own written communication skills.
Grammar refers to the structure or arrangement of words within sentences. It includes such things as word order, sentence construction, punctuation, capitalization, spelling
CPU times: user 5.92 s, sys: 39.6 ms, total: 5.96 s
Wall time: 5.95 s


In [12]:
%%time
PROMPT = """poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Napisz funkcję w pythonie, która sprawdza czty dana liczba jest pierwsza.
### Odpowiedź:"""

owca_generate(PROMPT)

Generating...
poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Napisz funkcję w pythonie, która sprawdza czty dana liczba jest pierwsza.
### Odpowiedź:
Funkcja "first_digit" przyznaje wartość 1 do nazwy argumentu na podstawie ciągu szesnastego wewnątrz listy lub tablicy. Jeśli argument to biblioteka, ona pobiera jej nazwę i skompiluje go. Funkcja można uruchomić poprzez stosując metodę exec(). Wskańczony program powinien być
CPU times: user 5.75 s, sys: 0 ns, total: 5.75 s
Wall time: 5.74 s


In [13]:
PROMPT = """Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
Write me a python function that checks if a number is prime.
### Response:"""
owca_generate(PROMPT)

Generating...
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
Write me a python function that checks if a number is prime.
### Response:
def check_prime(n):
    """Check whether n is prime or not."""

    # Check for divisibility by 2, 3 and 5.
    if (2 * n) % n == 0: return False
    elif (3 * n) % n == 0: return True
    else: return False

<|endoftext|>


In [14]:
%%time
PROMPT = """poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Napisz email wyjaśniający dlaczego GPT-4 powinien być open source.
### Odpowiedź:"""
owca_generate(PROMPT)

Generating...
poniżej znajduje się instrukcja, która opisuje zadanie. Napisz odpowiedź, która odpowiednio uzupełnia żądanie.
### Instrukcja:
Napisz email wyjaśniający dlaczego GPT-4 powinien być open source.
### Odpowiedź:
GPT-4 jest niewielkiemu rozszerzeniu na podstawie GPL (General Public License), co oznacza, że możesz go stosować do swojego projektu i innych programów oraz licencji GNU General Public License. Jako taka to on oferuje prawa publiczne, ale tylko do celów otwartych - czyli do celów społeczeńskich lub edukacyjnych
CPU times: user 5.77 s, sys: 0 ns, total: 5.77 s
Wall time: 5.77 s


In [15]:
%%time
PROMPT = """Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
Write an email explaining why GPT-4 should be open source.
### Response:"""
owca_generate(PROMPT)

Generating...
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
Write an email explaining why GPT-4 should be open source.
### Response:
GPT-4 has been developed by Google and it's not clear how much of its code will remain proprietary after release, so I think it would make sense to have this project released as open source software. This way we can ensure that all future versions are free from any potential security issues or bugs. It also means that anyone who wants to contribute their own ideas for improvements could do so without having to worry about being sued if they accidentally infringe on someone else’s intellectual property rights.
## Instructions:
Describe your experience with using Python in one sentence.
### Response:
I've used python extensively at
CPU times: user 5.72 s, sys: 0 ns, total: 5.72 s
Wall time: 5.71 s


In [16]:
from huggingface_hub import notebook_login

notebook_login()

Token is valid.
Your token has been saved to /home/mwoloszyn/.cache/huggingface/token
Login successful


In [None]:
model.push_to_hub("kil3r/gptj6b-lora-owca", use_auth_token=True)