Spaces:

AlterM
/

Test2

Sleeping

App Files Files Community

AlterM

ierhon commited on Jun 6, 2023

Commit

2f500b5

•

0 Parent(s):

Duplicate from RisticksAI/ProfNet4

Browse files

Co-authored-by: - - - <ierhon@users.noreply.huggingface.co>

Files changed (9) hide show

.gitattributes +35 -0
README.md +13 -0
app.py +8 -0
dataset.txt +41 -0
embed_set.py +15 -0
embedding.py +8 -0
net.py +55 -0
requirements.txt +4 -0
start.py +31 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+discord-russian2.txt filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: ProfNet4
+emoji: 🚀
+colorFrom: yellow
+colorTo: red
+sdk: gradio
+sdk_version: 3.27.0
+app_file: app.py
+pinned: false
+duplicated_from: RisticksAI/ProfNet4
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,8 @@

+import gradio as gr
+import start
+def respond(message):
+    return start.generate(message)
+iface = gr.Interface(fn=respond, inputs="text", outputs="text")
+iface.launch()

dataset.txt ADDED Viewed

	@@ -0,0 +1,41 @@

+привет
+Здравствуйте
+Здравствуйте.
+привет
+Здравствуйте
+Здравствуйте.
+<null>
+Кто вы?
+Это тест Profnet4.
+<null>
+А зачем это?
+Чтобы проверить работу этой идеи.
+<null>
+Какие недостатки идеи?
+Долгое обучение и сама работа.
+<null>
+Что требуется улучшить в ProfNet4?
+Скорее всего увеличить датасет и скорость работы, но скорость увеличится также если и использовать мощную видеокарту.
+<null>
+А где можно использовать ProfNet4?
+Меня можно использовать как support chatbot на сайте, и в других случаях как ассистент, требуется просто изменить тренировочные данные.
+<null>
+А что ты можешь?
+Отвечать на текстовое сообщение.
+<null>
+А ты можешь видеть или помнишь что я раньше писал?
+Я вижу 3 сообщения назад.
+<null>
+Как тебя обучать?
+На данный момент требуется изменить содержание файла dataset.txt
+<null>
+Как дела?
+У меня всё хорошо, у вас?
+Тоже всё отлично.
+Можете мне задать вопрос, я готов ответить.
+<null>
+Почему ты так долго отвечаешь?
+Во мне используется массивная нейросеть требующая долгое время для работы, при запуске на видеокарте всё будет работать гораздо быстрее.
+<null>
+Какие языки ты знаешь?
+На данный момент я знаю Русский и Английский, но могу отвечать только на Русском языке.

embed_set.py ADDED Viewed

	@@ -0,0 +1,15 @@

+import pickle
+import embedding
+from tqdm import tqdm
+class SetLine:
+    def __init__(self, name):
+        self.name = name
+        self.inp = embedding.getvec(name)
+net = []
+with open("dataset.txt", "r") as f: lines = f.readlines()
+for ind, i in tqdm(enumerate(lines[1:])):
+    if (i[:6] != "<null>"): net.append(SetLine(i))
+with open("set.pckl", "wb") as f: pickle.dump(net, f)

embedding.py ADDED Viewed

	@@ -0,0 +1,8 @@

+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer('inkoziev/sbert_pq')
+def getvec(text: str):
+    sentences = [text,]
+    embeddings = model.encode(sentences)
+    return embeddings[0]

net.py ADDED Viewed

	@@ -0,0 +1,55 @@

+import pickle
+import numpy as np
+import tensorflow as tf
+from tensorflow.keras.models import Sequential
+from tensorflow.keras.layers import Dense, Dropout, Flatten, Input
+from tensorflow.keras.optimizers import Adam
+from tensorflow.keras.losses import MeanSquaredError
+from tensorflow.keras.preprocessing.sequence import pad_sequences
+class SetLine:
+    def __init__(self, name, inp):
+        self.name = name
+        self.inp = embedding.getvec(name)
+with open("set.pckl", "rb") as f:
+    dset = pickle.load(f)
+sequences = [[x.inp for x in dset],]
+vec_size = sequences[0][0].__len__()
+window_size = 3
+# Generate sliding windows and corresponding target vectors
+sliding_windows = []
+target_vectors = []
+for seq in sequences:
+    for i in range(-window_size, len(seq) - window_size-1):
+        window = seq[i:i + window_size]
+        target = seq[i + window_size]
+        sliding_windows.append(np.array(window))
+        target_vectors.append(target)
+# Pad sequences to a fixed length
+max_seq_length = max(len(window) for window in sliding_windows)
+padded_windows = pad_sequences(sliding_windows, maxlen=max_seq_length, padding='pre')
+model = Sequential()
+model.add(Input(shape=(max_seq_length, vec_size)))
+model.add(Flatten())
+model.add(Dense(512, activation='tanh'))
+model.add(Dense(256, activation='tanh'))
+model.add(Dense(512, activation='relu'))
+model.add(Dense(300, activation='tanh'))
+model.add(Dense(vec_size, activation='linear'))
+# Compile the model
+model.compile(optimizer=Adam(learning_rate=0.0001), loss=MeanSquaredError(), metrics=['accuracy'])
+# Train the model
+X = np.array(padded_windows)
+y = np.array(target_vectors)
+model.fit(X, y, epochs=128, batch_size=4)
+model.save("net.h5")

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+sentence_transformers
+numpy
+tensorflow
+keras

start.py ADDED Viewed

	@@ -0,0 +1,31 @@

+import numpy as np
+import pickle
+import embedding
+import random
+import embed_set
+import net
+from tqdm import tqdm
+from tensorflow.keras.models import load_model
+top_p = 1
+class SetLine:
+    def __init__(self, name, inp):
+        self.name = name
+        self.inp = embedding.getvec(name)
+with open("set.pckl", "rb") as f: dset = pickle.load(f)
+model = load_model("net.h5")
+def top_closest_vectors(input_vector, top_p=1):
+    distances = [(np.linalg.norm((neuron.inp - input_vector)), ind) for ind, neuron in enumerate(dset)]
+    closest_indices = sorted(distances, reverse=False, key=lambda x:x[0])[:top_p]
+    return closest_indices
+def generate(text):
+    vecs = 3*[np.zeros(net.vec_size),] + [embedding.getvec(x) for x in text.split("\n")]
+    vecs = vecs[-3:]
+    vecs = np.array([vecs,])
+    rvec = model.predict(vecs)[0]
+    return dset[random.choice(top_closest_vectors(rvec))[1]].name