Spaces:

taskswithcode
/

semantic_similarity

Runtime error

App Files Files Community

taskswithcode commited on Sep 15, 2022

Commit

0242b2e

1 Parent(s): 0c1f2c6

Update app.py

Browse files

Files changed (1) hide show

app.py +107 -21

app.py CHANGED Viewed

@@ -2,18 +2,91 @@ import time
 import streamlit as st
 import string
 from io import StringIO
 import json
-from transformers import BertTokenizer, BertForMaskedLM
-MAX_INPUT = 1000
 model_names = [
             {   "name":"SGPT-125M",
                 "model":"Muennighoff/SGPT-125M-weightedmean-nli-bitfit",
-                "mark":False,
                 "class":"SGPTModel"},
             {   "name":"SGPT-5.8B",
                 "model": "Muennighoff/SGPT-5.8B-weightedmean-msmarco-specb-bitfit" ,
                 "fork_url":"https://github.com/taskswithcode/sgpt",
@@ -27,28 +100,39 @@ model_names = [
                 "mark":True,
                 "class":"SGPTModel"},
-            {   "name":"SGPT-1.3B",
-                "model": "Muennighoff/SGPT-1.3B-weightedmean-msmarco-specb-bitfit",
-                "mark":False,
-                "class":"SGPTModel"},
-            {   "name":"sentence-transformers/all-MiniLM-L6-v2",
-                "model":"sentence-transformers/all-MiniLM-L6-v2",
-                "fork_url":"https://github.com/taskswithcode/sentence_similarity_hf_model",
-                "orig_author_url":"https://github.com/UKPLab",
-                "orig_author":"Ubiquitous Knowledge Processing Lab",
                 "sota_info": {
-                                 "task":"Nearly 4 million downloads from huggingface",
-                                 "sota_link":"https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2"
                             },
-                "paper_url":"https://arxiv.org/abs/1908.10084",
                 "mark":True,
-                "class":"HFModel"},
             ]
 example_file_names = {
 "Machine learning terms (30+ phrases)": "tests/small_test.txt",
 "Customer feedback mixed with noise (50+ sentences)":"tests/larger_test.txt"
@@ -61,15 +145,17 @@ def construct_model_info_for_display():
     for node in model_names:
         options_arr .append(node["name"])
         if (node["mark"] == True):
-            markdown_str += f"<div style=\"font-size:16px; color: #5f5f5f; text-align: left\">&nbsp;•&nbsp;Model:&nbsp;<a href=\'{node['paper_url']}\' target='_blank'>{node['name']}</a><br/>&nbsp;&nbsp;&nbsp;&nbsp;Code released by:&nbsp;<a href=\'{node['orig_author_url']}\' target='_blank'>{node['orig_author']}</a><br/>&nbsp;&nbsp;&nbsp;&nbsp;Model info:&nbsp;<a href=\'{node['sota_info']['sota_link']}\' target='_blank'>{node['sota_info']['task']}</a><br/>&nbsp;&nbsp;&nbsp;&nbsp;Forked <a href=\'{node['fork_url']}\' target='_blank'>code</a><br/><br/></div>"
     markdown_str += "<div style=\"font-size:12px; color: #9f9f9f; text-align: left\"><b>Note:</b><br/>•&nbsp;Uploaded files are loaded into non-persistent memory for the duration of the computation. They are not saved</div>"
     limit = "{:,}".format(MAX_INPUT)
     markdown_str += f"<div style=\"font-size:12px; color: #9f9f9f; text-align: left\">•&nbsp;User uploaded file has a maximum limit of {limit} sentences.</div>"
     return options_arr,markdown_str
-st.set_page_config(page_title='TWC - Compare state-of-the-art models for Sentence Similarity task', page_icon="logo.jpg", layout='centered', initial_sidebar_state='auto',
             menu_items={
              'About': 'This app was created by taskswithcode. http://taskswithcode.com'
               })
 col,pad = st.columns([85,15])
@@ -153,7 +239,7 @@ def init_session():
 def main():
   init_session()
-  st.markdown("<h4 style='text-align: center;'>Compare state-of-the-art models for Sentence Similarity task</h4>", unsafe_allow_html=True)
   try:

 import streamlit as st
 import string
 from io import StringIO
+import pdb
 import json
+from twc_embeddings import HFModel,SimCSEModel,SGPTModel
+MAX_INPUT = 10000
+from transformers import BertTokenizer, BertForMaskedLM
 model_names = [
+            {   "name":"sentence-transformers/all-MiniLM-L6-v2",
+                "model":"sentence-transformers/all-MiniLM-L6-v2",
+                "fork_url":"https://github.com/taskswithcode/sentence_similarity_hf_model",
+                "orig_author_url":"https://github.com/UKPLab",
+                "orig_author":"Ubiquitous Knowledge Processing Lab",
+                "sota_info": {
+                                 "task":"Over 3.8  million downloads from huggingface",
+                                 "sota_link":"https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2"
+                            },
+                "paper_url":"https://arxiv.org/abs/1908.10084",
+                "mark":True,
+                "class":"HFModel"},
+            {   "name":"sentence-transformers/paraphrase-MiniLM-L6-v2",
+                "model":"sentence-transformers/paraphrase-MiniLM-L6-v2",
+                "fork_url":"https://github.com/taskswithcode/sentence_similarity_hf_model",
+                "orig_author_url":"https://github.com/UKPLab",
+                "orig_author":"Ubiquitous Knowledge Processing Lab",
+                "sota_info": {
+                                 "task":"Over 2.4 million downloads from huggingface",
+                                 "sota_link":"https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2"
+                            },
+                "paper_url":"https://arxiv.org/abs/1908.10084",
+                "mark":True,
+                "class":"HFModel"},
+            {   "name":"sentence-transformers/bert-base-nli-mean-tokens",
+                "model":"sentence-transformers/bert-base-nli-mean-tokens",
+                "fork_url":"https://github.com/taskswithcode/sentence_similarity_hf_model",
+                "orig_author_url":"https://github.com/UKPLab",
+                "orig_author":"Ubiquitous Knowledge Processing Lab",
+                "sota_info": {
+                                 "task":"Over 700,000 downloads from huggingface",
+                                 "sota_link":"https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2"
+                            },
+                "paper_url":"https://arxiv.org/abs/1908.10084",
+                "mark":True,
+                "class":"HFModel"},
+            {   "name":"sentence-transformers/all-mpnet-base-v2",
+                "model":"sentence-transformers/all-mpnet-base-v2",
+                "fork_url":"https://github.com/taskswithcode/sentence_similarity_hf_model",
+                "orig_author_url":"https://github.com/UKPLab",
+                "orig_author":"Ubiquitous Knowledge Processing Lab",
+                "sota_info": {
+                                 "task":"Over 500,000 downloads from huggingface",
+                                 "sota_link":"https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2"
+                            },
+                "paper_url":"https://arxiv.org/abs/1908.10084",
+                "mark":True,
+                "class":"HFModel"},
             {   "name":"SGPT-125M",
                 "model":"Muennighoff/SGPT-125M-weightedmean-nli-bitfit",
+                "fork_url":"https://github.com/taskswithcode/sgpt",
+                "orig_author_url":"https://github.com/Muennighoff",
+                "orig_author":"Niklas Muennighoff",
+                "sota_info": {
+                                 "task":"#1 in multiple information retrieval & search tasks(smaller variant)",
+                                 "sota_link":"https://paperswithcode.com/paper/sgpt-gpt-sentence-embeddings-for-semantic",
+                            },
+                "paper_url":"https://arxiv.org/abs/2202.08904v5",
+                "mark":True,
+                "class":"SGPTModel"},
+            {   "name":"SGPT-1.3B",
+                "model": "Muennighoff/SGPT-1.3B-weightedmean-msmarco-specb-bitfit",
+                "fork_url":"https://github.com/taskswithcode/sgpt",
+                "orig_author_url":"https://github.com/Muennighoff",
+                "orig_author":"Niklas Muennighoff",
+                "sota_info": {
+                                 "task":"#1 in multiple information retrieval & search tasks(smaller variant)",
+                                 "sota_link":"https://paperswithcode.com/paper/sgpt-gpt-sentence-embeddings-for-semantic",
+                            },
+                "paper_url":"https://arxiv.org/abs/2202.08904v5",
+                "mark":True,
                 "class":"SGPTModel"},
             {   "name":"SGPT-5.8B",
                 "model": "Muennighoff/SGPT-5.8B-weightedmean-msmarco-specb-bitfit" ,
                 "fork_url":"https://github.com/taskswithcode/sgpt",
                 "mark":True,
                 "class":"SGPTModel"},
+            {   "name":"SIMCSE-large" ,
+                "model":"princeton-nlp/sup-simcse-roberta-large",
+                "fork_url":"https://github.com/taskswithcode/SimCSE",
+                "orig_author_url":"https://github.com/princeton-nlp",
+                "orig_author":"Princeton Natural Language Processing",
+                "sota_info": {
+                                 "task":"Within top 10 in multiple semantic textual similarity tasks",
+                                 "sota_link":"https://paperswithcode.com/paper/simcse-simple-contrastive-learning-of"
+                            },
+                "paper_url":"https://arxiv.org/abs/2104.08821v4",
+                "mark":True,
+                "class":"SimCSEModel","sota_link":"https://paperswithcode.com/sota/semantic-textual-similarity-on-sick"},
+            {  "name":"SIMCSE-base" ,
+                "model":"princeton-nlp/sup-simcse-roberta-base",
+                "fork_url":"https://github.com/taskswithcode/SimCSE",
+                "orig_author_url":"https://github.com/princeton-nlp",
+                "orig_author":"Princeton Natural Language Processing",
                 "sota_info": {
+                                 "task":"Within top 10 in multiple semantic textual similarity tasks(smaller variant)",
+                                 "sota_link":"https://paperswithcode.com/paper/simcse-simple-contrastive-learning-of"
                             },
+                "paper_url":"https://arxiv.org/abs/2104.08821v4",
                 "mark":True,
+                "class":"SimCSEModel","sota_link":"https://paperswithcode.com/sota/semantic-textual-similarity-on-sick"},
             ]
 example_file_names = {
 "Machine learning terms (30+ phrases)": "tests/small_test.txt",
 "Customer feedback mixed with noise (50+ sentences)":"tests/larger_test.txt"
     for node in model_names:
         options_arr .append(node["name"])
         if (node["mark"] == True):
+            markdown_str += f"<div style=\"font-size:16px; color: #5f5f5f; text-align: left\">&nbsp;•&nbsp;Model:&nbsp;<a href=\'{node['paper_url']}\' target='_blank'>{node['name']}</a><br/>&nbsp;&nbsp;&nbsp;&nbsp;Code released by:&nbsp;<a href=\'{node['orig_author_url']}\' target='_blank'>{node['orig_author']}</a><br/>&nbsp;&nbsp;&nbsp;&nbsp;Model info:&nbsp;<a href=\'{node['sota_info']['sota_link']}\' target='_blank'>{node['sota_info']['task']}</a><br/><br/></div>"
     markdown_str += "<div style=\"font-size:12px; color: #9f9f9f; text-align: left\"><b>Note:</b><br/>•&nbsp;Uploaded files are loaded into non-persistent memory for the duration of the computation. They are not saved</div>"
     limit = "{:,}".format(MAX_INPUT)
     markdown_str += f"<div style=\"font-size:12px; color: #9f9f9f; text-align: left\">•&nbsp;User uploaded file has a maximum limit of {limit} sentences.</div>"
     return options_arr,markdown_str
+st.set_page_config(page_title='TWC - Compare popular/state-of-the-art models for Sentence Similarity task', page_icon="logo.jpg", layout='centered', initial_sidebar_state='auto',
             menu_items={
+             'Get help':  "mailto:taskswithcode@gmail.com",
+             'Report a Bug': "mailto:taskswithcode@gmail.com",
              'About': 'This app was created by taskswithcode. http://taskswithcode.com'
               })
 col,pad = st.columns([85,15])
 def main():
   init_session()
+  st.markdown("<h5 style='text-align: center;'>Compare popular/state-of-the-art models for Sentence Similarity task</h5>", unsafe_allow_html=True)
   try: