FinancialSupport commited on
Commit
2e10707
1 Parent(s): 356a990

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +51 -21
app.py CHANGED
@@ -4,38 +4,68 @@ import pandas as pd
4
  csv_filename = 'leaderboard.csv'
5
  url = 'https://docs.google.com/spreadsheets/d/1Oh3nrbdWjKuh9twJsc9yJLppiJeD_BZyKgCTOxRkALM/export?format=csv'
6
 
7
- def get_data():
8
- return pd.read_csv(url)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9
 
10
  with gr.Blocks() as demo:
11
- with gr.Tab('Classifica'):
12
 
13
- gr.Markdown("# Classifica degli LLM italiani")
14
- form_link = "https://forms.gle/Gc9Dfu52xSBhQPpAA"
15
- gr.Markdown(f"Nella tabella la classifica dei risultati ottenuti confrontando alcuni modelli LLM italiani utilizzando questa [repo github](https://github.com/C080/open-llm-ita-leaderboard) da me mantenuta. I modelli sono testati su SQuAD-it e ordinati per F1 Score e EM (Exact Match). Si ringrazia il @galatolo per il codice dell'eval. Se volete aggiungere il vostro modello compilate il form {form_link}.")
16
- gr.Dataframe(pd.read_csv(csv_filename, sep=';'))
17
 
18
- gr.Markdown('''# Community discord
19
- Se volete contribuire o semplicemente partecipare unitevi al nostro [discord](https://discord.com/invite/nfgaTG3H) per rimanere aggiornati su LLM in lingua italiana.
 
 
 
 
 
 
 
20
 
21
- # Sponsor
22
- Le evaluation sono state sponsorizzate da un provider cloud italano [seeweb.it](https://www.seeweb.it/) molto attento al mondo dell'AI e con un ottima offerta di GPUs ed esperienza di sviluppo.
23
 
 
24
 
25
- # NON E' una classifica ma una evaluation
 
 
 
 
 
26
 
27
- In questa tabella una serie di evaluations create con [lm_evaluation_harness](https://github.com/EleutherAI/lm-evaluation-harness) e sponsorizzate da un cloud provider italiano [seeweb](https://www.seeweb.it/) su tasks appositi per l'italiano. Abbiamo anche contribuito con questa [PR](https://github.com/EleutherAI/lm-evaluation-harness/pull/1358) in attesa di essere mergiata aggiungendo il task per multilingual mmul e contiamo di migliorare gli eval sull'italiano con altre PR.
28
 
29
- Dopo aver installato [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) per generare i risultati i comandi:
 
 
30
 
31
- lm_eval --model hf --model_args pretrained=HUGGINGFACE_MODEL_ID --tasks xcopa_it,hellaswag_it,lambada_openai_mt_it,belebele_ita_Latn,m_mmlu_it --device cuda:0 --batch_size 8
 
 
 
 
 
 
 
 
 
32
 
33
- oppure per few shot 3
34
-
35
- lm_eval --model hf --model_args pretrained=HUGGINGFACE_MODEL_ID --tasks m_mmlu_it --num_fewshot 3 --device cuda:0 --batch_size 8
36
  ''')
37
- discord_link = 'https://discord.com/invite/nfgaTG3H'
38
- gr.Markdown(f"@giux78 sta lavorando sull'integrazione di nuovi dataset di benchmark italiani. Se volete contribuire anche voi unitevi al discord della community {discord_link}")
39
- gr.DataFrame(get_data, every=3600)
40
 
41
  demo.launch()
 
4
  csv_filename = 'leaderboard.csv'
5
  url = 'https://docs.google.com/spreadsheets/d/1Oh3nrbdWjKuh9twJsc9yJLppiJeD_BZyKgCTOxRkALM/export?format=csv'
6
 
7
+ def get_data_classifica():
8
+ dataset = pd.read_csv(url)
9
+ if 'model ' in dataset.columns:
10
+ dataset.rename(columns={'model ': 'model'}, inplace=True)
11
+ df_classifica = dataset[['model', 'helloswag_it acc norm', 'arc_it acc norm', 'm_mmul acc shot 5']]
12
+ df_classifica['media'] = df_classifica[['helloswag_it acc norm', 'arc_it acc norm', 'm_mmul acc shot 5']].mean(axis=1)
13
+ df_classifica['media'] = df_classifica['media'].round(2)
14
+ df_classifica = df_classifica.sort_values(by='media', ascending=False)
15
+ df_classifica = df_classifica[['model', 'media', 'helloswag_it acc norm', 'arc_it acc norm', 'm_mmul acc shot 5']]
16
+
17
+ return df_classifica
18
+
19
+ def get_data_totale():
20
+ dataset = pd.read_csv(url)
21
+ if 'model ' in dataset.columns:
22
+ dataset.rename(columns={'model ': 'model'}, inplace=True)
23
+ return dataset
24
 
25
  with gr.Blocks() as demo:
 
26
 
27
+ with gr.Tab('Classifica Generale'):
 
 
 
28
 
29
+ gr.Markdown('''# Classifica generale degli LLM italiani''')
30
+ discord_link = 'https://discord.com/invite/nfgaTG3H'
31
+ gr.Markdown('''
32
+ I modelli sottostanti sono stati testati con [lm_evaluation_harness](https://github.com/EleutherAI/lm-evaluation-harness) su task specifici per l'italiano introdotti con questa [PR](https://github.com/EleutherAI/lm-evaluation-harness/pull/1358).
33
+ L'intero progetto, i modelli e i dataset sono rigorosamente open source e tutti i risultati sono riproducibili lanciando dei comandi come questo:
34
+ * lm_eval --model hf --model_args pretrained=HUGGINGFACE_MODEL_ID --tasks xcopa_it,hellaswag_it,lambada_openai_mt_it,belebele_ita_Latn,m_mmlu_it --device cuda:0 --batch_size 8
35
+ ''')
36
+ gr.DataFrame(get_data_classifica, every=3600)
37
+ gr.Markdown(f"Contributore principale: @giux78")
38
 
 
 
39
 
40
+ with gr.Tab('Classifica RAG'):
41
 
42
+ gr.Markdown('''# Classifica RAG degli LLM italiani''')
43
+ gr.Markdown(f'''In questa sezione i modelli sono valutati su dei task di Q&A e ordinati per F1 Score e EM (Exact Match). La repo di riferimento è [questa](https://github.com/C080/open-llm-ita-leaderboard).
44
+ I modelli in cima alla classifica sono ritenuti preferibili per i task di Retrieval Augmented Generation.''')
45
+ gr.Dataframe(pd.read_csv(csv_filename, sep=';'))
46
+ gr.Markdown(f"Si ringrazia il @galatolo per il codice dell'eval.")
47
+
48
 
49
+ with gr.Tab('Eval aggiuntive'):
50
 
51
+ gr.Markdown('''# Altre evaluation''')
52
+ gr.Markdown('''Qui ci sono altri test di altri modelli, che non sono ancora stati integrati nella classifica generale.''')
53
+ gr.DataFrame(get_data_totale, every=3600)
54
 
55
+ with gr.Tab('Informazioni'):
56
+
57
+ form_link = "https://forms.gle/Gc9Dfu52xSBhQPpAA"
58
+ gr.Markdown('''# Community discord
59
+ Se vuoi contribuire al progetto o semplicemente unirti alla community di LLM italiani unisciti al nostro [discord!](https://discord.com/invite/nfgaTG3H)
60
+ # Aggiungi il tuo modello
61
+ Se hai sviluppato un tuo modello che vuoi far valutare, compila il form [qui]({form_link}) è tutto gratuito!
62
+ ''')
63
+
64
+ with gr.Tab('Sponsor'):
65
 
66
+ gr.Markdown('''
67
+ # Sponsor
68
+ Le evaluation della classifica generale sono state gentilmente offerte da un provider cloud italano [seeweb.it](https://www.seeweb.it/) specializzato in servizi di GPU cloud.
69
  ''')
 
 
 
70
 
71
  demo.launch()