funcionar funciona
Lo que no tengo claro es si son muchos o pocos tokens por segundo, los que da el vLLM. Supongo que es por ser de pocas frases el ejemplo.
con 4*h100 saca 134 t/s
Processed prompts: 100%|βββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββ| 5/5 [00:00<00:00, 5.36it/s, est. speed input: 64.35 toks/s, output: 134.06 toks/s]Prompt: 'Las fiestas de San Isidro Labrador de Yecla son', Generated text: ' unas celebraciones que se celebran en la localidad espaΓ±ola de Yecla, Murcia. Se trata del patrΓ³n de esta ciudad y'Prompt: 'El punt mΓ©s alt del Parc Natural del Montseny Γ©s', Generated text: " el TurΓ³ de lβHome, amb 1.706 metres d'altitud sobre la serra de Collform"Prompt: 'Sentence in English: The typical chance of such a storm is around 10%. Sentence in Catalan:', Generated text: " La probabilitat tΓpica d'una tempesta com aquesta Γ©s al voltant del 10%\nSentence in Spanish:"Prompt: 'Si le monde Γ©tait clair', Generated text: ", il nβy aurait pas dβart. Β» (Oscar Wilde)\nΒ« L'artiste est celui qui sait"Prompt: 'The future of AI is', Generated text: ' bright, and itβs only going to get brighter. With the advent of artificial intelligence (AI), we are seeing'INFO 01-20 20:10:05 multiproc_worker_utils.py:127] Killing local vLLM worker processes
y en 4*L40S un poco menos, pero no mucho menos, 102 tokens/segundo
:Processed prompts: 100%|βββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββ| 5/5 [00:01<00:00, 4.09it/s, est. speed input: 49.09 toks/s, output: 102.28 toks/s]Prompt: 'Las fiestas de San Isidro Labrador de Yecla son', Generated text: ' unas celebraciones que se celebran en la localidad espaΓ±ola de Yecla, Murcia. Se trata del patrΓ³n de esta ciudad y'Prompt: 'El punt mΓ©s alt del Parc Natural del Montseny Γ©s', Generated text: " el TurΓ³ de lβHome, amb 1.706 metres d'altitud sobre la serra de Collform"Prompt: 'Sentence in English: The typical chance of such a storm is around 10%. Sentence in Catalan:', Generated text: " La probabilitat tΓpica d'una tempesta com aquesta Γ©s al voltant del 10%.\nSentence in Spanish:"Prompt: 'Si le monde Γ©tait clair', Generated text: ", il nβy aurait pas dβart. Β» (Oscar Wilde)\nLorsque l'on parle de"Prompt: 'The future of AI is', Generated text: ' bright, and itβs only going to get brighter. With the advent of artificial intelligence (AI), we are seeing'ERROR 01-20 20:19:14 multiproc_worker_utils.py:123] Worker VllmWorkerProcess pid 3545108 died, exit code: -15
un mosqueo de vLLM es que debe emplear otra libreria distinta para conectarse a huggingface, asi que hay que ir probando las recetas de https://stackoverflow.com/questions/71692354/facing-ssl-error-with-huggingface-pretrained-models hasta que vez cual funciona para que chute el https.