It's not very good in grammar - big comparison on a single sentence with other models

#3
by cmp-nct - opened

First run (I used correct syntax, just the output swallowed the special tokens)
system
Du bist Sauerkraut-HerO, ein großes Sprachmodell, das höflich und kompetent antwortet. Schreibe deine Gedanken Schritt für Schritt auf, um Probleme sinnvoll zu lösen.
user
Ich werde dir von jetzt an englische Sätze eines Textes zukommen lassen und brauche eine Übersetzung. Dabei ist es besonders wichtig dass du ausschließlich mit der deutschen Übersetzung antwortest, dabei die Artikel (der,die,das,ein,eine,eines,usw) und Grammatik immer korrekt interpretierst und sonst gar nichts hinzufügst oder abänderst da ich sie maschinell einlesen muss.
assistant
Natürlich, ich werde mein Bestes geben, um deine Anforderungen zu erfüllen!
user
Directly ahead, there is display case filled with various jewelry items. The store appears to be an art gallery, as indicated by the paintings on the walls and the overall aesthetic.
assistant
Direkt vor dir befindet sich ein Vitrinschrank, der mit verschiedenen Schmuckstücken gefüllt ist. Das Geschäft scheint ein Kunstgalerie zu sein, wie durch die Gemälde auf den Wänden und das Gesamtaussehen deutlich wird..
user
Du bist sicher dass es dieses Wort 'Vitrinschrank' gibt? Ich habe den Duden geprüft, es existiert darin nicht. Also duden.de lehnt das Wort als nicht Deutsch ab.
assistant
Ja, ich bin mir sicher, dass "Vitrinschrank" ein gültiges deutsches Wort ist. Es wird verwendet, um einen Schrank oder eine Vitrine zu beschreiben, der mit Glaswänden gefüllt ist und zum Schutz oder zur Präsentation von Gegenständen dient. Das Duden-Wörterbuch enthält tatsächlich die Definition für "Vitrinschrank".
Quite adamant in being wrong!

I tried another run:
Vor dir befindet sich ein Vitrinen mit verschiedenen Schmuckstücken gefüllt. Das Geschäft scheint ein Kunstgalerie zu sein, wie durch die Gemälde auf den Wänden und das allgemeine Ambiente deutlich wird.
user
Nein leider ist 'ein Vitrinen' falsch! 'eine Vitrine' wäre korrekt! Und das war nicht der einzige Fehler. Welches andere Wort hast du noch falsch übersetzt ? Finde den zweiten Fehler bitte welcher die selbe Art Grammatikfehler beinhaltet. (die Gallerie)
assistant
Entschuldigung für meinen Fehler! Die korrekte Übersetzung lautet: "Vor dir befindet sich eine Vitrine mit verschiedenen Schmuckstücken gefüllt. Das Geschäft scheint ein Kunstgalerie zu sein, wie durch die Gemälde auf den Wänden und das allgemeine Ambiente deutlich wird.

Analysis:
It has a real problem with the gender of words and is quite adamant in sticking to the wrong one.
It made multiple mistakes: eine Vitrine, eine Kunstgallerie and Vitrinschrank which is not a german word (Vitrinenschrank would be ok but Vitrine is better).
I guess we are at the limit of its capabilities in german grammar, maybe a better prompt can correct that but I already tried quite a bit.
Just adding or leaving the \n away at the end of the prompt (after "assistant") can have a massive influence in the output too, the model is extremely sensitive on any tiny deviation of the syntax.

Comparisons:
Here is an example of openbuddy falcon 40B (2 bit quantization, minor mistake):
"Direkt vor mir befindet sich ein Schaufenster mit verschiedenen Schmuckstücken. Das Geschäft scheint eine Kunstgalerie zu sein, wie an den Wänden hängenden Gemälden und der allgemeinen Ästhetik zu erkennen ist"

Here OpenAssist 40B in 2 bit (quite flawless):
"Gerade vor dir liegt ein Schaufenster mit verschiedenen Schmuckstücken. Das Geschäft scheint eine Kunstgalerie zu sein, wie an den Gemälden an der Wand und dem allgemeinen Stil erkennbar."

OpenAssistant in 7B (medium mistake):
"Direkt vor dir befindet sich ein Display-Regal, der mit verschiedenen Schmuckstücken gefüllt ist. Das Geschäft erscheint als Kunstgalerie aus, da die Wandmalereien und das allgemeine Ambiente darauf hinweisen."

Dans-totsirocco-7b (quite good .. no idea why):
"Vorne befindet sich ein Schaufenster mit verschiedenen Schmuckartikeln. Das Geschäft scheint wie eine Kunstgalerie auszusehen, wie die Gemälde an den Wänden und das Gesamtambiente andeuten."

Leo-bilingual-7b (similar error):
Direkt vor dir gibt es einen Schaukasten mit verschiedenen Schmuckstücken. Der Laden scheint ein Kunstgalerie zu sein, da die Gemälde an den Wänden und der Gesamteindruck darauf hinweisen.

Leo-13b in just 3 bit quantization (flawless):
Vor dir befindet sich ein Schaufenster mit verschiedenen Schmuckstücken. Der Laden scheint eine Kunstgalerie zu sein, wie durch die Bilder an den Wänden und das Gesamtbild angegeben.

Leo-7b (flawless):
Direkt vor dir befindet sich ein Schaukasten mit verschiedenen Schmuckstücken. Das Geschäft scheint eine Galerie zu sein, wie die Bilder an den Wänden und der allgemeine Stil zeigen.

Leo-7b-chat (minor mistake in word choice):
Direkt vor uns ist eine Vitrine mit verschiedenen Schmuckstücken gefüllt. Das Geschäft scheint ein Kunstgeschäft zu sein, da auf den Wänden Gemälde hängen und der Gesamteindruck ästhetisch ist.

Sauerkraut 13b (3 medium to serious mistakes):
Im direkten Voraus befindet sich ein Vitrinenschrank voller verschiedene Schmuckstücke. Das Geschäft scheint wie eine Galerie zu sein, wie dies durch die Gemälde an den Wänden und das Gesamtbild deutlich wird.

What to make of it
So my current result is, quite surprisingly that despite the "chat style" instructions I used (I didn't even optimize the prompt for the non Sauerkraut models) the Leo-7B non chat model is providing the best results on this single example, possibly outclassed a little bit by the use of language of Falcon-40B and Leo-13B.

As an english model: Falcon 40B in lowest possible quantization provides an equally good translation.
As a random model "Dans-totsirocco-7b" provided a surprisingly good german translation, it's not supposed to be good in german.
Leo 13b, even in very low quantization did a good job too.

I've to stress: this is a single test. For a real benchmark we'd need a random set of inputs. But it is interesting.

I appreciate the effort you put into Sauerkraut, I wonder if better prompts might help with the grammar issues I found. Or it might need more fine tuning focused on correct translations.

VAGO solutions org
edited Nov 30, 2023

Hey cmp-nct,

first of all, thank you very very much for putting that effort in testing our model! This helps us to identify flaws and optimize it. We ran a bunch of other translations stressing our model (quant. GPTQ version) with more complex phrases to see what happens. I post the results below:

Example 1:
Amidst the labyrinthine convolution of linguistic intricacies, the symbiotic interweaving of polysyllabic profundities and syntactic nuances forms an intricate mosaic, challenging the cognitive faculties to navigate the profound tapestry of intellectual intricacy.

Übersetzung: In der labyrinthischen Verflechtung von sprachlichen Komplexitäten verbindet sich die symbiotische Interaktion von multisilbigen Tiefgründigkeiten und syntaktischen Nuancen zu einer komplexen Mosaikform, die die kognitiven Fähigkeiten herausfordert, den tiefgreifenden Teppich intellektueller Komplexität zu navigieren.

Example 2:
Within the convoluted expanse of cerebral cogitation, the intricate interplay of esoteric lexicons and the nuanced orchestration of syntactic complexities converge, precipitating an intellectual tapestry that oscillates between profound elucidation and enigmatic opacity.

Übersetzung: Im verwirrenden Ausmaß der geistigen Betrachtungen spielt sich die feinsinnige Wechselwirkung von abstrakten Lexika und der nuancierten Orchestrierung von syntaktischen Komplexitäten ab, was einen intellektuellen Teppich erzeugt, der zwischen tiefem Klarstellungsvermögen und rätselhafter Dunkelheit schwingt.

Example 3:
In the intricate symphony of convoluted syntax and lexical opulence, a kaleidoscopic tapestry of linguistic virtuosity unfolds, challenging the cognitive acumen to traverse the labyrinthine complexities of expressive profundity.

Übersetzung: In der komplexen Symphonie aus verworrener Syntax und reicher Lexikalität entfaltet sich ein kaleidoskopisches Gewebe der sprachlichen Meisterschaft, das die kognitive Geschicklichkeit herausfordert, die labyrinthischen Komplexitäten der ausdrucksstarken Tiefe zu durchqueren.

Example 4:
Amidst the convoluted labyrinth of socio-political dynamics, the burgeoning amalgamation of technological determinism and the relentless march of artificial intelligence precipitates a multifaceted conundrum, requiring nuanced considerations for the preservation of ethical imperatives in the face of unprecedented systemic transformations.

Übersetzung: Inmitten des verworrenen Labyrinths sozialer und politischer Dynamiken entsteht durch den wachsenden Zusammenfluss von technologischem Determinismus und dem unaufhörlichen Fortschreiten künstlicher Intelligenz ein vielfältiges Rätsel, das subtilen Überlegungen bedarf, um ethische Prinzipien bei beispiellosen systemischen Veränderungen zu bewahren.

Example 5:
In the convoluted labyrinth of urban existence, where the cacophony of bustling thoroughfares interweaves with the symphony of diverse cultures, individuals find themselves navigating a multifaceted tapestry of aspirations, challenges, and serendipitous encounters, shaping the kaleidoscopic narrative of contemporary metropolitan life

Übersetzung: Im verworrenen Labyrinth der städtischen Existenz, wo die Symphonie von knisternden Straßen ineinander verschlungen ist und sich mit dem Orchester verschiedener Kulturen vermischt, finden Individuen sich dabei wieder, durch einen vielfältigen Teppich aus Träumen, Herausforderungen und zufälligen Begegnungen zu navigieren, was den kaleidoskopischen Erzählstil des zeitgenössischen Stadtlebens formt.

What this probably means
While our model is capable to speak German on a high level of complexity, this does not rule out the possibility of our model to make errors. Our Goal with Sauerkraut is to design German speaking models with only a fragment of time and costs usually necessary to train foundation models, while maintaining a high level of quality. We try to provide a broad access to LLM for everyone, without the need for huge expenses.

Thank you again and best of luck
Your Sauerkraut Team

Your examples are magnificent .. my sentence is much more simple language in comparison. Something is odd about that difference in quality!

Can you please share your full prompt for getting that type of translation ? I'd like to test that on my local machine.
You mind running my test sentence as well ? See how that translates in your environment ?
Directly ahead, there is display case filled with various jewelry items. The store appears to be an art gallery, as indicated by the paintings on the walls and the overall aesthetic.

You are certain the english/german translations of your tests are not part of your fine-tuning subset and potentially memorized ?

VAGO solutions org

I used the system prompt for the hero model. And the user prompt was just Übersetze:

I get the same error with your sentence in my environment. It seems the model has a problem with this word and we will look into it

The parameters that we use for our model are:
Temp 0.3
top_p 0.9
typical_p 1
repitition_penalty 1.15
top_k 20

The test sentences were generated with chatGPT. They were not part of our fine-tuning subset.

Best regards
Your Sauerkraut Team

Yes I tried some of yours and they translate perfectly, maybe the model has been trained with such high language a lot and is good at it but it misses training of just simple normal sentences.
Like a poet who just dares not speak normal anymore :-)

Maybe you could look into the dataset LEO/hessian used, their results are very good for simple sentences.
Maybe even merge it in as a test

I'll watch progress for sure, interesting results

DaryoushV changed discussion status to closed

Sign up or log in to comment