ChatGPT ist ein vielseitiger mehrsprachiger Chatbot und unterstützt derzeit über 50 Sprachen! Dazu gehören Chinesisch, Japanisch, Spanisch, Französisch, Deutsch, Russisch, Arabisch, Portugiesisch, Italienisch und mehr. Grosse Sprachmodelle (Large Language Models, LLMs) zeichnen sich besonders in Sprachen mit umfangreichen Trainingsdaten aus, die verschiedene sprachliche Strukturen und Idiome umfassen.
Um qualitativ hochwertige Ergebnisse zu erzielen, sind grosse Mengen gut strukturierter Trainingsdaten, wie z. B. Beispielübersetzungen, von entscheidender Bedeutung. Die aus den OPUS-Parallelkorpora abgeleitete Heatmap zeigt die zu erwartende Übersetzungsqualität in verschiedenen Sprachen. Offensichtlich gibt es noch einige Lücken.
Die Beobachtungen zeigen, dass sich der Datenbedarf mit jeder neuen Modellgeneration etwa verzehnfacht. Was muss geschehen, damit sich die Fähigkeiten der Modelle weiter entwickeln können?
Wenn man davon ausgeht, dass kommerzielle Modellbauer nicht mit privaten Daten trainieren werden, müssen künftige Modelle in hohem Masse auf synthetische Daten zurückgreifen, oder es sind andere neue Ideen erforderlich.
Comments