Spracherkennung

Ein C#-Programm zur Identifikation der Sprache eines Textes basierend auf Buchstabenkombinationen.

Das Projekt im Detail

Dieses Programm versucht basierend auf der Häufigkeit von Buchstabenkombinationen die Sprache des eingegebenen Textes zu analysieren.

Es gibt einen Training- und einen Testmodus. Im Training-Modus kann man die Häufigkeiten optimieren in dem man einen Text in vorgegebener Sprache eingibt. Im Testmodus hingegeben wird basierend auf den Häufigkeiten die eingegebene Texte analysiert und die wahrscheinlichste Sprache ausgegeben.

Verwendete Technologien

C#
.NET Framework

Kernfunktionen

Textanalyse

Einlesen und Verarbeiten von eingegebenem Text zur Extraktion relevanter Merkmale.

Frequenzanalyse

Zählen der Häufigkeit von Buchstaben(-kombinationen) im analysierten Text.

Sprachvergleich

Vergleich der ermittelten Frequenzen mit vordefinierten Sprachprofilen.

Ergebnisausgabe

Anzeige der wahrscheinlichsten Sprache(n) basierend auf der Analyse.

Herausforderungen & Lernen

Das schwerste war es das das Programm basierend auf den Zahlen entscheidet ob es jetzt Deutsch oder Englisch ist, also die Auswertung. Zudem gab es bis zu letzt Probleme beim Sprache richtig erkennen.

Das Programm sollte jedoch in Zukunft nochmals neu erstellt werden und dann basieren auf einem Machine Learning Modell die Sprache erkennen.

Code ansehen

Der Quellcode für dieses Projekt ist auf GitHub verfügbar.

GitHub Repository

Zurück zur Projektübersicht