Fallstudie

Software zur Handschrifterkennung für sicheres Fahren

Wir entwickeln eine innovative Lösung zur Erkennung des handschriftlichen Textes von Fahrern, die eine bequeme und effiziente Interaktion mit dem Infotainment-System eines Autos ermöglicht.

Hauptmerkmale

  • Erfassen und Erkennen von handgeschriebenem Text auf Touchscreens

    Erfassen und Erkennen von handgeschriebenem Text auf Touchscreens

  • Eingabewörter korrigieren und vorhersagen

    Eingabewörter korrigieren und vorhersagen

  • Sichere Fahrzeugkontrolle während der Fahrt

    Sichere Fahrzeugkontrolle während der Fahrt

Branche:
Automobil, maschinelles Lernen
Markt:
Global
Teamgröße:
10 Softwareentwickler
Projektdauer:
2 Monate
Technologien

.NET Core / Autoencoder / C++ / GAN / MXNet / NumPy / OpenCV / Python 3 / ResNet / TensorFlow

Geschäftsherausforderung

Das Intellias-Team hat ein F&E-Projekt für eine Android-Autotastaturanwendung mit einer Handvoll Premiumfunktionen einschließlich Handschrifterkennung abgeschlossen. Dies war die Antwort unseres Unternehmens auf die Marktnachfrage nach einer Lösung, die einige der häufigsten Herausforderungen und Inklusivitätsbedürfnisse, mit denen Autofahrer tagtäglich konfrontiert sind, erfüllt:

  • Komplexe und ablenkende Schnittstellen gefährden die Sicherheit
  • Laute Fahrzeugumgebungen dämpfen Sprachassistenten
  • Geschwindigkeitsbegrenzungen setzen Einschränkungen bei der Verwendung von Texteingaben über die Tastatur
  • Fahrzeugvibrationen erschweren das Drücken von Tasten und verzerren die Qualität handgeschriebener Inhalte
  • Der Eingabekomfort für Linkshänder und hörgeschädigte Fahrer wird oft übersehen

Unter Berücksichtigung all dieser Punkte, die den Autofahrern Schmerzen bereiten, haben wir eine Checkliste mit harten Anforderungen für unser Produkt erstellt. Intellias führte erfolgreich ein F&E-Projekt durch, das unsere starken technologischen Fähigkeiten und unseren Hintergrund in den Bereichen neuronale Netze, maschinelles Lernen und künstliche Intelligenz demonstriert. Nach einer Reihe von Teamsitzungen und Workshops haben wir bestätigt, dass unsere Lösung eine effiziente Eingabemethode bietet.

Gelieferte Lösung

Unser Team von Android-Entwicklern und Entwickler für maschinelles Lernen, Sicherheits- und Wartungsspezialisten, Konstrukteuren und QA-Entwicklern begann mit Volldampf an unserem F&E-Produkt zu arbeiten.

Die benutzerdefinierte Android-Tastaturanwendung unterstützt mehrere Modi der Benutzereingabe: Standard, Swipe und Handschrifterkennung. Es kann von Fingern geschriebenen Text verstehen und ermöglicht es den Fahrern, effizient mit ihrem Infotainment-System im Auto zu kommunizieren, ohne die Augen von der Straße zu nehmen. Diese Lösung ist äußerst intuitiv und erkennt jede natürliche Handschrift: Groß- und Kleinbuchstaben, Kursiv, Blockschrift und sogar überlagerten Text.

Dank der Integration des Systems mit Benutzerinformationen können die Fahrer – mit nur einem Fingertipp – ein Ziel eingeben, Sehenswürdigkeiten auf der Karte anzeigen, die Einstellungen der Klimaanlage ändern, ihre Lieblingsmusik einschalten und ihre Kontakte anrufen oder eine Nachricht senden. Die Fähigkeit der Anwendung, handschriftliche Inhalte von gescannten Bildern zu erfassen und sogar Wörter auf der Grundlage der Gewohnheiten und des Schreibstils des Benutzers vorzuschlagen und vorherzusagen, bietet dem Fahrer Komfort und erhöht die Sicherheit.

Handschrifterkennung
Unsere Handschrifterkennungssoftware, die mit dem TensorFlow Framework implementiert wurde, transkribiert Bilder von Wörtern in digitalen Text. Wir bauten ein Convolutional Neural Network (CNN) auf und trainierten es auf dem IAM-Offline-Datensatz von Wortbildern. Ein Eingabebild, das durch Vektoren und Zeitdeltas dargestellt wird, wird in das CNN-Modell eingespeist, das relevante Merkmale extrahiert. Die Feature-Map-Ausgabe wird dann weiterverarbeitet, der Algorithmus zeigt Korrelationen mit Wörtern auf und es wird digitaler Text generiert. Dieses Modell erkennt handgeschriebenen Text aus Bildern mit beachtlicher Genauigkeit.

Erkennung mehrerer Zeichen
Zur Implementierung eines Mehrzeichenerkennungsmodells verwendeten wir MXNet und ResNet als neuronale Backbone-Netzwerke sowie spezifische Vor- und Nachbearbeitungsfunktionen zur Behandlung von Fingerbewegungen während der Fahrt. Unser Mehrzeichenerkennungsansatz besteht aus drei Schritten:

  • Erkennung von Textbereichen mittels Merkmalsextraktion unter Verwendung eines Convolutional Neural Networks
  • Erkennen von Zeichen mit Hilfe eines Convolutional Neural Networks
  • Anwenden eines Sprachmodells zur Fehlerkorrektur

Korrektur und Wortvorschläge
Wir entwickelten Wortkorrektur- und Wortvorschlags-/vorhersagemodelle unter Verwendung klassischer Ansätze des maschinellen Lernens.

Durch Berechnung der Levenshtein-Distanz korrigiert ein Wortkorrekturmodell falsch identifizierte Wörter und erhöht die Genauigkeit der Worterkennung.

Zusätzlich implementierten wir einen Ansatz des bestärkendes Lernens, der auf Handschriftproben von Fahrern in Testwagen basiert, um Modelle mit Feedback zur Benutzerinteraktion zu verbessern. Textkorrekturen auf Benutzereingaben werden gesammelt und das Modell wird entsprechend aktualisiert.

Ein Wortvorschlagsmodell sagt das nächste Wort oder die nächste Phrase voraus, um den Eingabeaufwand zu minimieren. Dieses Modell basiert auf Bigram- und n-Gramm-Extraktion sowie auf Statistiken aus historischen Nutzerdaten. Es berücksichtigt den Kontext des Schreibens, Sprach- und Standort-Wörterbücher und sogar die Verhaltens- und Rechtschreibpräferenzen eines Benutzers.

Die Lösung umfasst auch einen Mechanismus für standortbezogene Vorschläge, die den Benutzer bei der Suche nach einer bestimmten Adresse oder einem bestimmten Ort auffordern sollen. Basierend auf dem Standort des Benutzers extrahiert das System die angeforderten Informationen aus einer NDS-Kartendatenbank und schlägt einen Ort oder Straßennamen vor. Mit langjähriger Erfahrung in der Entwicklung von Standort- und Kartierungslösungen verfügen unsere Entwickler über das nötige Fachwissen für die Erstellung und Aktualisierung von Standortdatenbanken und deren Integration in Kfz-Tastaturanwendungen.

Neben der Entwicklung einer technischen Lösung, die die Tastatur selbst zusammen mit einem Backend umfasst, mit dem eine hohe Erkennungsgenauigkeit erreicht werden kann, haben wir uns auch mit anderen Herausforderungen im Zusammenhang mit maschinellem Lernen befasst:

  • Aktualisierung von Modellen

Unsere Lösung umfasst einen Over-the-Air (OTA)-Aktualisierungsdienst, der die einfache Verteilung frisch ausgebildeter Handschrifterkennungsmodell für maschinelles Lernen an Fahrzeuge ermöglicht. Auf diese Weise kann die Erkennungsgenauigkeit bei Autos auf der Straße mit der Zeit verbessert werden.

  • Erfassung ausreichender Trainingsdaten

Zur Erweiterung des Trainingsdatensatzes setzten wir modernste Technologien zur Datenvergrößerung ein, indem wir Mehrzeichenerkennungsdaten mit einer Mischung aus realen und künstlichen Daten angereichert haben. Um dies zu erreichen, hielten wir uns an die Autoencoder- und GAN-Ansätze und verwendeten nur echte Handschriftdaten zur Erzeugung erweiterter Datenproben. Darüber hinaus verwendeten wir klassische Augmentationsansätze einschließlich Datenrotation, Skalierung, Verschiebung und Verzerrungen, um die Fahrzeugbewegung zu berücksichtigen.

Unternehmensergebnisse

Da die Automobilgiganten weltweit die Messlatte für Fahrsicherheit, Komfort und Effizienz immer höher legen, ist es für die Autohersteller wichtig, angesichts des harten Wettbewerbs an der Spitze zu bleiben. Die von uns entwickelte Tastaturanwendung wird es den Autoherstellern ermöglichen, die Kundenzufriedenheitsraten über dem Branchendurchschnitt zu halten und mit der Zeit sogar zu steigern. Unsere äußerst reaktionsschnelle Lösung bietet intuitive Interaktionen und nahezu mühelose Eingaben. Sie ist von Natur aus integrativ und verfügt über eine beeindruckende Genauigkeit bei der Worterkennung. Diese Anwendung ist ein grundlegender Schritt zur Veränderung des Fahrerlebnisses für die Benutzer.

Die Softwareentwickler von Intellias brachten für dieses Projekt eine Menge branchenspezifisches Fachwissen und wichtige Fähigkeiten mit, einschließlich Kompetenz im Automobilbereich, Erfahrung mit Ortungs- und Navigationssystemen, Android-Softwareentwicklungsfähigkeiten und Wissen über maschinelles Lernen.

Nachdem wir nun ein akzeptables und ausreichendes Maß an Genauigkeit für die Erkennung von handgeschriebenem Text erreicht haben, besteht der nächste Schritt darin, unser neuronales Netz zu verbessern, indem wir es an Modellautos testen. Darüber hinaus planen wir weitere Forschungsarbeiten zu klassischen Computervision-Ansätzen – Kantenextraktion und Kantenklassifizierung -, um die Leistung weiter zu steigern und dieses Produkt für den Einsatz in eingebetteten Systemen zu optimieren. Nachdem wir das Qualitätsziel in die Nähe des erwarteten Niveaus gebracht haben, wird unser nächstes Ziel darin bestehen, das Modell so zu trainieren, dass es über 30 Sprachen erkennt und unsere Lösung in ein mehrsprachiges Produkt verwandelt.

Erzählen Sie uns von Ihrem Projekt

Ich stimme der Verarbeitung meiner personenbezogenen Daten zu, die im oben genannten Kontaktformular unter den Bedingungen der Datenschutzerklärung von Intellias angegeben sind. Ich möchte kommerzielle Kommunikations- und Marketinginformationen von Intellias über elektronische Kommunikationsmittel (einschließlich Telefon und E-Mail) erhalten.
* Ich stimme der Verarbeitung meiner personenbezogenen Daten zu, die im oben genannten Kontaktformular unter den Bedingungen der Datenschutzerklärung von Intellias angegeben sind.

Auszeichnungen und Anerkennungen

logo
logo
logo
logo
logo
logo

Danke für Ihre Nachricht.
Wir melden uns in Kürze bei Ihnen.

Danke für Ihre Nachricht.
Wir melden uns in Kürze bei Ihnen.