Trend-NEWS

Natural Language Processing

Im Alltag kommt man an NLP (Natural Language Processing) basierter Software nicht mehr vorbei – so hilft Google Translate bei Übersetzungen, die Sprachassistenten Alexa (Amazon), Siri (Apple) oder Google Assistant beantworten Fragen oder steuern Haushaltsgeräte und beim telefonischen Kundenservice spricht man mit einem Chatbot. Was verbirgt sich hinter dieser erfolgreichen Technologie? NLP ist eine Unterkategorie der künstlichen Intelligenz mit der Fähigkeit natürliche Sprache maschinell zu erkennen und zu verarbeiten, um damit eine direkte und natürliche Kommunikation zwischen Mensch und Maschine zu ermöglichen.

Dieser komplexe Prozess der Sprachverarbeitung läuft in verschiedenen aufeinander aufbauenden Schritten ab. Die wichtigsten sind dabei die folgenden:

Zunächst einmal wird der Text in einzelne Sätze unterteilt. Im Deutschen ist das durch die Verwendung von Satzzeichen nicht besonders schwierig. Im nächsten Schritt wird der Satz in einzelne Wörter unterteilt (tokenization). Auch hier macht es einem die deutsche Sprache einfach, da die einzelnen Wörter durch Leerzeichen voneinander getrennt sind. In der japanischen oder chinesischen Sprache ist das jedoch nicht der Fall, so dass dieser Schritt hier anspruchsvoller ist.

Außerdem wird den Wörtern ihre Grundform zugeordnet (Lemmatisierung). Also, „esse“, „aß“ und „gegessen“ werden ihrer Grundform „essen“ zugeordnet. Auch müssen die Eigennamen (z. B. John oder Berlin) im Text erkannt werden.

Komplexer ist die Phase der Erfassung und Kennzeichnung der Wortarten (part-of-speech (POS) Tagging). Hier können zwei Verfahren angewendet werden, die man als überwachtes und unüberwachtes maschinelles Lernen bezeichnet. Einfache Wordarten (tags) sind zum Beispiel Nomen oder Adjektiv. Neuere Listen für die maschinelle Erkennung von Wortarten enthalten jedoch über 100 verschiedene tags. Beim überwachten maschinellen Lernen (wie zum Beispiel dem Hidden Markov Modell) lernt der Computer mit Übungstexten zum einen die Wahrscheinlichkeit, dass ein Wort einer bestimmten Wortart zugeordnet werden kann (z. B. Essen kann ein Verb oder Nomen sein) und zum anderen die Wahrscheinlichkeit, dass nach einer definierten Wortart eine andere bestimmte Wortart folgt (z. B. dass nach einem Artikel ein Nomen oder ein Adjektiv steht). Beim unüberwachten maschinellen Lernen gibt man keine Wortarten vor, sondern lässt den Computer selbst eine Liste von Wortarten erarbeiten. Er muss also mit Hilfe von Trainingstexten selber erkennen, dass Wörter wie „der“ oder „ein“ in einem anderen Zusammenhang stehen, also das Wort „essen“.

Eine ebenfalls komplexe Aufgabe ist die Identifizierung der Beziehung oder Abhängigkeit der Wörter im Text untereinander, also z. B. welches Adjektiv zu dem Nomen gehört (dependency parsing). Eine andere Analyseform (consitutency parsing) unterteilt den Satz in unterschiedliche Phrasen. In dem Satz „Der blaue Elefant läuft.“, ist zum Beispiel „der blaue Elefant“ eine Nominalphrase und „läuft“ eine Verbalphrase.

Insgesamt hat sich NLP und die zugrunde liegenden Modelle trotz der Komplexität und Mehrdeutigkeit der natürlichen Sprache in den letzten Jahren maßgeblich verbessert. Es hat sich nicht nur das „Verstehen“ an sich verbessert, auch wird NLP in immer mehr Bereichen eingesetzt. So wird NLP auch zur Analyse von Stimmungen verwendet (sentiment analysis). Das wird zum Beispiel von Firmen genutzt um Produkt- oder Markenbewertungen zu analysieren. Ein weiteres Anwendungsfeld der sentiment analysis ist die Analyse von Social Media-Kanälen. Hier wird es genutzt um politische Bewegungen zu analysieren oder es kann Börsenmakler*innen helfen, die Stimmung der Anleger zu ermitteln.

Auch in anderen Berufsfeldern wird NLP eingesetzt. So hilft es im Gesundheitsbereich bei der Analyse von unstrukturierten Patientendaten oder in der Personalabteilung bei der Suche nach passenden Kandidat*innen oder auch in der Wissenschaft durch das Zusammenfassen von langen Texten.

Dieser Trend-NEWSletter-Artikel wurde im Juni 2021 veröffentlicht.

Corporate Technology Foresight (CTF) betreibt im wesentlichen Technologievorausschau und Innovationsforschung. CTF betreibt selbst keine praxisorientierte Forschung auf diesem Gebiet. 

Europäische Sicherheit & Technik

Basiert auf einem ESUT Artikel. Hier können Sie sich weitere Artikel dieser Rubrik ansehen.

Anmeldung Newsletter Corporate Technology Foresight

Ab 2017 versenden wir regelmäßig weitere Texte zu neuen Technologien per Newsletter. Zur Anmeldung für den Newsletter füllen Sie bitte das folgende Formular aus und klicken Sie auf "Anmelden".