Acht lesenswerte Bücher über maschinelle Verarbeitung natürlicher Sprache für Neueinsteiger und Experten

Machine Learning und künstliche Intelligenz (KI) nehmen immer mehr Fahrt auf, und auch die maschinelle Verarbeitung natürlicher Sprache (NLP) spielt eine zunehmend wichtigere Rolle als Kommunikationsschnittstelle zwischen Mensch und Computer. Mit der steigenden Aufmerksamkeit für NLP nimmt auch die Zahl der Online-Quellen zum Thema zu. Doch wer tiefer in diese komplexe, facettenreiche Materie einsteigen möchte, kommt um ein gutes Buch nicht herum. Wir haben Lektüreempfehlungen zusammengestellt, die die allgemeine Datenkompetenz stärken und darüber hinaus wesentliches NLP-Basiswissen, etwa zu wichtigen Theorien und realen Anwendungen, vermitteln.

Mit den folgenden acht Büchern können Sie Ihr Wissen erweitern und sich mit den Chancen vertraut machen, die NLP Einzelpersonen, Unternehmen und der Gesellschaft als Ganzes bietet. Bei unserer Auswahl haben wir alle Analytics-Kompetenzniveaus berücksichtigt.

1. „Speech and Language Processing

Verfasser: Daniel Jurafsky und James H. Martin
Website: Eigene Website | Amazon

Eines der empfehlenswertesten und meistzitierten Bücher zum Thema NLP ist „Speech and Language Processing“ von den Professoren Dan Jurafsky (Stanford University) und James Martin (University of Colorado). Es bietet eine tiefschürfende Auseinandersetzung mit der Verarbeitung natürlicher Sprache. Zielgruppe sind vor allem Bachelor- und Master-Studenten in den Bereichen NLP und Computerlinguistik. Allerdings sei die Lektüre auch all jenen ans Herz gelegt, die in die Theorie und Praxis der Sprachverarbeitung eintauchen und dabei ihre Analytics-Fähigkeiten erweitern möchten.

Aktuell liegt das Buch in der zweiten Auflage vor, die dritte ist bereits in Arbeit und wird voraussichtlich im Laufe dieses Jahres folgen. Einen Entwurf können Sie heute schon auf der Website der Stanford University einsehen.

2. „Natural Language Understanding

Verfasser: James Allen
Website: Website des Verfassers | Amazon

Dieses Handbuch führt in das Thema NLP ein und gilt mittlerweile als Klassiker. Es erschien bereits 1994, ist aber auch für heutige Debatten und Analytics-Aktivitäten noch hochrelevant. Wissenschaftler und Lehrkräfte, die sich mit der Materie auseinandersetzen, wissen es seit eh und je sehr zu schätzen. „Natural Language Understanding“ erklärt die wichtigsten Techniken und Begriffe im Zusammenhang mit der Schaffung von NLP-Systemen. Darüber hinaus beleuchtet es die jeweiligen theoretischen Hintergründe, ohne den Leser mit Fachjargon zu überfordern.

3. „Handbook of Natural Language Processing

Verfasser: Nitin Indurkhya und Fred J. Damerau
Website: Amazon

Dieses moderne, umfangreiche NLP-Handbuch behandelt Werkzeuge und Techniken zur Entwicklung und praktischen Umsetzung der maschinellen Verarbeitung natürlicher Sprache in Computersystemen. Es besteht aus drei Teilen: klassische Techniken (einschließlich symbolischer und empirischer Ansätze), statistische NLP-Ansätze sowie praktische Anwendungen – von der Datenvisualisierung über den Aufbau von Ontologien bis zum Text Mining in der Biomedizin.

Die zweite Auflage beschäftigt sich nicht nur mit dem Englischen, sondern auch mit diversen europäischen und asiatischen Sprachen; außerdem nehmen statistische Herangehensweisen darin breiteren Raum ein. Hinzugekommen ist auch ein neues Kapitel zu aufstrebenden Anwendungsbereichen, darunter die Stimmungsanalyse. Allen, die wissen möchten, wie sich NLP auf Computersysteme anwenden lässt, sei dieses Buch wärmstens empfohlen.

4. „The Handbook of Computational Linguistics and Natural Language Processing

Verfasser: Alexander Clark, Chris Fox und Shalom Lappin
Website: Amazon

Ähnlich wie das „Handbook of Natural Language Processing“ gibt auch dieses Werk einen leicht verständlichen Überblick über Begriffe, Methoden und Anwendungen der natürlichen Sprachverarbeitung und der Computerlinguistik. Es führt in wesentliche theoretische Fragestellungen ein und präsentiert zentrale technische Anwendungen, die durch die Beiträge der NLP-Forschung vorangekommen sind. Das Buch zeigt, wie Theorie und Praxis in der Arbeit führender NLP-Wissenschaftler zusammenwirken. Damit ist es hervorragend für NLP-Studenten geeignet, ebenso für Softwaretechniker, die im Labor NLP-Anwendungen entwickeln.

5. „The Oxford Handbook of Computational Linguistics

Verfasser: Ruslan Mitkov
Website: Amazon

Dieses Handbuch behandelt grundlegende Konzepte, Methoden und Anwendungen der Computerlinguistik in einer für Studienanfänger und Laien verständlichen Sprache. Der Beschreibung auf Amazon zufolge handelt es sich hierbei um ein aktuelles Überblickswerk zu einer der lebendigsten und produktivsten Disziplinen der Linguistik. Neben Sprachwissenschaftlern dürften bei der Lektüre auch Vertreter anderer Disziplinen – etwa Informatik, künstliche Intelligenz, Sprachdatenverarbeitung und Kognitionswissenschaft – auf ihre Kosten kommen. Den Auftakt bilden linguistische Grundlagen, gefolgt von einer Übersicht aktueller Aufgaben, Techniken und Werkzeuge der maschinellen Verarbeitung natürlicher Sprache, die sich an Leser mit einem akademischen Hintergrund im Bereich der Computerlinguistik richtet. Dennoch ist dieses Buch für Laien nicht weniger nützlich als für Postdoktoranden.

6. „Foundations of Statistical Natural Language Processing

Verfasser: Christopher Manning und Hinrich Schütze
Website: Eigene Website | Amazon

Christopher Manning ist ein Kollege von Daniel Jurafsky, von dem bereits oben die Rede war – beide haben den beliebten NLP-Einführungskurs an der Stanford University unterrichtet. Mannings Co-Autor, Hinrich Schütze, ist Professor für Computerlinguistik an der Ludwig-Maximilians-Universität München.

In ihrem Buch führen die beiden Wissenschaftler in statistische Methoden der natürlichen Sprachverarbeitung ein und vermitteln damit solide Grundlagen für das Verständnis neuer NLP-Methoden und die Erstellung von NLP-Tools. Daneben werden auch mathematische und sprachwissenschaftliche Grundlagen so aufbereitet, dass Leser auf dieser Basis eigene NLP-Anwendungen entwickeln können.

7. „Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit

Verfasser: Steven Bird, Ewan Klein und Edward Loper
Website: Eigene Website | Amazon

Dieses Buch ist eine nützliche Einführung in die natürliche Sprachverarbeitung mit dem Schwerpunkt Programmierung. Wer ein eher praxisbezogenes Werk sucht, ist hiermit bestens bedient, denn „Natural Language Processing with Python“ umfasst Hunderte sorgfältig ausgewählter Beispiele und Übungen, die Anfängern, Computerlinguisten und KI-Entwicklern gleichermaßen das Thema NLP nahebringen. Das Buch eignet sich zum Selbststudium, als unterrichtsbegleitendes Material für NLP- und Computerlinguistik-Studierende oder als Ergänzung zu Lehrveranstaltungen in den Bereichen künstliche Intelligenz, Text Mining und Korpuslinguistik.

Ganz nebenbei vermittelt es die Programmiersprache Python: Schritt für Schritt erklären die Autoren, wie man mit Python Programme zum Parsen unstrukturierter Daten, inklusive natürlicher Sprache, schreibt. Empfohlen wird der Download von Python und des Natural Language Toolkit (NLTK). Übrigens haben die Autoren auf der Website zum Buch eine aktualisierte Fassung für die Arbeit mit Python 3 and NLTK 3 bereitgestellt.

8. „Big Data Analytics Methods: Modern Analytics Techniques for the 21st Century: The Data Scientist’s Manual to Data Mining, Deep Learning & Natural Language Processing

Verfasser: Peter Ghavami
Website: Amazon

Peter Ghavamis Werk mag für NLP-Neueinsteiger eine Herausforderung darstellen, ist aber als umfassendes Handbuch von großem Nutzen für alle, die bereits mit NLP und der Funktion von Big Data in der heutigen Welt vertraut sind. Außerdem ist es ein hilfreiches Nachschlagewerk für Data Scientists, Analysten, Geschäftsleiter und Business-Intelligence-Anwender. Mit den über 100 Analytics-Techniken und -Methoden, die darin vorgestellt werden, dürften vor allem alte Hasen im Bereich Analytics voll auf ihre Kosten kommen.

Die Kapitel schneiden alle möglichen Aspekte rund um die Themenkomplexe Machine Learning, Prognosemodellierung und Cluster-Analyse an. Auch die Datenwissenschaft kommt nicht zu kurz: Behandelt werden unter anderem Datenvisualisierung, Prognosen und Regressionsanalyse. Zu den NLP-nahen Untersuchungsgegenständen gehören neuronale Netzwerke, Deep Learning und künstliche Intelligenz. All diese Themen sind in ausführliche Erklärungen eingebettet, und auch auf terminologische und mathematische Grundlagen geht der Autor näher ein.


Haftungsausschluss: Die auf dieser Webseite vorgestellten Produkte und Publikationen sowie die darin enthaltenen Standpunkte geben nicht den offiziellen Standpunkt von Tableau wieder. Diese Seite steht in keinerlei Zusammenhang mit Affiliate-Link-Programmen. Dieser Artikel dient ausschließlich Informationszwecken; die oben angeführten Informationen über Produkte und Publikationen werden lediglich zur Verfügung gestellt, um Lesern eigenständige, sachkundige Entscheidungen zur ermöglichen.