data science was ist das eigentlichAnnalyn Ng und Kenneth Soo

Springer-Verlag 2018, XXI + 179 Seiten
ISBN: 978-3-662-56775-3, 19,99 €
eBook ISBN: 978-3-662-56776-0, 14,99 €

Unter den Begriffen „Digitalisierung“, „Big Data“, „Künstliche Intelligenz“ werden aktuell verschiedene gesellschaftliche und technische Entwicklungen in sehr bunter und auch problematischer Weise diskutiert. Es wird nicht nur von durch Algorithmen gesteuerten Fabriken gesprochen, sondern auch diskutiert, wie der Mensch bei Entscheidungsprozessen durch Algorithmen ersetzt werden kann. Dies betrifft z. B. autonomes Fahren, Entscheidungen zur Gewährung von Krediten oder auch die Suche nach der optimalen Behandlung von Patienten. Die Begriffe zum Inhalt des Buches werden gleich bei dem deutschen Titel in adäquater Weise geklärt. Der sich immer mehr etablierende Begriff der Data Science ist hier zentral und zeigt den Inhalt: Die wissenschaftlich basierte Analyse von Daten. Wissenschaftlich ist diese Disziplin zwischen Informatik und Statistik einzuordnen. Die Algorithmen des maschinellen Lernens spielen dabei eine zentrale Rolle. Daher ist die freie Übersetzung des engl. Originaltitels („Numsense! Data Science for the Layman: No Math Added“) sehr treffend. Weiter schreckt der Originaltitel möglicherweise mathematisch orientierte Leser ab, was sehr bedauerlich wäre.

Das Buch beginnt mit einer allgemeinen Übersicht. Neben Grundzügen der Datenaufbereitung werden wichtige Grundbegriffe wie „unüberwachtes Lernen“ („Aufgabe: Sag mir, was für Muster in meinen Daten verborgen sind!“, „überwachtes Lernen“ („Aufgabe: Leite aus den Mustern in meinen Daten Prognosen ab!“) und „bestärkendes Lernen“ („Aufgabe: Leite aus den Mustern in meinen Daten Vorhersagen ab und verbessere diese Vorhersagen, wenn neue Daten eintreffen!“) anschaulich erklärt. Auch Strategien zur Bewertung von Vorhersagen wie die Kreuzvaliderung werden einfach und klar erläutert. Wir waren überrascht, wie es den Autoren gelingt, auf nur 18 Seiten so viele zentrale Begriffe anschaulich und hinreichend genau zu erklären. Interessant ist weiter die Beschreibung des Vorgehens bei einer Data Science Studie in 4 Schritten Datenaufbereitung, Auswahl der Algorithmen, Optimierung der Parameter, Evaluierung und Prüfung. Man beachte, dass dieses Vorgehen etwas anders als in der traditionellen Statistik und Wissenschaft ist, wo die Schritte eher aus Theoriebildung und Hypothesen, Datenerhebung, empirische Prüfung und Bewertung bestehen. Nach der Einleitung werden in 11 weiteren Kapiteln verschiedene Vorgehensweisen beim maschinellen Lernen einzeln beschrieben: Clusteranalyse, Hauptkomponentenanalyse, Assoziationsanalyse, Soziale Netzwerkanalyse, Regression, k-nächste Nachbarn, Support-Vektor-Maschine, Entscheidungsbaum, Random Forests, Neuronale Netze, A/B-Tests. Die Kapitel beginnen jeweils mit der Erklärung der Aufgabenstellung anhand von Beispielen, gefolgt von den Lösungsansätzen, die wieder Beispiele enthalten. Dies gelingt in den meisten Kapiteln sehr gut und anschaulich, was insbesondere für die Kapitel zur Assoziationsanalyse und zu den Random Forests gilt. Weniger gelungen sind die Abschnitte zur Clusteranalyse (es wäre besser die Clusteranalyse als einfaches Optimierungsproblem darzustellen) und zu den neuronalen Netzen (hier ist aus unserer Sicht die Erklärung wenig anschaulich). Vielleicht wären an manchen Stellen doch (zumindest aus Sicht der mathematisch interessierten LeserIn) Formeln hilfreich gewesen. Störend sind an wenigen Stellen Formulierungen in der deutschen Übersetzung, die nicht ganz passend sind. Besonders gut gefällt uns, dass bei jedem Verfahren in einem Abschnitt die Grenzen erläutert werden. Hier zeigt sich die praktische Erfahrung der Autoren, die sehr wohl wissen, dass mit Hilfe von „Big Data“ nicht alle Probleme gelöst werden können. Insgesamt halten wir das Buch nicht nur für Laien, sondern auch für den mathematisch gebildeten und interessierten Leser für eine empfehlenswerte Einführung in die Welt des maschinellen Lernens. Es unterscheidet sich von anderen populärwissenschaftlichen Büchern in erfrischender Weise durch Sachlichkeit. Es kann auch dazu beitragen, dass die Diskussion über das Thema in der Öffentlichkeit entmystifiziert wird. Es sind nicht die Maschinen oder Algorithmen, die unser Leben in Zukunft bestimmen, sondern es wurden von kreativen Menschen Verfahren entwickelt, wie man Daten optimal auswertet und deren Einsatz in Industrie und Gesellschaft hilfreich sein kann. Da zu der Entscheidung, maschinelle Verfahren einzusetzen Grundkenntnisse zu den Verfahren hilfreich sind, ist dieses Buch ein nützlicher Beitrag.

Rezension: Helmut Küchenhoff, Maike Guderlei (Uni München)

Quelle: Springer Verlag, Mathematische Semesterberichte, Oktober 2019, Band 66, S. 265–266
Mit freundlicher Genehmigung des Verlags