ciando eBooks - ein Service Ihrer Bibliothek

	Inhalt	5
	Vorwort	9
	Kapitel 1: Einführung	15
	Warum Machine Learning?	15
	Welche Probleme kann Machine Learning lösen?	16
	Ihre Aufgabe und Ihre Daten kennen	19
	Warum Python?	19
	scikit-learn	20
	Installieren von scikit-learn	20
	Grundlegende Bibliotheken und Werkzeuge	21
	Jupyter Notebook	22
	NumPy	22
	SciPy	22
	matplotlib	24
	pandas	24
	mglearn	25
	Python 2 versus Python 3	26
	In diesem Buch verwendete Versionen	27
	Eine erste Anwendung: Klassifizieren von Iris-Spezies	28
	Die Daten kennenlernen	29
	Erfolg nachweisen: Trainings- und Testdaten	31
	Das Wichtigste zuerst: Sichten Sie Ihre Daten	33
	Ihr erstes Modell konstruieren: k-nächste-Nachbarn	35
	Vorhersagen treffen	36
	Evaluieren des Modells	37
	Zusammenfassung und Ausblick	37
	Kapitel 2: Überwachtes Lernen	41
	Klassifikation und Regression	41
	Verallgemeinerung, Overfitting und Underfitting	42
	Zusammenhang zwischen Modellkomplexität und Größe des Datensatzes	45
	Algorithmen zum überwachten Lernen	46
	Einige Beispieldatensätze	46
	k-nächste-Nachbarn	50
	Lineare Modelle	59
	Naive Bayes-Klassifikatoren	80
	Entscheidungsbäume	82
	Ensembles von Entscheidungsbäumen	94
	Support Vector Machines mit Kernel	102
	Neuronale Netze (Deep Learning)	113
	Schätzungen der Unsicherheit von Klassifikatoren	126
	Die Entscheidungsfunktion	127
	Vorhersagen von Wahrscheinlichkeiten	130
	Unsicherheit bei der Klassifikation mehrerer Kategorien	132
	Zusammenfassung und Ausblick	134
	Kapitel 3: Unüberwachtes Lernen und Vorverarbeitung	137
	Arten von unüberwachtem Lernen	137
	Herausforderungen beim unüberwachten Lernen	138
	Vorverarbeiten und Skalieren	138
	Unterschiedliche Möglichkeiten der Vorverarbeitung	139
	Anwenden von Datentransformationen	140
	Trainings- und Testdaten in gleicher Weise skalieren	142
	Die Auswirkungen der Vorverarbeitung auf überwachtes Lernen	144
	Dimensionsreduktion, Extraktion von Merkmalen und Manifold Learning	146
	Hauptkomponentenzerlegung (PCA)	146
	Nicht-negative-Matrix-Faktorisierung (NMF)	161
	Manifold Learning mit t-SNE	168
	Clusteranalyse	172
	k-Means-Clustering	172
	Agglomeratives Clustering	183
	DBSCAN	188
	Vergleichen und Auswerten von Clusteralgorithmen	192
	Zusammenfassung der Clustering-Methoden	206
	Zusammenfassung und Ausblick	207
	Kapitel 4: Repräsentation von Daten und Merkmalsgenerierung	209
	Kategorische Variablen	210
	One-Hot-Kodierung (Dummy-Variablen)	211
	Zahlen können kategorische Daten kodieren	216
	Binning, Diskretisierung, lineare Modelle und Bäume	218
	Interaktionen und Polynome	222
	Univariate nichtlineare Transformation	228
	Automatische Auswahl von Merkmalen	232
	Univariate Statistiken	232
	Modellbasierte Auswahl von Merkmalen	235
	Iterative Auswahl von Merkmalen	236
	Berücksichtigen von Expertenwissen	238
	Zusammenfassung und Ausblick	247
	Kapitel 5: Evaluierung und Verbesserung von Modellen	249
	Kreuzvalidierung	250
	Kreuzvalidierung in scikit-learn	251
	Vorteile der Kreuzvalidierung	252
	Stratifizierte k-fache Kreuzvalidierung und andere Strategien	252
	Gittersuche	258
	Einfache Gittersuche	259
	Die Gefahr des Overfittings von Parametern und Validierungsdaten	260
	Gittersuche mit Kreuzvalidierung	262
	Evaluationsmetriken	274
	Das Ziel im Auge behalten	274
	Metriken zur binären Klassifikation	275
	Metriken zur Klassifikation mehrerer Kategorien	296
	Regressionsmetriken	298
	Verwenden von Metriken zur Modellauswahl	299
	Zusammenfassung und Ausblick	301
	Kapitel 6: Verkettete Algorithmen und Pipelines	303
	Parameterauswahl mit Vorverarbeitung	304
	Erstellen von Pipelines	306
	Pipelines zur Gittersuche einsetzen	307
	Die allgemeine Pipeline-Schnittstelle	310
	Bequemes Erstellen von Pipelines mit make_pipeline	311
	Zugriff auf Attribute von Schritten	312
	Zugriff auf Attribute in einer Pipeline mit Gittersuche	313
	Gittersuche für Vorverarbeitungsschritte und Modellparameter	314
	Gittersuche nach dem richtigen Modell	317
	Zusammenfassung und Ausblick	318
	Kapitel 7: Verarbeiten von Textdaten	321
	Arten von als Strings repräsentierter Daten	321
	Anwendungsbeispiel: Meinungsanalyse zu Filmbewertungen	323
	Repräsentation von Text als Bag-of-Words	325
	Anwenden von Bag-of-Words auf einen einfachen Datensatz	327
	Bag-of-Words der Filmbewertungen	328
	Stoppwörter	332
	Umskalieren der Daten mit tf-idf	333
	Untersuchen der Koeffizienten des Modells	336
	Bag-of-Words mit mehr als einem Wort (n-Gramme)	337
	Fortgeschrittene Tokenisierung, Stemming und Lemmatisierung	341
	Modellierung von Themen und Clustering von Dokumenten	345
	Latent Dirichlet Allocation	345
	Zusammenfassung und Ausblick	352
	Kapitel 8: Zusammenfassung und weiterführende Ressourcen	355
	Herangehensweise an eine Fragestellung beim maschinellen Lernen	355
	Der menschliche Faktor	356
	Vom Prototyp zum Produktivsystem	357
	Testen von Produktivsystemen	358
	Konstruieren eines eigenen Estimators	358
	Wie geht es von hier aus weiter?	359
	Theorie	359
	Andere Umgebungen und Programmpakete zum maschinellen Lernen	360
	Ranking, Empfehlungssysteme und andere Arten von Lernen	361
	Probabilistische Modellierung, Inferenz und probabilistische Programmierung	361
	Neuronale Netze	362
	Skalieren auf größere Datensätze	363
	Verfeinern Sie Ihre Fähigkeiten	364
	Schlussbemerkung	365
	Index	367
	Über die Autoren	377
	Über die Übersetzer	377
	Kolophon	377
	www.oreilly.de	0