Deep Learning mit wenigen Labels
Im Deep Learning wird meist auf unstrukturierten Daten (z.B. Bildern oder Texten) eine Klassifikation oder Regression gelernt. Dabei kommen (tiefe) neuronale Netze zum Einsatz. Damit das Netz lernt, muss zu ausreichend vielen Daten eine sogenannte Ground Truth, d.h. das Wissen um die korrekte Klassifizierung, vorhanden sein. Die Erzeugung dieser Ground Truth, auch Labels genannt, kann kostspielig und zeitaufwändig werden. Dies ist eine Hürde, die es erschwert, Verfahren des Deep Learnings in der Praxis zum Einsatz zu bringen.
Das aktive Lernen und das halb-überwachte Lernen liefern zwei Ansätze, um mit wenigen Labels möglichst performante Netze anzulernen. Mehr...
Mit diesen Ansätzen entwickeln Dr. Matthias Rottmann, Dr. Karsten Kahl und Professor Hanno Gottschalk Verfahren, durch die neuronale Netze in die Lage versetzen von wenigen Labels lernen. Im aktiven Lernen fragt das Neuronale Netz einen Experten oder Nutzer nach zusätzlichen Labels zu Daten, bei denen es sich besonders unsicher ist. Zur Bestimmung dieser Unsicherheit kommen Methoden der Bayeschen Inferenz zum Einsatz. Beim halb-überwachten Lernen werden ungelabelte Daten zum Training genutzt, d.h. das Neuronale Netz lernt auf diesen Daten durch Selbstbestätigung. Durch eine Kombination dieser Verfahren erreichen Matthias Rottmann, Karsten Kahl und Hanno Gottschalk auf standardisierten Benchmarks (Klassifikation von handschriftlichen Ziffern) sehr gute Resultate. Die Grafik zeigt ein Testproblem, bei dem das neuronale Netz die Punkte anhand ihrer Lage in der Ebene nach ihrer Farbe klassifizieren soll. Nur die durchkreuzten Punkten, d.h. zu 8% der abgebildeten Datenpunkte, wurden im Verlauf des Verfahrens gelabelt, der Farbverlauf im Hintergrund zeigt an, in welchem Bereich der Ebene welche Farbe vom neuronalen Netz vorhergesagt wird.