Wann sind genug Daten genug?

 

Vielleicht brauchen wir nicht mehr Daten, sondern nur Menschen, die die Daten, die wir bereits haben, und ihren Wert im geschäftlichen Kontext verstehen.

Das Problem und das Versprechen der künstlichen Intelligenz (KI) sind die Menschen. Das war schon immer so, unabhängig von unseren Hoffnungen (und Befürchtungen), dass Roboter die Macht übernehmen werden. Bei der KI und der Datenwissenschaft im Allgemeinen besteht der Trick darin, das Beste aus Mensch und Maschine zu kombinieren. Eine Zeit lang haben die Befürworter der KI-Industrie eher die maschinelle Seite der Gleichung betont. Doch wie die Datenwissenschaftlerin Elena Dyachkova von Spring Health meint, sind Daten (und die dahinter stehenden Maschinen) nur so nützlich, wie die Menschen, die sie interpretieren, intelligent sind.

 

Lassen Sie uns das näher erläutern.

 

Unvollkommene Daten, gute Entscheidungen

Dyachkova antwortete auf einen Kommentar von Sarah Catanzaro, General Partner bei Amplify Partners und ehemalige Leiterin der Datenabteilung bei Mattermark. Zum Nutzen unvollkommener Daten und Analysen für die Entscheidungsfindung sagte Catanzaro: "Ich glaube, die Datengemeinschaft erkennt oft nicht den Wert von Berichten und Analysen, die fehlerhaft, aber richtungsweisend sind." Sie argumentiert weiter: "Viele Entscheidungen erfordern keine hochpräzisen Erkenntnisse; wir sollten in vielen Kontexten nicht vor Quick and Dirty zurückschrecken."

Es ist eine gute Erinnerung daran, dass wir keine perfekten Daten brauchen, um eine Entscheidung zu treffen. Das ist eine gute Sache. Gary Marcus, Wissenschaftler und Gründer von Geometric Intelligence, einem Unternehmen für maschinelles Lernen, das 2016 von Uber übernommen wurde, weist darauf hin, dass der Schlüssel zur Wertschätzung von KI und ihren Untergruppen maschinelles Lernen und Deep Learning in der Erkenntnis liegt, dass solche Mustererkennungswerkzeuge am besten geeignet sind, "wenn wir nur ungefähre Ergebnisse benötigen, wenn wenig auf dem Spiel steht und perfekte Ergebnisse optional sind". Trotz dieser Wahrheit streben wir in unserem Streben nach leistungsfähigeren KI-gestützten Anwendungen nach immer mehr Daten, in der Erwartung, dass uns die Modelle des maschinellen Lernens bei ausreichender Datenmenge irgendwie bessere als "unfertige Ergebnisse" liefern werden.

Leider! In der realen Welt funktioniert das einfach nicht so. Obwohl mehr Daten gut sein können, brauchen wir für viele Anwendungen nicht mehr Daten. Vielmehr brauchen wir Menschen, die besser darauf vorbereitet sind, die Daten zu verstehen, die wir bereits haben.

Wie Dyachkova anmerkt: "Produktanalytik ist zu 80 % schnell und schmutzig. Aber um beurteilen zu können, wann Quick and Dirty angebracht ist, muss man ein ziemlich gutes Verständnis von Statistik haben." Haben Sie das verstanden? Vincent Dowling, ein Datenwissenschaftler bei Indeed.com, macht den Punkt noch deutlicher: "Ein großer Teil des Wertes eines erfahrenen Analysten/Wissenschaftlers besteht darin, den Grad der Strenge zu bestimmen, der für eine Entscheidung erforderlich ist."

In beiden Fällen geht es darum, wie man Entscheidungen trifft, und in beiden Fällen ist die Erfahrung der Menschen, die die Daten betrachten, wichtiger als die Daten selbst. Maschinen werden niemals in der Lage sein, unzureichende Kenntnisse der Menschen, die sie bedienen, zu kompensieren. In einem Leitartikel des The Guardian heißt es: "Das Versprechen der KI besteht darin, dass sie Maschinen in die Lage versetzen wird, Muster in Daten zu erkennen und Entscheidungen schneller und besser zu treffen als Menschen. Aber was passiert, wenn sie schneller schlechtere Entscheidungen treffen?"

Das ist eine sehr reale Möglichkeit, wenn der Mensch die Verantwortung abgibt und glaubt, dass die Daten und Maschinen schon irgendwie für sich selbst sprechen werden.

Weniger Daten, mehr Wissen

Es ist in der Praxis nicht so einfach, den Menschen die Verantwortung zu übertragen. Wie Gartner Research Vice President Manjunath Bhat andeutet, wird die KI durch menschliche Eingaben beeinflusst, einschließlich der Daten, die wir in die Maschinen einspeisen. Die Ergebnisse unserer Algorithmen wiederum beeinflussen die Daten, die wir für unsere Entscheidungen nutzen. "Der Mensch konsumiert Fakten in Form von Daten. Daten können jedoch mutiert, transformiert und verändert werden - alles im Namen des einfachen Konsums. Wir haben dann keine andere Wahl, als innerhalb der Grenzen einer stark kontextualisierten Sicht der Welt zu leben."

Für ein erfolgreiches maschinelles Lernprojekt, so der Amazon-Wissenschaftler Eugene Yan, "braucht man Daten. Sie brauchen eine robuste Pipeline zur Unterstützung Ihrer Datenströme. Und vor allem brauchen Sie qualitativ hochwertige Beschriftungen". Aber es gibt keine Möglichkeit, diese Daten ohne erfahrene Leute richtig zu beschriften. Um sie gut zu beschriften, muss man die Daten verstehen.

Dies erinnert an eine Aussage, die die Gartner-Analystin Svetlana Sicular vor zehn Jahren machte: Es gibt viele Menschen in Unternehmen, die die Feinheiten ihres Geschäfts verstehen. Sie sind am besten in der Lage, die richtigen Fragen zu den Unternehmensdaten zu stellen. Was ihnen möglicherweise fehlt, ist das von Dyachkova hervorgehobene zusätzliche Verständnis für Statistiken - die Fähigkeit zu erkennen, wann "gute" Ergebnisse tatsächlich gut genug sind.

Das ist natürlich auch der Grund, warum Datenwissenschaft so schwierig ist. In jeder Umfrage zu den größten Hindernissen für die Einführung von KI/ML steht "Talent" ganz oben auf der Liste. Manchmal denken wir, dass dies auf einen Mangel an Talenten in der Datenwissenschaft zurückzuführen ist, aber vielleicht sollten wir uns mehr Sorgen über einen Mangel an grundlegendem Verständnis von Statistik, Mathematik und dem Geschäft eines bestimmten Unternehmens machen.