VDanksagung

Es wäre toll, wenn ich clever genug wäre, dass all die Ideen in diesem Buch allein in meinem Gehirn entstanden wären. Dies ist jedoch nicht der Fall! Somit muss ich mich auf das Wohlwollen und die Weisheit von Anderen verlassen, die mir über ihre Erfahrungen mit Big Data berichteten. Ich bin all diesen Menschen dankbar. Hinter jeder Geschichte in diesem Buch steht ein großzügiger Mensch.

Zudem bin ich meinen Freunden beim SAS Institute dankbar, die einen Großteil meiner Forschung über Analytics finanziert haben. Zwei der von ihnen unterstützten Studien sind in diesem Buch beschrieben. Mike Bright ist mein Hauptansprechpartner bei SAS, und Scott VanValkenburg war mein erster Kontakt in diesem Unternehmen. Nach fast zehnjähriger Zusammenarbeit sind beide gute Freunde und Berater für mich geworden. Zudem möchte ich mich noch bei Ken Blank, Jim Davis, Carl Farrell, Jim Goodnight, Deb Orton, Adele Sweetwood und vielen anderen Mitarbeitern bei SAS bedanken.

Einen Teil meiner Forschungsaktivitäten, die in dieses Buch einflossen, habe ich mithilfe des von Jack Phillips und mir gegründeten International Institute for Analytics unternommen. Vielen Dank an Jack, Katherine Busey, Sarah Gates, Callie Youssi und den anderen Mitarbeitern bei SAS vom IIA für ihre Hilfe.

Schon seit einigen Jahren bin ich Senior Berater bei Deloitte Analytics. In dieser Zeit stand mir Jane Griffin als Mitstreiterin und Freundin zur Seite. Bedanken möchte ich mich auch bei Forrest Danson, Wendy DeHoef, Kelly Nelson, Tim Phillipps und Fred Roffman von Deloitte Analytics für ihre fortwährende Unterstützung. Marcus Shingles von Deloitte leitete ein Forschungsprojekt über Big Data beim Verband der amerikanischen Lebensmittelhersteller (Grocery VIManufacturers Association, GMA), an dem ich beteiligt war. Manche seiner Ideen finden sich ebenfalls in diesem Buch wieder.

Während ich dieses Buch schrieb, begann ich ein Forschungsprojekt über Datenerkennung, und einige Forschungsergebnisse schafften es ebenfalls in dieses Buch, bevor die Studie beendet war. Teradata Aster unterstützte mich bei dieser Forschungsarbeit, und ich möchte Tasso Argyros und Mary Gros dafür danken, dass sie Informationen über ihre Kunden und Produktressourcen mit mir geteilt haben.

Darüber hinaus arbeite ich als Berater bzw. externer Forschungsmitarbeiter mit einer Reihe von Unternehmen und Organisationen zusammen und lerne viel von ihnen. Hierbei handelt es sich um (in alphabetischer Reihenfolge) First Analytics, MarketShare, Medidata Solutions, MIT Center for Digital Business, Mu Sigma, Real Impact, Signals Intelligence Group und Via Science. Mein Hauptanliegen bei diesen Projekten ist es, von ihnen zu lernen. Und bisher haben alle dieses Ziel erfüllt!

Die Mitarbeiter von Harvard Business Review Press spielten ebenfalls eine wichtige Rolle bei der Realisierung dieses Buchprojektes. Melinda Merino hat einige meiner Bücher redigiert, und es war wieder eine reine Freude, mit ihr zu arbeiten. Ich meine mich sogar zu erinnern, dass die Idee zu diesem Buch von ihr stammte. Im Laufe der Zusammenarbeit an diesem Buch hatte sie tolle Vorschläge, um es fesselnder und interessanter zu machen.

Es war nachlässig von mir, in meinen letzten Büchern meiner langjährigen Presseagentin, Julie Devoll, nicht zu danken. Normalerweise weiß ich beim Schreiben der Danksagung noch nicht, welcher Verlag mein Buch veröffentlicht, und Julie hat mir ihre sachkundige und unermüdliche Unterstützung für dieses Projekt zugesichert. Falls jemand von diesem Buch hört oder liest, dann ist dies sehr wahrscheinlich Julies Verdienst.

Ich mag den Umschlagentwurf für dieses Buch; er ist das Ergebnis der ausgezeichneten Arbeit von Stephani Finks. Tracy Williams war für das Marketing des Buches verantwortlich, und Allison Peter hat die redaktionelle Bearbeitung und die Illustrationen völlig reibungslos abgewickelt. Vielen Dank an die Redakteurin Julia Kirby, meiner VIIalten Freundin und häufigen Ansprechpartnerin beim Harvard Business Review, die mir geholfen hat, meine Gedanken zu diesem Thema in einer Reihe von Artikeln für die Zeitschrift zu ordnen.

Meine Frau, Jodi Davenport, drängte mich, ein Buch über Big Data zu schreiben, lange bevor ich tatsächlich damit anfangen habe. Meine Söhne Hayes und Chase haben zumindest ein indirektes Interesse an diesem Thema: Hayes, was die Unterhaltungsindustrie angeht, und Chase im Hinblick auf das Bildungswesen. Vielen Dank an alle für ihre Beratung.

Ich habe mehr Bücher geschrieben als ich Familienmitglieder habe, sodass ich mit der Widmung meiner Bücher bei meiner Familie wieder von vorne anfangen muss. Competing on Analytics widmete ich meiner Schwiegermutter Helen Kubik. Sie hat sich über die Widmung nicht nur mehr als alle anderen gefreut, sondern das Buch hat sich auch ziemlich gut verkauft. Also widme ich dieses Buch ebenfalls dir, Helen. Bitte lass deinen Zauber wieder wirken!

IXVorwort von Péter Horváth

Alle Jahre wieder tauchen Begriffe auf, die die Theorie wie Praxis faszinieren. Sie sind in aller Munde, erweisen sich aber bei genauerem Hinsehen meist als schwammige Worthülsen. Umso notwendiger ist es, nüchtern zu prüfen, ob sie einen harten Kern haben, aus dem doch Früchte entstehen könnten.

Seit zwei, drei Jahren ist der Begriff „Big Data“ auf dem Markt. Thomas Davenport war zunächst skeptisch, weil er wieder einmal ein Beispiel für einen „technology hype“ ohne Substanz vermutete. Er ist dem Sachverhalt auf den Grund gegangen und hat Big Data aus Technik-, Kunden- und Managementperspektive analysiert. Das Ergebnis liegt nun auch in deutscher Sprache vor.

Dieses Buch zeigt in verständlicher Sprache und anhand vieler praktischer Beispiele, dass Big Data kein Tagesphänomen ist. Im Gegenteil: Big Data wird unsere Gesellschaft in vielen Bereichen grundlegend verändern – sowohl unsere private Existenz, aber auch die von Unternehmen. Davenport beschreibt überzeugend, was Big Data konkret bewirkt, welche Chancen und Risiken damit für Organisationen verbunden sind. Er bleibt nicht bei einer allgemeinen Analyse stehen, sondern entwirft eine Checkliste zur unternehmensindividuellen Einschätzung der Big Data-Bereitschaft.

Dieses Buch füllt eine Lücke zwischen den oberflächlichen Tagespublikationen und der technischen Informatikliteratur. Es wendet sich an die Entscheider in den Unternehmen und arbeitet heraus, warum Big Data ein strategisches Führungsthema ist.

Thomas H. Davenport ist ein weltweit anerkannter Experte für das Thema Big Data. Sein Buch ist eine spannende und nutzbringende XLektüre für alle an diesem Themenkomplex Interessierten. Ich wünsche dem Buch die ihm gebührende große Verbreitung.

Péter Horváth

11

Warum Big Data für Sie und Ihr Unternehmen wichtig ist

Obwohl große Datenmengen zweifellos big sind, so ist die Bezeichnung „Big Data“ dennoch etwas irreführend. Big Data ist ein Sammelbegriff für Daten, die nicht in die übliche Datenschublade passen. Sie sind zu umfangreich, um auf einem einzigen Server Platz zu haben, zu unstrukturiert, um in das Zeilen- und Spalten-Format einer relationalen Datenbank zu passen; sie fallen kontinuierlich an und passen somit nicht in ein statisches Data-Warehouse. Meist steht zwar die Größe im Fokus der Aufmerksamkeit, der schwierigste Aspekt von Big Data ist jedoch die fehlende Struktur der Daten.

Am Anfang von Büchern wie diesem wird normalerweise erst einmal erläutert, wie viele Daten es auf der ganzen Welt gibt. Sie kennen die Zahlen und Vergleiche – das durchschnittliche Unternehmen verfügt über 427 Mal so viele Daten, wie jemals in der US-amerikanischen Kongressbibliothek gespeichert wurde. Facebook verfügt über mehr Bilddaten, als die Gesamtmenge aller Pixel, die jemals von 2Kodak verarbeitet wurden. Jeden Tag nehmen wir mehr Videos auf, als in den ersten 50 Jahren des Fernsehens gemacht wurden. Gut, es handelt sich hierbei nicht um tatsächliche Fakten. Ich habe sie mir aus den Fingern gesogen, aber wahrscheinlich liegen sie nicht weit von der Realität entfernt.

Ich verzichte in diesem Buch bewusst auf Aufzählungen dieser Art, weil ich sie nicht für wichtig halte. Tatsächlich ist eine unglaublich große Menge an Daten in Umlauf. Einer Studie zufolge gab es 2012 weltweit mehr als 2,8 Zettabyte an Daten (das entspricht 2,8 Billionen Gigabyte, eine geradezu unfassbar große Zahl).1 Das ist mehr, als alles, was wir bisher gekannt haben, und in Zukunft wird diese Datenmenge nur noch größer werden. Aber obwohl es auf Cocktail-Partys vielleicht nützlich sein mag, mit der großen Datenmenge unseres Unternehmens zu prahlen, so ist das Gesamtvolumen an Daten für Unternehmen, die Big Data verarbeiten und davon profitieren sollen, nicht wirklich wichtig. Hier könnten wir uns sogar des alten Klischees bedienen, das meist jedoch in einem anderen Zusammenhang verwendet wird: „Größe spielt keine Rolle!”

Statt uns von der Menge der Daten blenden zu lassen, sollten wir diese lieber analysieren, um sie in Wissen, Innovationen und Werte umzuwandeln. Aus der oben genannten Studie geht hervor, dass lediglich 0,5 % der 2,8 Zettabyte Daten überhaupt auf irgendeine Art analysiert werden. Das größte Hindernis für die Analyse ist, dass wir Big Data zunächst einmal in eine Struktur bringen müssen. Die meisten dieser 2,8 Zettabyte liegen derzeit nicht in Zeilen- und Spalten-Formaten vor. Es steht uns also eine gewaltige Aufgabe bevor: Wir müssen die Daten zunächst einmal strukturieren und analysieren, bevor wir sie schließlich nutzen können. Und nicht alles davon wird auch wirklich nützlich sein. Laut Schätzung der Studie haben ungefähr 25 % der Daten auch einen potenziellen Wert. Unabhängig von diesem Prozentsatz ist dies jedoch nur die Spitze des Eisbergs dessen, was möglich ist.

3Jenseits des Big Data Hypes

Sie sollten skeptisch gegenüber Big Data und dem damit verbundenen Hype sein. Ich war es auch, bis ich anfing, über dieses Thema zu recherchieren. Ich hatte bereits mit Unternehmen im Bereich der Datenanalyse (Analytics) zusammengearbeitet und auch Bücher über das Thema geschrieben, beispielsweise Competing on Analytics (mit Jeanne Harris) und Analytics at Work (mit Jeanne Harris und Bob Morison). Ich habe weit über 100 Unternehmen dabei beraten, mithilfe von Datenanalysen Wettbewerbsvorteile zu erzielen. Und am Anfang dachte ich, dass mit dem Begriff Big Data dem altbekannten Thema Analytics lediglich ein neues Etikett verpasst wurde. Im vierten Quartal 2010 nahm das Thema dann allerdings Fahrt auf. Bis dahin gab es noch nicht viele Beispiele zu Big Data außerhalb des Silicon Valley. Also nahm ich an, dass es sich nur um ein weiteres Beispiel von Hersteller-, Berater- und Technologie-Analysten-Hype handelt. Ich zog sogar kurz in Erwägung, den Begriff Analytics in meinen Büchern einfach gegen Big Data auszutauschen.

Während meiner Recherchen zu Big Data merkte ich, dass meine Skepsis unangebracht war. Ich habe einige systematische Untersuchungen durchgeführt, z.B. über Datenwissenschaftler, dem menschlichen Faktor von Big Data, Big Data in großen Unternehmen, Big Data in der Reisebranche sowie über die Datenerkennung (die sog. Data Discovery) von Big Data.2 Ich habe mehr als 100 Gespräche mit jungen Big Data-Unternehmen, etablierten Online-Unternehmen und großen Unternehmen in traditionellen Branchen geführt. In großen, etablierten Unternehmen traf ich des Öfteren Manager, die meine anfängliche Skepsis teilten und dem Hype ebenfalls misstrauten. Sie hatten häufig das Gefühl, dass sie sich schon seit Jahren mit Big Data befassen (zumindest, wenn man das große Datenvolumen als den zentralen Aspekt der Definition betrachtet) und dies nichts Neues für sie sei. Im weiteren Verlauf meiner Gespräche gaben die meisten Manager dann jedoch zu, dass die fehlende Struktur der meisten Daten, mit denen wir heute umgehen, neue Herausforderungen, aber auch neue Geschäftsmöglichkeiten mit sich bringt.

Aufgrund dieser Ergebnisse schloss ich, dass es tatsächlich Unterschiede zwischen traditionellen Analytics-Lösungen und Big Data 4gibt. Diese ließen sich allerdings beim Lesen anderer Artikel und Bücher zu diesem Thema nicht immer erkennen, da die Differenzierung häufig sehr schwammig war (in Tabelle 1.1 sind die Unterschiede zusammengefasst).

Big Data

Traditionelle Analytics-Lösungen

Datentyp

Unstrukturierte Formate

Formatiert in Zeilen und Spalten

Datenvolumen

100 Terabyte bis Petabyte

Zweistelliger Terabyte-Bereich oder weniger

Datenfluss

Konstanter Datenfluss

Statischer Datenbestand

Analyse-
methoden

Maschinelles Lernen

Hypothesen-
basiert

Hauptzweck

Datenbasierte Produkte

Interne Entscheidungs-
unterstutzung und -dienste

Tabelle 1.1: Big Data und traditionelle Analytics-Lösungen

Auf diese Unterschiede werde ich immer wieder in diesem Buch zurückkommen. Meine Argumentation, dass Big Data – trotz meiner bestehenden Bedenken gegen den Namen dieses Phänomens – aus der Geschäftswelt nicht mehr wegzudenken und für viele Unternehmen von großer Bedeutung ist, wird sich wie ein roter Faden durch das gesamte Buch ziehen. Ich hoffe, dass ich Sie von dieser Meinung überzeugen kann.

Wenn Sie glauben, dass Big Data für Sie und Ihr Unternehmen wichtig ist, sollten Sie sich damit auseinandersetzen. Sie müssen entscheiden, welche Aspekte von Big Data sich am besten auf Ihr Unternehmen anwenden lassen und diese dann in Angriff nehmen. Sie müssen geeignete Mitarbeiter einstellen oder ausbilden, damit Big Data in Ihrem Unternehmen funktioniert. Außerdem müssen Sie Ihre Technologie-Architektur verändern. Dieses Buch ist nur dann erfolgreich, wenn Sie diese Dinge angehen.

Ziel dieses Buchs ist es also nicht, Ihnen etwas verkaufen zu wollen, sondern Sie dabei zu unterstützen, sinnvolle Entscheidungen für Sie und Ihr Unternehmen zu treffen. Ich werde Ihnen erzählen, was mich an Big Data beeindruckt hat, und dabei nicht verheimlichen, welche Aspekte meiner Meinung nach überbewertet werden. Dann werde ich erläutern, wie Big Data die unterschiedlichen Branchen 5und Unternehmen transformieren wird, und welche davon zumindest vorübergehend noch nicht betroffen sein werden. Wenn Sie sich für Big Data in Ihrem Unternehmen entscheiden, dann hilft Ihnen dieses Buch, sinnvolle und ökonomische Wege dahin zu finden.

Natürlich möchte ich sorgsam mit Ihrer Zeit umgehen, hoffe jedoch, dass Sie offen sind für ein Big Data-Projekt. Unter Umständen bleibt es ja bei einem Sondierungsprojekt zum Aufbau entsprechender Kapazitäten. Zumindest sollten Sie sich mit der Frage beschäftigen, inwieweit Big Data sinnvoll für Ihr Unternehmen sein kann.

Wer sind Sie?

Wer sind Sie eigentlich, dass Sie etwas über die Auswirkungen und den Wert von Big Data erfahren möchten? Die Leser meiner anderen Bücher über Analytics sind normalerweise clevere und ehrgeizige Geschäftsleute, die daran glauben, dass Daten und Technologien die Regeln, wie wir Geschäfte abwickeln, verändern können. Nun, ich gehe davon aus, dass Sie die gleichen Eigenschaften besitzen.

Ich habe jedoch festgestellt, dass Führungskräfte, die sich am meisten für Big Data interessieren, aus datenintensiven Abteilungen – wie Marketing, Logistik, immer häufiger auch aus Finance und Human Resources – stammen. Manager aus Abteilungen, die Big Data unterstützen, wie z.B. die IT-Abteilung, möchten häufig mehr über dieses Konzept erfahren. Besonders interessierte Führungskräfte arbeiten in Branchen, die entweder schon sehr datenorientiert (Online-Unternehmen) oder in denen große Umgestaltungen möglich sind. Letztlich kann das jede Branche treffen, insbesondere sind es aber solche mit vielen Kundendaten (Einzelhandel, Reise und Verkehr, Telekommunikation, Medien und Unterhaltung sowie Finanzdienstleistungen). Und natürlich auch Studenten, die sich auf eine Karriere in Big Data vorbereiten. Ich gratuliere Ihnen zu Ihrer Weitsicht! Dieser Bereich wird wahrscheinlich viele Jahre lang boomen.

Den meisten Managern, die ich kennengelernt habe, ist Big Data ein Begriff. Ihnen sicher auch. Und Sie wissen, dass sich Daten mit 6einer rasanten Geschwindigkeit vermehren. Ihnen ist aber vermutlich nicht ganz klar, was wirklich so anders an Big Data ist und wie es mit der herkömmlichen Datenverwaltung und Analytics zusammenhängt. Da geht es Ihnen wie den meisten Ihrer Kollegen. In einer Umfrage unter knapp 1.000 Harvard Business Review-Lesern im Jahr 2013 gaben die meisten Befragten beispielsweise an, dass sie mit dem Big Data-Konzept vertraut sind, nur 28 % sagten jedoch aus, dass ihr Unternehmen „derzeit Big Data nutzt, um bessere Entscheidungen zu treffen oder neue Geschäftsmöglichkeiten zu schaffen”. Wiederum 23 % der Befragten gaben an, dass ihr Unternehmen eine Big Data-Strategie hat. Und nur ein kleiner Prozentsatz, nämlich 6 %, äußerten „starke Zustimmung“ zu der Aussage „Mein Unternehmen hat die Auswirkungen von Big Data auf unsere wichtigsten Abteilungen beurteilt.” Ein noch geringerer Prozentsatz (3,5 %) der Befragten bestätigten nachdrücklich: „Mein Unternehmen weiß, wie man Big Data auf unser Geschäft anwendet.”

Aus diesem Grund haben Sie wahrscheinlich zu diesem Buch gegriffen – um Ihrem Unternehmen zu helfen, diese Fragen zu beantworten, und vielleicht auch, um Ihre Karriere damit voranzutreiben. Nun, in diesem Fall sind Sie hier richtig!

Wie lässt sich der Begriff Big Data sinnvoll zerlegen?

Viele Führungskräfte, mit denen ich über diese Phänomen gesprochen habe, sind vom Big Data-Konzept begeistert. Ich auch – mit Ausnahme des Namens. Das Konzept ist revolutionär und bietet für fast alle Branchen Möglichkeiten zum Wandel. Der Begriff als solcher ist jedoch aus vielen Gründen problematisch.

Zunächst einmal stellt das Adjektiv big (also groß) nur ein Unterscheidungsmerkmal der neuen Datenformen dar. Und für viele Unternehmen ist es nicht die wichtigste Eigenschaft. Eine Umfrage von NewVantage Partners im Jahr 2012 unter mehr als 50 Top-Managern großer Unternehmen kommt zu dem Schluss, dass es für sie viel wichtiger ist, das Problem der fehlenden Datenstruktur anzugehen, als deren Größe. In dieser Umfrage gaben 30 % der Befragten an, 7dass sie sich deshalb mit Big Data beschäftigen, um Daten aus unterschiedlichen Quellen analysieren zu können, weitere 22 % konzentrierten sich hauptsächlich darauf, neue Datentypen zu erkennen, und 12 % richteten ihr Hauptaugenmerk darauf, Datenströme zu analysieren. Nur 28 % der Befragten dieser Studie untersuchten Datensätze von 1 Terabyte Größe oder mehr, und ein Teil (13 %) war auf Datensätze zwischen 1 und 100 Terabyte Größe ausgerichtet – keine großen Mengen in Big Data-Relationen.3

Zudem ist der Ausdruck big natürlich relativ – was heute als groß bezeichnet wird, ist morgen nicht mehr ganz so groß. Und was für das eine Unternehmen groß ist, kann für ein anderes klein sein. Unter big verstehe ich generell ein Zehntel Petabyte oder mehr, aber Größe ist hier nur wichtig im Kontext anzuschaffender Hardware, um die Daten speichern und verarbeiten zu können.

Manche Leute definieren Big Data auch als die drei V (volume, velocity und variety – Volumen, Geschwindigkeit und Vielfalt). Andere haben weitere V hinzugefügt (veracity, value – Wahrhaftigkeit und Wert), und vielleicht kommt ja der Begriff venality, also Bestechlichkeit, als nächstes hinzu, was jedoch problematisch wäre. Natürlich sind dies wichtige Eigenschaften, aber was ist, wenn nur ein oder zwei dieser Begriffe auf Ihr Unternehmen zutreffen? Bedeutet das dann, dass Sie nur ein Drittel oder zwei Fünftel von Big Data haben?

Ein anderes Problem ist, dass zu viele Leute, insbesondere Verkäufer, den Begriff Big Data bereits für Analytics oder in extremen Fällen sogar für Reporting (Berichtswesen) oder Business Intelligence (Analyse und Reporting von Unternehmensdaten) verwenden. Es ist kein unbekanntes Phänomen, dass Hersteller und Berater jeden neuen und angesagten Begriff für ihr bestehendes Angebot verwenden. Seien Sie deshalb vorsichtig, wenn Sie Bücher, Artikel oder Werbung über Big Data lesen. Beziehen sie sich dann auf Reporting, datenbasierte Entscheidungsfindung oder herkömmliche Analytics, dann erhalten Sie sicherlich nützliche und wertvolle Ideen, diese sind aber meistens nicht wirklich neu.

Aufgrund dieser Probleme mit der Definition sage ich (und andere Experten, mit denen ich gesprochen habe) diesem unglücklichen Begriff eine relativ kurze Lebensdauer voraus. Die Medien und junge 8Unternehmen haben sich diesen Begriff zu Eigen gemacht. Technologieunternehmen – insbesondere solche, die schon seit vielen Jahren mit großen Datenmengen umgehen wie Banken oder Verkehrsunternehmen – verwenden diesen Begriff nur widerwillig. In diesen Unternehmen hat man das Gefühl, dass die aktuelle Generation neuer Datenquellen und -arten nur eine von vielen früheren neuen Generationen sei. In Kapitel 8 gehe ich näher darauf ein. Natürlich bedeutet dies nicht, dass das „Phänomen, das als Big Data bekannt war” verschwinden wird. Wenn man das breite Spektrum an neuen und vielfältigen Datentypen beschreiben möchte, die im Laufe des letzten Jahrzehnts aufgetaucht sind, kann ich mir keinen besseren Sammelbegriff dafür als Big Data vorstellen.

Da er aber so unpräzise ist, müssen Unternehmen ihn etwas auseinandernehmen, um ihre Strategien verfeinern und allen Beteiligten signalisieren zu können, was sie wirklich mit diesen neuen Datentypen anfangen sollen und welche Arten die wichtigsten sind. Natürlich gibt es bei Big Data eine große Vielfalt, aus der sich der Anwender das Passende heraussuchen kann, wie Tabelle 1.2 zeigt.

Datenart

Datenquelle

Betroffene Branche

Betroffene Abteilung

Große Menge

Online

Finanzdienst-
leistungen

Marketing

Unstrukturiert

Video

Gesundheits-
wesen

Logistik

Durchgängiger Fluss

Sensor

Fertigung

Human Resources

Mehrere Formate

Genomisch

Reise/Verkehr

Finance

Tabelle 1.2: Die Möglichkeiten von Big Data

Statt zu sagen: „Wir starten eine Big Data-Initiative!” ist es konstruktiver zu sagen: „Wir analysieren die Videodaten unserer Geldautomaten und Filialen, um Kundenbeziehungen besser zu verstehen.” Im Gesundheitswesen könnten Sie beispielsweise formulieren, dass Sie elektronische Patientenakten und genomische Daten miteinander kombinieren möchten, um personalisierte Behandlungspläne für Patienten erstellen zu können. Neben der Klarheit über Ihre Zielsetzung und Strategien, werden durch diesen Ansatz zudem endlose Diskussionen darüber vermieden, ob die entsprechenden Datenmengen 9nun groß oder klein sind (tatsächlich geben nur wenige Unternehmen zu, mit „kleinen Datenmengen” zu arbeiten, obwohl dies durchaus respektabel ist – und ich habe gelernt, dass ein Begriff nur dann wirklich nützlich ist, wenn das Gegenteil davon ebenfalls gültig ist).

Natürlich können Sie einen Modebegriff auch zu Ihrem Vorteil nutzen. Wenn Ihr Unternehmen nur auf neue und glanzvolle Managementziele reagiert – und wenn Big Data immer noch recht neu und glanzvoll ist, wenn Sie dieses Buch gelesen haben –, dann starten Sie unbedingt ein Big Data-Projekt (kurz BDP). Anders ausgedrückt, wenn es also funktioniert, mit dem Begriff Big Data in Ihrem Unternehmen Energien zu mobilisieren und Begeisterung auszulösen, dann arbeiten Sie damit! Seien Sie dann aber auch bereit, sich auf den nächsten Modebegriff für diese Aktivitäten einzulassen, sobald dieser auftaucht. IBM betreibt bereits ein Forschungszentrum für „Massive Data” – schließlich kann ein Unternehmen, das über „gigantische” Datenmengen verfügt, nicht hinterherhinken!

Trotz meiner Bedenken werde ich den Begriff Big Data in diesem Buch weiterverwenden, weil es derzeit keinen anderen gibt, der diese Ansammlung von Attributen besser beschreibt. Ich bin aber davon überzeugt, dass man trotz der unglücklichen Bezeichnung einen echten Nutzen aus dieser wertvollen Ressource ziehen kann, wenn man einige Ebenen tiefer geht.

Wird Big Data auf Dauer bestehen?

Vielleicht können wir uns darauf einigen, dass Big Data ein unvorteilhafter Name ist. Aber hat Big Data auch Bestand oder ist es nur eine Modeerscheinung? Ist es der Hula Hoop-Reifen oder Pet Rock* des Informationsmanagements?

10Die Big Data-Idee enthält sicher verschiedene kurzlebige Elemente, besonders da das übergeordnete Konzept nicht besonders neu ist. Die Idee, Daten zu analysieren, um unseren geschäftlichen Aktivitäten einen Sinn zu verleihen, gibt es schon lange (UPS rief bereits 1954 eine Analytics-Gruppe ins Leben). Warum müssen wir also immer wieder neue Bezeichnungen dafür erfinden? Die Tätigkeit Daten zu analysieren, bezeichnete man früher als Decision Support (Entscheidungsunterstützung), Executive Support (Führungskräfteunterstützung), Online Analytical Processing (Analytische Onlineverarbeitung), Business Intelligence, Analytics und nun Big Data (siehe Tabelle 1.3).4 Sicherlich gibt es in jeder Generation der Terminologie neue Elemente, aber rechtfertigt das sechs Generationen an Begriffen?

Begriff

Zeitraum

Bedeutung

Decision Support

1970–1985

Datenanalyse zur Entscheidungsunterstutzung

Executive Support

1980–1990

Fokus auf Datenanalyse fur Entscheidungen von Fuhrungskräften

Online Analytical Processing (OLAP)

1990–2000

Software zur Analyse von mehrdimensionalen Datentabellen

Business Intelligence

1989–2005

Systeme zur Unterstutzung von datenbasierten Entscheidungen mit dem Schwerpunkt auf Reporting

Analytics

2005–2010

Fokus auf der statistischen und mathematischen Datenanalyse zur Entscheidungsfindung

Big Data

2010–heute

Fokus auf sehr große, unstrukturierte, schnelllebige Daten

Tabelle 1.3: Terminologie zur Verwendung und Analyse von Daten

Allein die neuen und umfangreicheren Datenformen rechtfertigen es schon, einen neuen Begriff dafür zu kreieren. Nach einer Schätzung werden jeden Tag weltweit etwa 2,5 Trillionen (das ist eine 2,5 mit 18 Nullen!) Byte Daten generiert.5 Und für wenig strukturierte Datentypen wäre es noch sinnvoller, einen neuen Begriff und Ansatz zu wählen. Manche Datentypen, wie Text oder Stimme, kennen wir schon sehr lange, aber ihre Menge im Internet und in anderen digitalen Formen läuten eine neue Ära ein, wie auch die neuen Technologien, mit denen sich diese Daten analysieren lassen.

11Social Media-Daten sind wirklich neu, von Facebook- und Pinterest-Seiten bis hin zu Tweets. Ich weiß nicht, ob all diese Datenformen Bestand haben werden. Das normale Muster muss in größere Anwendungen eingebunden sein, damit die Funktionen ausgeführt werden können. Die Daten, die von ihnen generiert werden, und die Einblicke, die sie über ihre Autoren gewähren, werden jedoch niemals verschwinden.

Generell haben Sensordaten jedoch Bestand. Seit 2011 übersteigt die Anzahl von vernetzten Geräten die Weltbevölkerung. Analysten schätzen, dass bis zum Jahr 2025 etwa 50 Milliarden Sensoren mit dem Internet verbunden sein werden („The Internet of Things”), wovon jeder eine Menge Daten generieren kann. Frühere Prognosen gingen davon aus, dass mit dem Internet verbundene Sensoren hauptsächlich von privaten Geräten genutzt würden. Diesbezüglich gab es aber bisher nur wenig Fortschritt. Unsere Kühlschränke werden in absehbarer Zeit wahrscheinlich nicht mit dem Internet verbunden sein, aber unsere Fernseher, Sicherheitssysteme und Thermostate sind zunehmend in Netzwerke eingebunden. Jedes dieser Geräte generiert Daten, mit denen Verwendung, Verbrauch und Dienstleistungen im Zusammenhang mit diesen Geräten optimiert werden können.

Roger Parks, CIO des US-amerikanischen Agrarunternehmens J.R. Simplot, beschreibt Experimente seines Unternehmens, Sensoren zum Messen der Körpertemperatur in Kuhmägen zu platzieren (Kühe haben vier Mägen, und aus irgendeinem Grund scheint der zweite Magen die optimale Stelle dafür zu sein). Wenn die Kuh krank ist, weiß der Tierarzt aufgrund des Sensors sofort, dass etwas mit der Kuh nicht in Ordnung (die „digitale Kuh“) ist, und er hat immer noch genügend Zeit, die Erkrankung zu behandeln. Andere Forscher experimentieren mit Sensoren, die E. coli-Bakterien in Kuhmägen nachweisen. Für die Kuh hoffe ich allerdings, dass bei all diesen Sensoren im Magen noch genügend Platz für Futter ist!

Menschen werden auch immer mehr „versensort” (eine Wortschöpfung von mir), meistens aus medizinischen und Fitness-Gründen. Wir befinden uns im Zeitalter der Autoanalytics, der Erfassung und Analyse persönlicher Fitness-, Produktivitäts- und Gesundheitsdaten.6 Die erste mir bekannte beliebte Anwendung zur Analyse 12von persönlichen Daten (sog. Personal Analytics) war die Nike+/iPod-Kombination, die 2006 auf den Markt kam. Der Nike+-Schuh konnte die Laufzeit, -entfernung und -geschwindigkeit sowie die verbrauchten Kalorien erfassen und anzeigen, wenn er mit einem iPod verbunden wurde. Mittlerweile haben Nike und Apple eine Vielzahl unterschiedlicher Systeme entwickelt, mit denen Sie die Daten Ihres Workouts erfassen können (Pulssensoren, Links zu Cardio-Fitnessgeräten, Kleidung mit integrierten Sensoren etc.), und die vielen Nike+-Anwender (Berichten zufolge mehr als fünf Millionen) laden ihre Daten häufig auf ihre Laptops und auf die Website von Nike+ hoch. Damit können sie ihre Laufleistungen im Auge behalten, Freunde herausfordern und Online-Coachings für eigene Trainingsprogramme erhalten.

Andere Produkte wie Garmin Connect ermöglichen es Sportlern beispielsweise, ihre Aktivitäten aufzuzeichnen, neue Routen zu planen und ihre sportlichen Erfolge mit anderen zu teilen. Zed9 verfolgt Social Fitness-Aktivitäten, CycleOps misst Ihre Fahrrad-Power und Concept2 zeichnet Rudertrainings auf.

Über den Sport hinaus erstrecken sich Personal Analytics zunehmend auf weitere Bereiche wie Gesundheit, Wohlstand, Arbeit und Zufriedenheit im Allgemeinen. Das Unternehmen Withings bietet beispielsweise eine Waage mit WiFi- und Twitter-Verbindung an und beschäftigt sich auch mit weiteren Verbindungen von Gesundheitsgeräten. Eine Vielzahl von Herstellern, wie MyZeo, WakeMate, BodyMedia und Fitbit, bieten Schlafanalysegeräte an (mein Fitbit hat mich neulich informiert, dass meine Schlafeffizienz 97 % beträgt – ich war begeistert!). Metrics, ein junges Start-up aus Michigan, hat ein Universalwerkzeug zur Messung und Überwachung von Personal Analytics für fast alle Lebensbereiche entwickelt (z. B. Gesundheit, Gemütsverfassung, Finanzen, Fitness, Onlineaktivitäten etc.).

Und damit nicht genug. Ihr Smartphone zeichnet Ihre Standorte, Gespräche und immer häufiger auch Ihre Einkäufe auf. Computer können fast jeden Aspekt unseres Arbeitslebens nachverfolgen, wie Stephen Wolfram, CEO von Wolfram Research, in seinem Buch erläutert.7 Er weiß beispielsweise, wann genau er jede seiner etwas 300.000 E-Mails seit 1989 verschickt hat! Sensoren überwachen unsere 13Haustiere, und vielleicht werden ja auch bald unsere Stimmungen und Gehirnströme erfasst und analysiert.

Der Großteil der Daten von Sensoren könnte jedoch eines Tages aus dem „industriellen Internet” kommen, d. h. von vernetzten Geräten in Fabriken, Verkehrsnetzwerken oder Energienetzen. General Electric sieht großes Potenzial in dieser Entwicklung, vor allem aufgrund der zu erwartenden Datenmengen. Das Unternehmen geht davon aus, dass bei der Überwachung von Gasschaufeln in energieerzeugenden Turbinen allein 588 Gigabyte Daten pro Tag generiert werden – sieben Mal so viel, wie Twitter täglich produziert.

Die umfangreichen Quellen sprechen also für eine Auseinandersetzung mit Big Data, auch wenn manchmal altbekannten Produkten einfach ein neues Etikett, in diesem Fall das Big Data-Etikett, verpasst wird. Unter dem Strich hat es grundlegende Veränderungen in der Struktur von Unternehmenssoftware gegeben. Wir bewegen uns weg von der Automatisierung von Transaktionen hin zur Analyse der Daten, die sie erzeugen. Wenn man bedenkt, dass SAP mehr Geld mit Business Intelligence und Analytics als mit seiner transaktionsorientierten Anwendungssuite verdient, wird klar, dass hier ein bedeutender Wandel stattgefunden hat. Wenn Firmen wie HP, EMC und Oracle größere Akquisitionen und Produktankündigungen im Bereich Big Data und Analytics tätigen, dann ist etwas Neues im Gange. Wenn IBM fast 20 Milliarden USD in Akquisitionen im Bereich Analytics investiert, dann zieht das Veränderungen nach sich. Selbst Microsoft – das Unternehmen, das gegründet wurde, um kleine Datenmengen auf PCs zu verwalten – hat einige Ankündigungen im Zusammenhang mit Big Data gemacht. Im Verlauf des Buches (hauptsächlich in Kapitel 5) werde ich Ihnen noch mehr über Big Data-Technologien erzählen. Und, was meinen Sie jetzt? Wie hoch schätzen Sie die Wahrscheinlichkeit, dass das Big-Data-Konzept wieder von der Bildfläche verschwindet, wenn so viele große Anbieter bei Big Data Schlange stehen?

Mehr Daten, mehr Technologie – was braucht man sonst, damit Big Data nicht nur ein Strohfeuer bleibt? Es sind die Menschen, die Big Data mit Leben füllen. Die Rolle des Datenwissenschaftlers, auf die ich recht ausführlich in Kapitel 4 eingehen werde, ist meiner Meinung nach der Hauptfaktor, ob Big Data in einem Unternehmen 14erfolgreich sein wird oder nicht. Daten sind oft kostenlos oder zumindest preiswert zu haben, Hard- und Software sind ebenfalls erschwinglich, aber geeignete Mitarbeiter sind teuer und schwer zu finden – zumindest noch. Meiner Meinung nach wird sich das Personalproblem in Zukunft abschwächen. Viele Universitäten bieten Studiengänge in Business Intelligence oder Analytics an, einige von ihnen haben mittlerweile Big Data-Themen in ihre Lehrpläne integriert. Es wird also nicht mehr lange dauern, bis Universitäten genügend qualifizierte Studenten hervorbringen werden. Das wird Big Data-Projekte in Unternehmen erleichtern und verhindern, dass es zum Arbeitskräftemangel kommt und die Big Data-Bewegung ins Stocken gerät.

All diese Indikatoren deuten darauf hin, dass Big Data und die damit verbundenen Konzepte und Technologien nicht verblassen, sondern uns viele Jahrzehnte lang begleiten werden – natürlich nur dann, wenn es den Unternehmen auch weiterhin wichtig ist, Geld zu sparen, mehr Produkte und Dienstleistungen zu verkaufen oder Kunden zufriedenzustellen. Und damit ist wohl zu rechnen!

Was ist neu aus Sicht des Managements?

In Kapitel 5 beschreibe ich das Neue der Big Data-Technologie. Wie so oft stellt eine neue Technologie zwar eine Herausforderung dar, die wirklich kritischen Faktoren sind jedoch das Management und die Menschen. Manche Probleme sind so neu, dass es noch keine Antworten darauf gibt, bei anderen haben wir bereits eine Vorstellung davon, wo die Lösung liegen könnte.

Eines dieser Probleme habe ich bereits angesprochen, nämlich geeignete Mitarbeiter für Big Data-Projekte zu finden. Dass wir auch geeignete Mitarbeiter für analytische Tätigkeiten benötigen, ist nicht neu. Aber die Art von Mitarbeitern, die wir für Big Data-Initiativen benötigen – nämlich Datenwissenschaftler (Data Scientists) –, unterscheidet sich von herkömmlichen Analysten. Sie gehen mühelos mit Daten um, sind experimentierfreudiger und produktorientierter. In Kapitel 4 werde ich Ihnen dies noch genauer erläutern.

15Aufgrund der Tatsache, dass sich Daten, Technologie und Menschen in diesem Bereich von traditionellen Analyselösungen unterscheiden, müssen wir für Big Data gewisse Änderungen an den Organisationsstrukturen vornehmen. Es reicht nicht aus, Big Data einfach in die IT-Organisation zu integrieren. In großen Organisationen findet man Big Data-Teams in den Abteilungen Marketing, Finance, Produktentwicklung, Unternehmensstrategie und IT. In Kapitel 3 werde ich Ihnen mehr darüber erzählen, wo Sie diese Gruppen am besten eingliedern.

Die Unterstützung interner Unternehmensentscheidungen war das Hauptziel des traditionellen Informationsmanagements und seiner Analyselösungen. In dieser Hinsicht ist Big Data etwas anders. Statt Berichte oder Präsentationen zu erstellen, die Führungskräften als Basis für interne Entscheidungen dienen, arbeiten Datenwissenschaftler eher an kundenspezifischen Produkten und Dienstleistungen. Dies gilt insbesondere für Big Data-Start-ups, aber auch für größere, etablierte Unternehmen. So hat Reid Hoffman, Mitbegründer und Chairman von LinkedIn, seine Datenwissenschaftler als Produktteam im Unternehmen organisiert. Sie haben Funktionen entwickelt wie People You May Know, Groups You May Like, Jobs You May Be Interested In oder Who’s Viewed My Profile. General Electric verwendet Big Data hauptsächlich zur Verbesserung seiner Dienstleistungen und optimiert seine Serviceverträge und Wartungsintervalle für Industrieprodukte mithilfe von Erkenntnissen aus der Datenwissenschaft. Und natürlich arbeitet Google – das Big Data-Unternehmen schlechthin – mit Datenwissenschaftlern, um seine universelle Suche und die AdServing-Algorithmen zu verfeinern. Bei Zynga richten Datenwissenschaftler Spiele und spielbezogene Produkte individuell auf die Kunden des Unternehmens aus. Netflix hat den Netflix-Preis für das Team von Datenwissenschaftlern ins Leben gerufen, das es schafft, den aktuellen Algorithmus für Kundenempfehlungen zu verbessern. Das Prüfunternehmen Kaplan entwickelt derzeit mit seinen Datenwissenschaftlern ein Beratungssystem für seine Kunden zum effektiven Lernen und zur Prüfungsvorbereitung. Die Big Data-Aktivitäten dieser Unternehmen sind direkt auf Produkte, Dienstleistungen und Kunden abgestimmt. Das hat natürlich erhebliche Auswirkungen auf den organisatorischen Status 16von Big Data sowie auf die Prozesse und die Geschwindigkeit neuer Produktentwicklungen.

Um Big Data für traditionelle interne Entscheidungsprozesse zu nutzen, werden noch neue Managementkonzepte benötigt. Der Grund hierfür ist, dass Big Data ständig fließt. Bei der traditionellen Entscheidungsunterstützung erfasst der Analyst Daten in einem Datenpool, analysiert sie, entwickelt ein Modell und berät den Entscheider anhand der ermittelten Ergebnisse. Bei Big Data ähneln die Daten jedoch weniger einem Pool, sondern eher einem reißenden Strom. Aus diesem Grund wird ein Ansatz zur kontinuierlichen Stichprobenerfassung, Analyse und Bearbeitung von Daten benötigt.

Dies wird besonders deutlich bei Anwendungen mit laufender Datenüberwachung, z.B. bei der Social Media-Sentimentanalyse (Stimmungsanalyse). Mithilfe der Sentimentanalyse kann ein Unternehmen beurteilen, ob Kommentare über seine Marken und Produkte in Blogs, Tweets und auf Facebook-Seiten insgesamt eher positiv oder negativ ausfallen. Ein mögliches Problem dieser Form der Datenüberwachung ist, dass Manager eher einem fortlaufenden Analyse- oder Berichtsfluss folgen, ohne Entscheidungen zu treffen oder Maßnahmen zu ergreifen. „Die Stimmung ist gut … Nein, sie ist schlecht … Hurra, sie ist wieder gut!” Bei fortlaufenden Überwachungsaktivitäten sollten daher Prozesse definiert werden, wann bestimmte Entscheidungen und Maßnahmen zu treffen sind oder wann Datenwerte außerhalb der Grenzwerte liegen. Diese Informationen helfen Entscheidern, Prozesse sowie Kriterien und Fristen für die Entscheidungen festzulegen.

Selbst die UNO – eine Organisation, die normalerweise nicht für ihre Agilität bekannt ist – findet langsam Gefallen an dieser neuen Art, Entscheidungen zu treffen. Das Global Pulse-Innovationslabor der Vereinten Nationen hat ein Big Data-Tool mit der Bezeichnung HunchWorks, einer überwachungsorientierten Big Data-Anwendung, entwickelt. Man beschreibt sich selbst als das „weltweit erste soziale Netzwerk zur Hypothesenbildung, Evidenzsammlung und kollektiven Entscheidungsfindung.”8 Dahinter steht der Gedanke, dass ein Analyst, sobald Daten auf einen Trend oder eine neue Erkenntnis hinweisen (z. B. Wetterdaten sagen eine Dürre voraus, die in einem Teil Afrikas zu einer Hungersnot führen könnte) – diese Vermutung 17(den sog. Hunch) und die entsprechenden Daten postet, auf denen diese Vorhersage basiert, und Andere sich mit neuen Analysen und Daten dazu äußern können. Diese suggestiven Hypothesen bezeichnet man auch als „digitale Rauchzeichen”.9 Ein Ziel ist es herauszufinden, inwiefern konkrete Analysen und Maßnahmen auf der Basis dieser Vermutung sinnvoll sind. Die Tatsache, dass die Vereinten Nationen ein System zur Verbreitung von datengesteuerten Vermutungen eingeführt hat, ist eine grundlegende Veränderung in der Unternehmenskultur dieser Organisation.

Unabhängig davon, ob Analyse- und Entscheidungsprozesse gesellschaftlicher oder individueller Natur sind, sollten Unternehmen aufgrund des kontinuierlichen Datenflusses von Big Data neue Wege finden, um Entscheidungen auf Basis dieser Ressource treffen zu können. Wenn es sich lohnt, in die Erfassung und Analyse von Big Data zu investieren, dann lohnt es sich auch darüber nachzudenken, inwieweit die Ergebnisse der Analyse Auswirkungen auf Entscheidungen und Maßnahmen innerhalb des Unternehmens haben.

Neue Managementausrichtung durch Big Data