Was ist Big Data eigentlich?

Big Data ist inzwischen in aller Munde. Auch immer mehr Startups setzen auf das Analysieren und Auswerten von gesammelten Daten. Damit auch du über die Basics Bescheid weißt und mitreden kannst, habe ich hier die wichtigsten Begriffe in einem kurzen Big Data Guide erklärt.

Die Menge der Daten, die weltweit gesammelt werden, wächst exponentiell. Laut den Angaben von IBS, wurden alleine bis zum Jahr 2003 insgesamt 5 Exabyte (1 Exabyte = 1 Mrd. Gigabyte) Daten kumuliert. 2008 waren es bereits 0,18 Zettabyte (1 Zettabyte = 1024 Exabyte) und zum Jahr 2013 wurden weltweit 4,4 Zetabyte gesammelt.

Im Mai 2015 betrug die globale Datenmenge mehr als 6,5 Zettabyte, d.h. bis 2020 wird die Menschheit mehr als 40 Zettabyte an digitalisierten Informationen generieren und sammeln. Wird man das beherrschen, d.h. sinnvoll auswerten und verarbeiten können?

Wie die Berechnungen von IBS zeigen, konnten lediglich 1,5% der Daten, die bis 2013 gesammelt wurden, zweckmäßig ausgewertet werden. Wir brauchen demnach dringend gute Big-Data-Technologien und -Lösungen, um auch einen Nutzen aus diesen Daten ziehen zu können.

Big Data ist …

Als Big Data (engl. „große Daten“) werden große Mengen an inhomogenen und schnell wachsenden, digitalen Informationen bezeichnet, die man mit traditionellen Tools nicht verarbeiten kann. Im weitesten Sinne versteht man unter Big Data auch die Werkzeuge, die für die Analyse dieser Daten genutzt werden.

Der Begriff Big Data selbst tauchte zum ersten Mal im Bericht Big data: How do your data grow? des Nature-Journalisten Clifford Lynch auf. Spezialisten sprechend allerdings erst ab einem Datenfluss von 100 Gigabyte pro Tag von Big Data.

Die Analyse solcher Daten erlaubt es uns heute, verborgene Gesetzmäßigkeiten zu entdecken, die ohne die entsprechende Technologie der begrenzten menschlichen Wahrnehmung verborgen bleiben würden. Und das wiederum eröffnet immer mehr Möglichkeiten unser Leben und unseren Alltag zu optimieren, ob das nun im Bereich der Medizin, des Finanzwesens, der Telekommunikation, der Produktion oder des Transports ist.

Leider wird der Begriff immer mehr zum Buzzword – Journalisten wie Unternehmen benutzen ihn hier und da, sodass die ursprüngliche, strenge Definition nicht mehr gültig ist und man nie genau weiß, was gemeint ist. Es gibt sogar Experten, die inzwischen vorschlagen, auf den Begriff Big Data komplett zu verzichten.

Big Data – Definition #1: Data Lake

Unter data lake (engl. See) versteht man den Ort, an dem man die großen Datenmengen in ihrere rohen Form sammelt bzw. speichert. Im „Daten-See“ liegen die digitalen Informationen aus unterschiedlichen Quellen und in diversen Formaten vor. Zu diesen Daten haben in der Regel mehrere Personen Zugang.

Big Data – Definition #2: Data Science

Data Science oder die „Wissenschaft von Daten“ ist eine Disziplin, die sich den Problemen der Analyse, Verarbeitung und der Aufbereitung von Big Data widmet. Der Begriff wurde 1974 vom dänischen Informatiker Peter Naur eingeführt und wird spätesten ab 2010 immer öfter auch außerhalb der akademischen Welt verwendet.

Dank der Popularisierung von Big Data, ist auch Data Science zu einem lukrativen Business geworden. Data Scientist gehört zu den gefragtesten und am besten bezahlten Berufen. Unter Data Science fallen alle Methoden zur Verarbeitung von digitalen Informationen und zur Erstellung von dazugehörigen Datenbanken. Viele Spezialisten sind der Meinung, dass dieser Begriff den Tätigkeitsbereich und die Marktnische adäquater beschreibt als der übliche Ausdruck Big Data.

Big Data – Definition #3: Data Mining

Unter Data Mining versteht man das „Graben“ nach wertvollen Gesetzmäßigkeiten in Big Data. Es geht also um die (zum Teil mühevolle) intellektuelle Analyse der digitalen Inhalte und das Ableiten von Regeln und Aussagen. Auch diesen Fachbegriff gibt es schon länger, seine Einführung wird dem israelischen Mathematiker Ilja Josifowitsch Pjatetskij-Shapiro zugeschrieben.

  Facebook gibt App-Entwicklern eigenes Analyse-Tool an die Hand

Auch hier wird der Begriff gerne sowohl für die Technologie als auch für den Prozess der Verarbeitung und des Schlussfolgerns verwendet. Zu den Data Minig – Methoden und Tools zählen Datenbanken, statistische Auswertungen und die Ansätze der künstlichen Intelligenz.

Big Data – Definition #4: Machine Learning

Unter Machine Learning (Maschinelles Lernen) versteht man sowohl die theoretische als auch die praktische Entwicklung von Programmen der künstlichen Intelligenz (KI), d.h. von Algorithmen, die selbst lernen können. Hierbei bringen Programmierer den KI-Algorithmen bei, Gesetzmäßigkeiten in Big Data ausfindig zu machen. Mit Hilfe von Sonderfällen lernt das Programm nach und nach, bestimmte Entscheidungen zu treffen und folgt nicht stupide konkreten, vorher festgelegten Anweisungen. Viele der hier eingesetzten Methoden kommen aus dem Data Mining.

Das erste KI-Programm war das vom amerikanischen Informatiker Arthur L. Samuel 1959 entwickelte Dame-Spiel.

Big Data – Definition #5: Neuronale Netze

Unter einem künstlichen neuronalen Netz versteht man ein System aus einfachen Prozessoren (künstliche Neuronen), die das menschliche Nervensystem nachahmen. Dank einer solchen Struktur befolgen die neuronalen Netze nicht einfach Befehle, sondern sind in der Lage zu lernen. Ähnlich, wie das in unseren Neuronen passiert, empfangen die einzelnen Prozessoren Signale und leiten diese weiter. In ihrer Gesamtheit können solche Netzwerke komplexe Aufgaben lösen, an denen sich traditionelle Algorithmen die Zähne ausbeißen würden.

Das Konzept der künstlichen neuronalen Netze selbst wurde von den amerikanischen Wissenschaftlern Walter Pitts und Warren Sturgis McCulloch eingeführt. Heute werden neuronale Netze eingesetzt, um Muster zu erkennen, Objekte zu klassifizieren, Prognosen zu machen, Daten zu komprimieren und andere praktische Aufgaben zu lösen.

Big Data – Definition #6: Deep Learning

Deep Learning ist sehr verwandt mit Machine Learning, ist hierarchisch jedoch höher angesiedelt, was bedeutet, dass die Deep Learning Algorithmen deutlich komplexer und autonomer sind.

Beim maschinellen Lernen lernen die Programme mit Hilfe von extern gesteuerten Erfahrungen: der Programmierer trainiert den Algorithmus mit Beispielen und korrigiert manuell die gemachten Fehler. Mit Deep Learning sieht die Sache etwas anders aus: der Algorithmus erstellt selbstständig seine Funktionen, macht Multi-Level-Berechnungen und leitete eigenständig Schlussfolgerungen über die Welt ab.

Deep Learning kommt ebenso im Bereich der künstlichen neuronalen Netze zum Einsatz, d.h. bei der Modellierung von echten neuronalen Netzen. Zu den aktuellen Beispielen zählen vor allem die Bilderkennung, die Spracherkennung, Neural Machine Translation (Übersetzung). Hier forschen und entwickeln derzeit auch Google, Facebook und Co.. ihre neusten Services. Es wird deutlich, dass die IT der Zukunft ohne Deep Learning kaum vorstellbar ist.

Wann der Begriff Deep Learning genau das Licht der Welt erblickt hat, ist nicht bekannt. Populär wurde er 2007, nachdem der kanadische Wissenschaftler Geoffrey Hinton den Deep Learning Algorithmus für mehrschichtige neuronale Netze entwickelt hat.

Big Data – Definition #7: Business Intelligence

Jetz kommen wir zum Business: Business Intelligence oder BI beschreibt die Suche nach optimalen Business-Lösungen anhand von Big Data. Effektive Business Intelligence Tools analysieren interne und externe Daten (z.B. Kunden-Daten und Marktinformationen) und liefern ein vollständigeres Bild über den aktuellen Zustand des Unternehmens. Daraus lassen sich im zweiten Schritt sowohl operative als auch strategische Entscheidungen treffen (z.B. den optimalen Preis für ein Produkt wählen oder die Prioritäten der Entwicklung im Unternehmen festlegen). Der Begriff Business Intelligence existiert seit 1958. Er tauchte damals in einem IBM-Artikel des Forschers Hans Peter Luhn auf.

So, das waren sie, die grundlegenden Begriffe aus dem Bereich Big Data. Ergänzungen können gerne in den Kommentaren hinterlassen werden.

Anzeige









0 Kommentare

Dein Kommentar

Want to join the discussion?
Feel free to contribute!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.