Big Data
Kapitel 1: Ein neues Paradigma für Big Data
In diesem Kapitel geht es um folgende Themen:
Typische Probleme bei der Skalierung herkömmlicher Datenbanken
NoSQL ist kein Allheilmittel
Big-Data-Systeme: Grundlagen
Verfügbare Big-Data-Tools
Kurz vorgestellt: SuperWebAnalytics.com
Im vergangenen Jahrzehnt ist das allgemeine Datenaufkommen explosionsartig gestiegen. In jeder einzelnen Sekunde werden mehr als 30.000 Gigabyte neue Daten generiert - und die Erzeugungsrate nimmt weiter zu.
Und dabei geht es um die unterschiedlichsten Dinge: Anwender erstellen Inhalte wie Blogbeiträge, Tweets, Posts in sozialen Netzwerken oder Fotos. Und alle ihre Aktivitäten werden unaufhörlich von Servern protokolliert. Wissenschaftler nehmen detaillierte Messungen in und an unserer Umwelt vor. Das Internet, letztlich die entscheidende Datenquelle, ist nahezu unvorstellbar groß.
Dieser erstaunliche Anstieg an Datenvolumen hat tiefgreifende Auswirkungen auf die Geschäftswelt. Gängige Datenhaltungssysteme wie relationale Datenbanken sind ausgereizt, sie brechen in zunehmender Zahl unter der Last der "Big Data" zusammen. Die herkömmlichen Systeme und dazugehörigen Verfahren zur Datenhaltung sind ihnen einfach nicht gewachsen.
Um den mit Big Data einhergehenden Herausforderungen begegnen zu können, wurden verschiedene neue Technologien entwickelt. Viele davon sind unter dem Begriff NoSQL zusammengefasst. In mancher Hinsicht sind diese Technologien komplexer als herkömmliche Datenbanken, in anderer Hinsicht fallen sie hingegen einfacher aus. Derartige Systeme sind für weitaus größere Datenmengen als üblich geeignet, allerdings sind für die wirklich effiziente Nutzung dieser Technologien auch grundlegend neue Vorgehensweisen erforderlich, denn es handelt sich hierbei nicht um Standardlösungen, die für Datenvolumen jeglicher Größe zu gebrauchen sind.
Bei vielen Big-Data-Systemen hat Google Pionierarbeit geleistet. Dazu gehören etwa verteilte Dateisysteme, das MapReduce-Framework für parallele Berechnungen und Locking Services für verteilte Systeme wie Chubby. Ein weiterer erwähnenswerter Pionier auf diesem Gebiet ist auch Amazon. Dort wurde eine innovative Schlüssel-Werte-Datenbank (engl. Key/Value Store ) für verteilte Systeme namens Dynamo entwickelt. Die Open-Source-Community brachte daraufhin in den folgenden Jahren Projekte wie Hadoop, HBase, MongoDB, Cassandra, RabbitMQ und viele andere hervor.
In diesem Buch geht es nicht nur um Skalierbarkeit, sondern auch um Komplexität. Um die mit Big Data verbundenen Herausforderungen anzunehmen, müssen wir das Konzept der Datenhaltungssysteme von Grund auf neu überdenken. Sie werden feststellen, dass einige der grundlegenden Methoden, die bei der Verwaltung herkömmlicher Systeme wie RDBMS Anwendung finden, für Big-Data-Systeme zu komplex sind. Ein einfacherer alternativer Ansatz ist das neue Paradigma für Big Data, das Sie in den nachfolgenden Kapiteln ergründen werden. Wir haben diesen Ansatz Lambda-Architektur getauft.
In diesem ersten Kapitel erfahren Sie, worum es beim "Big-Data-Problem" eigentlich geht und warum für Big Data ein neues Paradigma erforderlich ist. Sie werden einige der in traditionellen Skalierungsverfahren lauernden Gefahren kennenlernen sowie verschiedene tiefgreifende Schwachstellen bei der Errichtung herkömmlicher Datenhaltungssysteme aufdecken. Ausgehend von den Grundlagen solcher Systeme werden wir gemeinsam eine neue Vorgehensweise für deren Einrichtung erarbeiten, die auf die Komplexität der bislang üblicherweise verwendeten Techniken verzichtet. Sie werden sehen, inwiefern jüngste Technologietrends den Einsatz neuer Systeme begünstigen und schließlich ein Beispiel für ein Big-Dat