text.skipToContent text.skipToNavigation

Big Data Entwicklung und Programmierung von Systemen für große Datenmengen und Einsatz der Lambda-Architektur von Marz, Nathan (eBook)

  • Erscheinungsdatum: 28.09.2016
  • Verlag: MITP Verlags GmbH & Co. KG
eBook (ePUB)
33,99 €
inkl. gesetzl. MwSt.
Sofort per Download lieferbar

Online verfügbar

Big Data

Einführung in Big-Data-Systeme Echtzeitverarbeitung sehr großer Datenmengen Tools wie Hadoop, Cassandra und Storm Bei Anwendungen in der Größenordnung von sozialen Netzwerken, der Datenverkehrsanalyse in Echtzeit oder E-Commerce-Websites entstehen sehr schnell so große Datenmengen, dass herkömmliche Datenbanksysteme ihnen nicht mehr gewachsen sind. Solche Anwendungen erfordern Architekturen, die dafür ausgelegt sind, Datenmengen nahezu beliebigen Umfangs zu speichern und zu verarbeiten. Dieses Buch erklärt die Einrichtung solcher Datenhaltungssysteme anhand einer speziell für große Datenmengen ausgelegten Architektur. Der Autor erläutert die Theorie von Big-Data-Systemen und zeigt, wie der Leser dies in die Praxis umsetzen kann. Darüber hinaus werden Technologien wie Hadoop, Storm und NoSQL-Datenbanken eingeführt.

Nathan Marz ist der Erfinder von Apache Storm und der Lambda-Architektur für Big-Data-Systeme. James Warren befasst sich mit Datenanalysen und kennt sich bestens mit algorithmischem Lernen und wissenschaftlichem Rechnen aus.

Produktinformationen

    Format: ePUB
    Kopierschutz: watermark
    Seitenzahl: 352
    Erscheinungsdatum: 28.09.2016
    Sprache: Deutsch
    ISBN: 9783958451773
    Verlag: MITP Verlags GmbH & Co. KG
    Größe: 6951kBytes
Weiterlesen weniger lesen

Big Data

Kapitel 1: Ein neues Paradigma für Big Data

In diesem Kapitel geht es um folgende Themen:

Typische Probleme bei der Skalierung herkömmlicher Datenbanken

NoSQL ist kein Allheilmittel

Big-Data-Systeme: Grundlagen

Verfügbare Big-Data-Tools

Kurz vorgestellt: SuperWebAnalytics.com

Im vergangenen Jahrzehnt ist das allgemeine Datenaufkommen explosionsartig gestiegen. In jeder einzelnen Sekunde werden mehr als 30.000 Gigabyte neue Daten generiert - und die Erzeugungsrate nimmt weiter zu.

Und dabei geht es um die unterschiedlichsten Dinge: Anwender erstellen Inhalte wie Blogbeiträge, Tweets, Posts in sozialen Netzwerken oder Fotos. Und alle ihre Aktivitäten werden unaufhörlich von Servern protokolliert. Wissenschaftler nehmen detaillierte Messungen in und an unserer Umwelt vor. Das Internet, letztlich die entscheidende Datenquelle, ist nahezu unvorstellbar groß.

Dieser erstaunliche Anstieg an Datenvolumen hat tiefgreifende Auswirkungen auf die Geschäftswelt. Gängige Datenhaltungssysteme wie relationale Datenbanken sind ausgereizt, sie brechen in zunehmender Zahl unter der Last der "Big Data" zusammen. Die herkömmlichen Systeme und dazugehörigen Verfahren zur Datenhaltung sind ihnen einfach nicht gewachsen.

Um den mit Big Data einhergehenden Herausforderungen begegnen zu können, wurden verschiedene neue Technologien entwickelt. Viele davon sind unter dem Begriff NoSQL zusammengefasst. In mancher Hinsicht sind diese Technologien komplexer als herkömmliche Datenbanken, in anderer Hinsicht fallen sie hingegen einfacher aus. Derartige Systeme sind für weitaus größere Datenmengen als üblich geeignet, allerdings sind für die wirklich effiziente Nutzung dieser Technologien auch grundlegend neue Vorgehensweisen erforderlich, denn es handelt sich hierbei nicht um Standardlösungen, die für Datenvolumen jeglicher Größe zu gebrauchen sind.

Bei vielen Big-Data-Systemen hat Google Pionierarbeit geleistet. Dazu gehören etwa verteilte Dateisysteme, das MapReduce-Framework für parallele Berechnungen und Locking Services für verteilte Systeme wie Chubby. Ein weiterer erwähnenswerter Pionier auf diesem Gebiet ist auch Amazon. Dort wurde eine innovative Schlüssel-Werte-Datenbank (engl. Key/Value Store ) für verteilte Systeme namens Dynamo entwickelt. Die Open-Source-Community brachte daraufhin in den folgenden Jahren Projekte wie Hadoop, HBase, MongoDB, Cassandra, RabbitMQ und viele andere hervor.

In diesem Buch geht es nicht nur um Skalierbarkeit, sondern auch um Komplexität. Um die mit Big Data verbundenen Herausforderungen anzunehmen, müssen wir das Konzept der Datenhaltungssysteme von Grund auf neu überdenken. Sie werden feststellen, dass einige der grundlegenden Methoden, die bei der Verwaltung herkömmlicher Systeme wie RDBMS Anwendung finden, für Big-Data-Systeme zu komplex sind. Ein einfacherer alternativer Ansatz ist das neue Paradigma für Big Data, das Sie in den nachfolgenden Kapiteln ergründen werden. Wir haben diesen Ansatz Lambda-Architektur getauft.

In diesem ersten Kapitel erfahren Sie, worum es beim "Big-Data-Problem" eigentlich geht und warum für Big Data ein neues Paradigma erforderlich ist. Sie werden einige der in traditionellen Skalierungsverfahren lauernden Gefahren kennenlernen sowie verschiedene tiefgreifende Schwachstellen bei der Errichtung herkömmlicher Datenhaltungssysteme aufdecken. Ausgehend von den Grundlagen solcher Systeme werden wir gemeinsam eine neue Vorgehensweise für deren Einrichtung erarbeiten, die auf die Komplexität der bislang üblicherweise verwendeten Techniken verzichtet. Sie werden sehen, inwiefern jüngste Technologietrends den Einsatz neuer Systeme begünstigen und schließlich ein Beispiel für ein Big-Dat

Weiterlesen weniger lesen

Kundenbewertungen

    ALDI life eBooks: Die perfekte App zum Lesen von eBooks.

    Hier finden Sie alle Ihre eBooks und viele praktische Lesefunktionen.