Apache Parquet – CSV meets BigData

Im Juli bringt uns Sebastian das Open-Source-Projekt "Parquet" (http://parquet.apache.org/­) näher, das ein universelles Dateiformat mit spaltenweiser Datenhaltung definiert. Die spaltenweise Datenkompression und -kodierung spart Speicherplatz und erlaubt die effiziente Verarbeitung durch analytische Workloads (z.B. SQL). Bibliotheken zum Lesen und Schreiben von Parquet-Dateien stehen für viele P

Jul 11, 2018, 5:00 – 7:00 PM

RSVP'd

Key Themes

About this event

Im Juli bringt uns Sebastian das Open-Source-Projekt "Parquet" (http://parquet.apache.org/­) näher, das ein universelles Dateiformat mit spaltenweiser Datenhaltung definiert.

Die spaltenweise Datenkompression und -kodierung spart Speicherplatz und erlaubt die effiziente Verarbeitung durch analytische Workloads (z.B. SQL). Bibliotheken zum Lesen und Schreiben von Parquet-Dateien stehen für viele Programmiersprachen (C++, Java, Python, PHP, usw.) zur Verfügung. Auch zahlreiche Big-Data-Frameworks (z.B. MapReduce, Spark, Hive) unterstützen Parquet. Obwohl ursprünglich für das Hadoop-Ökosystem entwickelt -- aufgrund der stabilen Spezifikation und universellen API erscheint Parquet als gute Alternative zu XML, CSV oder JSON, wenn es um das Speichern von größeren Datenmengen geht.

Nach dem Vortrag ist wie gewohnt genügend Zeit sich über das Thema oder etwas Anderes auszutauschen.

Wir freuen uns über rege Teilnahme und Vorschläge für kommende Vorträge.

Organizers

  • Martin Liersch

    GDG Organizer

  • Robert Jacob

    GDG Organizer

Contact Us