|
Die insbesondere in der Open-Source-Entwicklung bedeutungsschwere
Version 1.0 des Frameworks zur Echtzeitdatenanalyse Apache Spark
wurde von der Apache
Software Foundation bekanntgegeben. Das AMPLab der University
of California in Berkeley, wo das Framework 2009 erschien, bevor
es 2010 zum Open-Source-Projekt wurde ist ursprünglicher Entwickler
von Spark. Schon im Februar diesen Jahres, nachdem es im Juni 2013
in die Apache Software Foundation eingebracht worden war, war es
zum Top-Level-Projekt der Open-Source-Organisation aufgestiegen.
Die APIs von Apache Spark werden nun als stabil angesehen. Die
Programmierschnittstellen in der Entwicklung weiterer 1.x-Releases
sollen sich somit rückwärtskompatibel verhalten. Außerdem
will die aktuelle Version von Spark mit einer besseren Integration
mit anderen Apache-Projekten wie Hive, Mesos und Hadoop YARN und
einer neuen SQL-Komponente für den Zugriff auf strukturierte
Daten punkten. Schließlich verfügt die MLLib-Komponente
über mehr Algorithmen. Die mit Java 8 eingeführten Lambda-Funktionen
werden ebenfalls unterstützt.
Vorrangig wird das, in den Programmiersprachen Python,
Java und Scala geschriebene, Framework im Umfeld von HDFS- oder
NFS-Installationen (Hadoop File System/Network File System) eingesetzt.
Durch das ihm zugrunde liegende In-Memory-Modell wird ihm nachgesagt,
Daten deutlich schneller abfragen und analysieren zu können
als Hadoops MapReduce-Implementierung. Von 100-mal schnelleren Programmen
ist hier in der Pressemeldung zur Version 1.0 die Rede.
Die NASA, IBM,
Yahoo, Intel und Alibaba sind große Organisationen, die das
Framework bereits einsetzen. Seit kurzem haben mit MapR und Cloudera
auch zwei bekannte Hadoop-Distributoren Spark integriert. Mittlerweile
gibt es außerdem etliche Integrationen mit Datenbanken wie
Cassandra und HBase und anderen Big-Data-Techniken.
(mt, hannover)
(siehe auch Heise-News-Ticker
:)
Hannover · EDV-Beratung ·
Linux · Novell · Microsoft · Seminar ·
IT-Consult · Netzwerk · LPIC · CLE
|