|
Das soziale Netz Pinterest kündigte auf Facebooks @Scale-Konferenz
an, sein Tool Terrapin als Open-Source-Software reizugeben. Die
Pinterest-Entwickler nutzten für Datenbankanfragen ursprünglich
das zu Hadoop gehörige HBase. Es stieß aber laut
einem Blogbeitrag bei Datensätzen im dreistelligen Gigabytebereich
an seine Grenzen und war bei größeren Datenmengen zu
langsam. Zwar löste die Bulk-Upload-Funktion von Hadoop die
anfänglichen Probleme, durch die Verteilung der Daten auf ein
Cluster führte sie aber zu erhöhten Latenzen beim Zugriff.
Pinterest nutzt das Hadoop-eigene Dateisystem HDFS und das HFile-Format
von HBase und erfindet das Rad nicht. Dabei behält Terrapin
aber stets, um Datenlokalität zu gewährleisten, den Speicherort
der Daten im Blick. Die Daten werden auf diese Weise dort verarbeitet,
wo sie gespeichert sind. Ein Hadoop-Job kann die Daten zunächst
auf HDFS oder S3 ablegen und in einem separaten Schritt auf Terrapin
kopieren oder sie direkt auf die Terrapin-Server schreiben.
Bei Pinterest ist das Werkzeug seit einem Jahr bereits im Produktiveinsatz
und verwaltet dort eine Datenmenge von etwa 180 Terrabyte, die auf
rund 100 Filesets mit gut 50.000 Dateien verteilt sind.
(mt, hannover)
(siehe auch heise-News-Ticker:)
Hannover · EDV-Beratung ·
Linux · Novell · Microsoft · Seminar ·
IT-Consult · Netzwerk · LPIC · CLE
|