Mit Gumbo
hat Google eine
in C geschriebene Programmierbibliothek zum Parsen von HTML quelloffen
zur Verfügung gestellt. Den mit HTML5 standardisierten Parsing-Algorithmus
setzt Gumbo um, hat offenbar alle html5lib-0.95-Tests bestanden
und wurde auf 2,5 Milliarden von Google indizierten Seiten getestet.
Die Software ist, der Projektbeschreibung zufolge, eine einfach
zu verwendende HTML-Parsing-Bibliothek ohne irgendwelche Abhängigkeiten,
die sich von vielen Programmiersprachen aufrufen lassen soll.
Die Bibliothek können Entwickler beispielsweise mit Webseiten-Validatoren,
bei der statischen Code-Analyse und in Verbindung mit Template-Sprachen
und Refactoring-Tools verwenden. Als "robust und widerstandsfähig"
schätzt Google Gumbo ein, geht aber davon aus, dass sich die
ABI (Application Binary Interface) in der Zukunft noch ändern
könnte. Angesehen wird die API (Application Programming Interface)
aber als ziemlich stabil, das Entwickler-Team erhofft sich von der
Open-Source-Legung Kommentare von Benutzern, sodass es in naher
Zukunft mit einer Version 1.0 aufwarten kann.
Die Unterstützung des HTML5-Template-Tags und des Parsings
von HTML-Fragmenten, sich über alle Features erstreckende Fehlerberichte
und Bindings in anderen Programmiersprachen sind als weitere Features
geplant. Google hat die Apache Licence 2.0 für Gumbo gewählt.
(ts, hannover)
(siehe auch Heise
News-Ticker :)
Hannover · EDV-Beratung ·
Linux · Novell · Microsoft · Seminar ·
IT-Consult · Netzwerk · LPIC · CLE
|