Betreiber von Webseiten können nun in der "robots.txt"
einstellen, dass die Inhalte auf eigenen Webseiten für das
Training der GPT-Sprachmodelle von OpenAI nicht benutzt werden.
OpenAI hat dafür
zusammengefasst, wie der Web-Crawler für die KI-Technik in
der robots.txt einer Website ausgesperrt werden kann. Es kann aber
auch so vorgegeben werden, dass nur bestimmte Ordner für KI-Training
genutzt werden.
OpenAI
schreibt, dass Webseiten, die von dem GPTBot besucht wurden,
potenziell dafür genutzt werden, künftige GPT-Modelle
zu verbessern. Websiten, die über eine Paywall verfügen,
die bekannt dafür sind, personenbeziehbare Daten zu sammeln,
werden ausgefiltert, erklärt das Unternehmen. Zudem heißt
es, dass Betreiber, die dem Crawler erlauben, die Daten zu sammeln,
dabei helfen können, dass KI-Modelle akkurater und insgesamt
besser werden.
OpenAI hat sich gemeinsam mit anderen KI-Unternehmen vor wenigen
Tagen gegenüber der US-Regierung selbst verpflichtet, KI-Inhalte
künftig mit Wasserzeichen zu kennzeichnen und die Technik intensiv
zu testen, bevor sie auf den Markt kommt. Webseiten-Betreiber erhalten
nun mit den Angaben für die robots.txt etwas Kontrolle zurück.
(ts, hannover)
(siehe auch: Heise-News-Ticker)
Hannover · EDV-Beratung ·
Linux · Novell · Microsoft · Seminar ·
IT-Consult · Netzwerk · LPIC · CLE
|