Google und Harvard haben gemeinsam einen riesigen Datensatz von fast einer Million gemeinfreier Bücher veröffentlicht, um das KI-Training zu fördern. Ziel ist es, kleineren Akteuren und Forschern Zugang zu hochwertigen Daten zu ermöglichen, die sonst oft nur großen Tech-Unternehmen vorbehalten sind. Die Initiative wird von Microsoft und OpenAI unterstützt und soll die Entwicklung von KI-Modellen trotz laufender Urheberrechtsdebatten vorantreiben.
Google und Harvard haben gemeinsam einen umfangreichen Datensatz von fast einer Million gemeinfreien Büchern veröffentlicht, um das Training von Künstlicher Intelligenz (KI) zu fördern. Wie Wired berichtet, entstand das Projekt im Rahmen der neu gegründeten Institutional Data Initiative (IDI) von Harvard, mit finanzieller Unterstützung von Microsoft und OpenAI. Der Datensatz besteht aus Büchern, die im Rahmen des Google Books-Projekts digitalisiert wurden und deren Urheberrechtsschutz abgelaufen ist. Gizmodo hebt hervor, dass dieser Datensatz etwa fünfmal größer ist als der Books3-Datensatz, der zum Trainieren von KI-Modellen wie Metas Llama verwendet wurde.
Der Datensatz umfasst eine vielfältige Sammlung von Genres, Epochen und Sprachen, von Klassikern von Shakespeare, Charles Dickens und Dante bis hin zu obskuren tschechischen Mathematikbüchern und walisischen Taschenwörterbüchern. Greg Leppert, Geschäftsführer der IDI, erklärte gegenüber Wired, das Ziel des Projekts sei es, "gleiche Wettbewerbsbedingungen" zu schaffen, indem es der Öffentlichkeit, einschließlich kleineren Akteuren in der KI-Branche und einzelnen Forschern, Zugang zu hochwertigen und kuratierten Inhaltsrepositorien bietet, die normalerweise nur großen Technologieunternehmen vorbehalten sind. "Der Datensatz wurde einer strengen Prüfung unterzogen", so Leppert.
Candid.Technology berichtet, dass Leppert davon ausgeht, dass die neue Public-Domain-Datenbank in Kombination mit anderen lizenzierten Materialien zum Aufbau von KI-Modellen verwendet werden könnte. Er vergleicht das Projekt mit Linux, das zu einem grundlegenden Betriebssystem für einen Großteil der Welt geworden ist, wobei Unternehmen dennoch zusätzliche Trainingsdaten benötigen, um ihre Modelle von denen ihrer Konkurrenten zu unterscheiden.
Burton Davis, Vizepräsident und stellvertretender General Counsel für geistiges Eigentum bei Microsoft, betonte gegenüber Wired, dass die Unterstützung des Unternehmens für das Projekt mit seiner allgemeinen Überzeugung vom Wert der Schaffung von "Pools zugänglicher Daten" für KI-Startups übereinstimmt, die "im öffentlichen Interesse verwaltet" werden. Microsoft plant nicht zwangsläufig, alle KI-Trainingsdaten, die es in seinen eigenen Modellen verwendet, durch gemeinfreie Alternativen wie die Bücher in der neuen Harvard-Datenbank zu ersetzen. "Wir verwenden öffentlich zugängliche Daten zum Trainieren unserer Modelle", so Davis.
Tom Rubin, Leiter für geistiges Eigentum und Inhalte bei OpenAI, bezeichnete das Unternehmen in einer Erklärung als "erfreut", das Projekt zu unterstützen.
Wie The Pinnacle Gazette berichtet, kommt das Projekt zu einem kritischen Zeitpunkt, da Dutzende von Klagen wegen der Verwendung urheberrechtlich geschützter Daten für das KI-Training vor Gericht verhandelt werden. Die Zukunft der Entwicklung von KI-Tools ist ungewiss. Eine Welle von Projekten wie der Harvard-Datenbank schreitet unter der Annahme voran, dass – unabhängig vom Ausgang der Klagen – eine Nachfrage nach gemeinfreien Datensätzen bestehen wird.
Zusätzlich zu den Büchern arbeitet die IDI laut Wired mit der Boston Public Library zusammen, um Millionen von Artikeln aus verschiedenen Zeitungen zu digitalisieren, die sich nun im öffentlichen Bereich befinden, und ist offen für ähnliche Kooperationen in der Zukunft. Die genaue Art und Weise, wie der Buchdatensatz veröffentlicht wird, ist noch nicht geklärt. Die IDI hat Google gebeten, bei der öffentlichen Verbreitung zusammenzuarbeiten, aber die Details werden noch ausgearbeitet. In einer Erklärung sagte Kent Walker, Präsident für globale Angelegenheiten bei Google, das Unternehmen sei "stolz darauf, das Projekt zu unterstützen".
Ähnliche Projekte gab es bereits in der Vergangenheit, wie First Digital in einem Artikel aus dem Jahr 2005 berichtet. Damals arbeitete Google mit Bibliotheken der University of Michigan, Harvard University, Stanford University, Oxford University und der New York Public Library zusammen, um Bücher aus ihren Sammlungen zu digitalisieren und über Google Print zugänglich zu machen.
Quellen:
- www.cryptopolitan.com/google-and-harvard-in-dataset-with-1m-books/
- www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
- gizmodo.com/harvard-makes-1-million-books-available-to-train-ai-models-2000537911
- evrimagaci.org/tpg/harvard-unveils-one-million-public-domain-books-for-ai-training-86791?srsltid=AfmBOorzs-DBd4MjMr4_TySzBgNB4QbS8zrCzl5Vl-xCqE6Efb5nWofy
- library.harvard.edu/services-tools/harvard-library-apis-datasets
- www.techmeme.com/241212/p1
- candid.technology/harvard-releases-million-public-domain-books-ai-dataset/
- firstdigital.co.nz/blog/general/google-partners-with-oxford-harvard-others-to-digitize-libraries-launches-video-search/