13.12.2024
Technologie

Gemeinfreie Bücher als Sprungbrett für KI-Entwicklung

Google und Harvard haben gemeinsam einen riesigen Datensatz von fast einer Million gemeinfreier Bücher veröffentlicht, um das KI-Training zu fördern. Ziel ist es, kleineren Akteuren und Forschern Zugang zu hochwertigen Daten zu ermöglichen, die sonst oft nur großen Tech-Unternehmen vorbehalten sind. Die Initiative wird von Microsoft und OpenAI unterstützt und soll die Entwicklung von KI-Modellen trotz laufender Urheberrechtsdebatten vorantreiben.

Google und Harvard veröffentlichen riesigen Datensatz gemeinfreier Bücher für KI-Training

Google und Harvard haben gemeinsam einen umfangreichen Datensatz von fast einer Million gemeinfreien Büchern veröffentlicht, um das Training von Künstlicher Intelligenz (KI) zu fördern. Wie Wired berichtet, entstand das Projekt im Rahmen der neu gegründeten Institutional Data Initiative (IDI) von Harvard, mit finanzieller Unterstützung von Microsoft und OpenAI. Der Datensatz besteht aus Büchern, die im Rahmen des Google Books-Projekts digitalisiert wurden und deren Urheberrechtsschutz abgelaufen ist. Gizmodo hebt hervor, dass dieser Datensatz etwa fünfmal größer ist als der Books3-Datensatz, der zum Trainieren von KI-Modellen wie Metas Llama verwendet wurde.

Der Datensatz umfasst eine vielfältige Sammlung von Genres, Epochen und Sprachen, von Klassikern von Shakespeare, Charles Dickens und Dante bis hin zu obskuren tschechischen Mathematikbüchern und walisischen Taschenwörterbüchern. Greg Leppert, Geschäftsführer der IDI, erklärte gegenüber Wired, das Ziel des Projekts sei es, "gleiche Wettbewerbsbedingungen" zu schaffen, indem es der Öffentlichkeit, einschließlich kleineren Akteuren in der KI-Branche und einzelnen Forschern, Zugang zu hochwertigen und kuratierten Inhaltsrepositorien bietet, die normalerweise nur großen Technologieunternehmen vorbehalten sind. "Der Datensatz wurde einer strengen Prüfung unterzogen", so Leppert.

Candid.Technology berichtet, dass Leppert davon ausgeht, dass die neue Public-Domain-Datenbank in Kombination mit anderen lizenzierten Materialien zum Aufbau von KI-Modellen verwendet werden könnte. Er vergleicht das Projekt mit Linux, das zu einem grundlegenden Betriebssystem für einen Großteil der Welt geworden ist, wobei Unternehmen dennoch zusätzliche Trainingsdaten benötigen, um ihre Modelle von denen ihrer Konkurrenten zu unterscheiden.

Burton Davis, Vizepräsident und stellvertretender General Counsel für geistiges Eigentum bei Microsoft, betonte gegenüber Wired, dass die Unterstützung des Unternehmens für das Projekt mit seiner allgemeinen Überzeugung vom Wert der Schaffung von "Pools zugänglicher Daten" für KI-Startups übereinstimmt, die "im öffentlichen Interesse verwaltet" werden. Microsoft plant nicht zwangsläufig, alle KI-Trainingsdaten, die es in seinen eigenen Modellen verwendet, durch gemeinfreie Alternativen wie die Bücher in der neuen Harvard-Datenbank zu ersetzen. "Wir verwenden öffentlich zugängliche Daten zum Trainieren unserer Modelle", so Davis.

Tom Rubin, Leiter für geistiges Eigentum und Inhalte bei OpenAI, bezeichnete das Unternehmen in einer Erklärung als "erfreut", das Projekt zu unterstützen.

Wie The Pinnacle Gazette berichtet, kommt das Projekt zu einem kritischen Zeitpunkt, da Dutzende von Klagen wegen der Verwendung urheberrechtlich geschützter Daten für das KI-Training vor Gericht verhandelt werden. Die Zukunft der Entwicklung von KI-Tools ist ungewiss. Eine Welle von Projekten wie der Harvard-Datenbank schreitet unter der Annahme voran, dass – unabhängig vom Ausgang der Klagen – eine Nachfrage nach gemeinfreien Datensätzen bestehen wird.

Zusätzlich zu den Büchern arbeitet die IDI laut Wired mit der Boston Public Library zusammen, um Millionen von Artikeln aus verschiedenen Zeitungen zu digitalisieren, die sich nun im öffentlichen Bereich befinden, und ist offen für ähnliche Kooperationen in der Zukunft. Die genaue Art und Weise, wie der Buchdatensatz veröffentlicht wird, ist noch nicht geklärt. Die IDI hat Google gebeten, bei der öffentlichen Verbreitung zusammenzuarbeiten, aber die Details werden noch ausgearbeitet. In einer Erklärung sagte Kent Walker, Präsident für globale Angelegenheiten bei Google, das Unternehmen sei "stolz darauf, das Projekt zu unterstützen".

Ähnliche Projekte gab es bereits in der Vergangenheit, wie First Digital in einem Artikel aus dem Jahr 2005 berichtet. Damals arbeitete Google mit Bibliotheken der University of Michigan, Harvard University, Stanford University, Oxford University und der New York Public Library zusammen, um Bücher aus ihren Sammlungen zu digitalisieren und über Google Print zugänglich zu machen.

Quellen:
- www.cryptopolitan.com/google-and-harvard-in-dataset-with-1m-books/
- www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
- gizmodo.com/harvard-makes-1-million-books-available-to-train-ai-models-2000537911
- evrimagaci.org/tpg/harvard-unveils-one-million-public-domain-books-for-ai-training-86791?srsltid=AfmBOorzs-DBd4MjMr4_TySzBgNB4QbS8zrCzl5Vl-xCqE6Efb5nWofy
- library.harvard.edu/services-tools/harvard-library-apis-datasets
- www.techmeme.com/241212/p1
- candid.technology/harvard-releases-million-public-domain-books-ai-dataset/
- firstdigital.co.nz/blog/general/google-partners-with-oxford-harvard-others-to-digitize-libraries-launches-video-search/

Die bereitgestellten Informationen und Analysen sind keine Kauf- oder Verkaufsempfehlung, mehr dazu unter unserem Disclaimer.
Im Fokus
Liquid AI sichert sich 250 Millionen US-Dollar für innovative KI-Entwicklung
Das KI-Startup Liquid AI hat 250 Millionen US-Dollar in einer Series-A-Finanzierungsrunde erhalten, angeführt von AMD, und wird nun mit über 2 Milliarden US-Dollar bewertet. Das Unternehmen entwickelt innovative "Liquid Foundation Models", die effizienter sind als herkömmliche Sprachmodelle und plant, die neuen Mittel für den Ausbau seiner Infrastruktur und die Entwicklung weiterer Modelle zu nutzen. Diese Finanzierung zeigt das wachsende Interesse an effizienten KI-Lösungen und die strategische Bedeutung von Partnerschaften in der Branche.
14/12/2024
Technologie
BlueSky wächst: Eine neue Ära der sozialen Netzwerke
Die dezentrale Social-Media-Plattform BlueSky verzeichnet ein starkes Nutzerwachstum und hat seit November 25 Millionen Nutzer erreicht, was auf eine Abwanderung von X hindeutet. Die Plattform, die 2019 von Jack Dorsey initiiert wurde, bietet eine Alternative zu X ohne bezahlte Werbung und fördert den Aufbau weniger kontroverser Diskussionen. Nutzer schätzen die Anpassungsfähigkeit und die Möglichkeit, Nischen-Communitys zu bilden, was jedoch für manche Unternehmen eine Herausforderung darstellen könnte.
13/12/2024
Technologie
Weitere Posts zum Thema