Nvidia präsentiert innovatives KI-Modell zur Musik- und Stimmeserstellung
Nvidia hat Fugatto vorgestellt, ein neues KI-Modell zur Generierung von Audioinhalten. Es ermöglicht die Erstellung von Musik und Klängen, sowie die Bearbeitung von Stimmen basierend auf Text- und Audioeingaben und kann sogar bisher unbekannte Klänge erzeugen. Dieses leistungsstarke Tool eröffnet neue Möglichkeiten für Musikproduktion, Sounddesign und Content-Erstellung.
Nvidia stellt KI-Tool zur Musikerstellung und Stimmbearbeitung vor
Nvidia hat ein neues KI-Modell für generatives Audio vorgestellt, das in der Lage ist, eine Vielzahl von Klängen, Musik und sogar Stimmen basierend auf einfachen Text- und Audio-Eingaben des Benutzers zu erstellen. Wie Cryptopolitan berichtet, trägt das Modell den Namen Fugatto (auch bekannt als Foundational Generative Audio Transformer Opus 1) und kann beispielsweise Jingles und Song-Snippets allein auf der Grundlage von Texteingaben erstellen, Instrumente und Gesang zu bestehenden Tracks hinzufügen oder entfernen, sowohl den Akzent als auch die Emotion einer Stimme ändern und "sogar Menschen ermöglichen, Klänge zu erzeugen, die noch nie zuvor gehört wurden". Digital Trends ergänzt, dass Musikproduzenten das KI-Modell verwenden könnten, um schnell Songideen in verschiedenen Musikstilen mit unterschiedlichen Arrangements zu prototypisieren und zu überprüfen oder bestehenden Tracks Effekte und zusätzliche Ebenen hinzuzufügen. Das Modell könnte auch genutzt werden, um die Musik und die Voiceovers einer bestehenden Werbekampagne anzupassen und zu lokalisieren oder die Musik eines Videospiels während des Spiels dynamisch anzupassen.
Das Modell ist sogar in der Lage, bisher ungehörte Klänge wie bellende Trompeten oder miauende Saxophone zu erzeugen. Dabei verwendet es eine Technik namens ComposableART, um die Anweisungen zu kombinieren, die es während des Trainings gelernt hat. Benzinga führt aus, dass Fugatto es Benutzern ermöglicht, Attribute wie Akzent, Ton und Emotion zu einem zusammenhängenden Klang zu kombinieren. Zum Beispiel kann es eine dynamische Klanglandschaft erzeugen, die von einem Gewitter zu einer ruhigen Morgendämmerung übergeht. Laut Cryptopolitan verwendet das Fugatto-Modell selbst 2,5 Milliarden Parameter und wurde auf 32 H100-GPUs trainiert. Solche Audio-KIs werden immer häufiger. Stability AI stellte im April ein ähnliches System vor, das Tracks mit einer Länge von bis zu drei Minuten generieren kann, während Googles V2A-Modell "eine unbegrenzte Anzahl von Soundtracks für jede Videoeingabe" generieren kann.
YouTube hat kürzlich einen KI-Musik-Remixer veröffentlicht, der basierend auf dem Eingabe-Song und den Texteingaben des Benutzers ein 30-Sekunden-Sample generiert. Sogar OpenAI experimentiert in diesem Bereich und hat im April ein KI-Tool veröffentlicht, das nur 15 Sekunden Sample-Audio benötigt, um die Stimme und die Sprachmuster eines Benutzers vollständig zu klonen. Wie im NVIDIA Developer Blog berichtet, ist AIVA Technologies, eines der führenden Startups im Bereich der KI-Musikkomposition, ein weiteres Beispiel für die Fortschritte in diesem Bereich. AIVA hat ein Deep-Learning-basiertes System entwickelt, das als erstes nicht-menschliches System weltweit den offiziellen Status eines Komponisten erlangt hat.
Die Diskussionen im OpenAI Developer Forum zeigen das große Interesse und die Experimentierfreude der Nutzer mit neuen KI-Musikgeneratoren wie Udio. Die Beiträge reichen von Begeisterung über die Möglichkeiten bis hin zu Herausforderungen bei der Bedienung und der Qualität der Ergebnisse. Auch die Frage nach einer möglichen API wird diskutiert. Synthesia, ein Unternehmen, das KI-Avatare entwickelt, hat auf der Computex 2024 einen KI-Avatar von NVIDIA-CEO Jensen Huang vorgestellt. Dieser Avatar, der von Synthesias EXPRESS-1-Modell angetrieben wird, wurde mit NVIDIA H100 Tensor Core GPUs trainiert und demonstriert die Fortschritte in der Erstellung synthetischer Medien.
Quellen:
- www.cryptopolitan.com/nvidia-ai-tool-create-music-edit-voices/
- www.digitaltrends.com/computing/nvidia-fugatto-sound-music-text-audio-prompts-ai/
- www.benzinga.com/24/11/42168608/nvidias-fugatto-new-ai-model-lets-you-create-sounds-never-heard-before
- community.openai.com/t/udio-new-music-generator-text2audio-from-nvidia/71135
- developer.nvidia.com/blog/ai-composer-creates-music-for-films-and-games/
- www.linkedin.com/posts/daanvanrossum_youtube-debuts-ai-tool-that-mimics-vocals-activity-7131174120922238976-CKC2
- voicebot.ai/2020/05/15/nvidias-new-jarvis-ai-can-turn-voices-into-interactive-faces/
- www.synthesia.io/post/synthesia-ai-avatar-nvidia-ceo-jensen-huang-computex-2024