In 2023 zal AI een revolutie teweegbrengen in het geluid via generatieve geluidsgolven, waarmee het tijdperk van het geluid wordt ingeluid

Uncategorized

Het gebied van audioproductie evolueert snel en het werk gericht op Computer Vision (CV) en Natural Language Processing (NLP) is het afgelopen jaar aanzienlijk toegenomen. Dit heeft geleerden over de hele wereld ertoe aangezet na te denken over wat grote taalmodellen (LLM’s) en deep learning zouden kunnen bijdragen aan het onderwerp. De nieuwste audiomodellen die onlangs zijn uitgebracht, worden in dit artikel besproken, samen met hoe ze toekomstig onderzoek op dit gebied vergemakkelijken.


Het eerste model heet MusicLM en is gemaakt door wetenschappers van Google en IRCAM-Sorbonne Universite. De muziek die door dit model is gemaakt, kan in de tekst worden omschreven als “een ontspannende vioolmelodie begeleid door een vervormde gitaarriff”. Het MusicLM-model kan de toonhoogte en het tempo van een gefloten of geneuriede melodie aanpassen aan de strekking van een ondertitelde tekst, omdat het specifiek is getraind op vooraf getrainde modules van w2v-BERT, SoundStream en MuLan.


Google stelt ook SingSong voor, een systeem dat instrumentale muziekaudio kan produceren om de ingevoerde vocale audio te vergrendelen. Bronscheiding plus generatieve audiomodelleringsverbeteringen, twee belangrijke gebieden van muziektechnologie, worden beide gebruikt door SingSong. Het team heeft AudioLM aangepast om instrumentale stemmen te genereren door het te trainen op basis van de door de bron gescheiden gegevens met behulp van een in de handel verkrijgbare bronscheidingstechniek. De onderzoekers stelden twee parametiseringstechnieken voor om de kwaliteit van geïsoleerde vocalen met 55% te verhogen in vergelijking met de baseline AudioLM-verbetering.


Moûsai is een tekst-voorwaardelijk cascading diffusiemodel dat ons in staat stelt om 48kHz stereomuziek met een lange context te creëren die tot op de minuut contextafhankelijk is. Het is ontwikkeld door onderzoekers van ETH Zürich en het Max Planck Institute for Intelligent Systems. Het Moûsai-model is door de onderzoekers ontwikkeld met behulp van cascading diffusie in twee fasen, die kan worden bediend en onderwezen met behulp van bronnen die doorgaans op hogescholen worden aangetroffen. Elke fase van het model duurt ongeveer een week om te trainen op een A100 GPU.


AudioLDM, een TTA-systeem dat continue LDM’s gebruikt om de modernste generatiekwaliteit te bereiken, heeft voordelen op het gebied van computerefficiëntie en tekstgeconditioneerde audiomanipulatie, en werd geïntroduceerd door de Universiteit van Surrey in samenwerking met Imperial College London. Deze methode is in staat om LDM’s te trainen zonder taal-audioparen te gebruiken door te leren hoe de audio vooraf in een latente ruimte kan worden gemaakt.


De vier nieuwe modellen – MusicLM, SingSong, Moûsai en AudioLDM – die onlangs zijn gelanceerd, maken verder onderzoek op dit gebied veel gemakkelijker. Recente ontwikkelingen in het maken van audio zijn opwindend. Elk model heeft zijn eigen strategie en reeks voordelen, en toekomstige ontwikkelingen in het veld worden verwacht als gevolg van het gebruik ervan. Er zijn talloze voordelen die deep learning en grote taalmodellen (LLM’s) kunnen bieden voor het maken van audio, en er zullen waarschijnlijk binnenkort meer innovaties plaatsvinden.