Искусственный интеллект способен создать аудиокомпозицию в 24 кГц и в любом жанре, уловив описанные в аннотации нюансы: например, «динамичный и оптимистичный саундтрек аркадной игры с запоминающимся риффом электрогитары».
Нейросетевая модель MusicLM может объединить несколько последовательных аннотаций и создать «музыкальную историю», в которой один фрагмент перетекает в другой. А ещё модели можно задать уровень музыканта: например, на запросы «начинающий пианист» и «пианист-виртуоз» MusicLM выдаст совершенно разные результаты.
Пока что искусственный интеллект с трудом создает композиции с вокалом — в большинстве случаев синтезированная речь больше похожа на набор звуков. Ознакомиться с работами нейросети можно здесь.
Комментарии (0)