анализ аудиоданных. Я вот сейчас думаю, какую бы конкретно идею реализовать - например, есть идея повышение дискретизации аудиофайлов, но не уверен, насколько это в принципе реально сделать. Также думаю начнёт определения жанров музыки, либо разделения голоса и минусовки. Те, кто с нейронками работает, могут подсказать, куда лучше?)
разделить голос и минусовку не получится в принципе. если только не достраивать генеративными сетями отсутствующие срезанные голосом звуки и частоты, но это фантазии на тему. определение жанров - наиболее классная тема, да и апскейл тоже, но апскейл это вечная борьба с артефактами, и опять же - за счёт чего достраивать недостающие частоты, если их в принципе нет изначально.
Апскейл можно сделать на заранее выбранной подзадаче. Для голоса сетка выучит среднюю статистику по голосам для достроения частот, для классической музыки - все инструменты имеют строго фиксированные гармоники, соответственно тут тоже можно использовать статистику и априорные знания.
мы занимаемся машинным обучением в области цифровой обработки сигналов уже не первый год. и задача по разделению голоса и фонограммы пока всё ещё на уровне фантазии на тему, не более того. очистка голоса (что сделала нвидиа) - это совершенно не сложная задача, а вытаскивать фонограмму пока не получается :)
Понятно. Согласен, есть разные жанры, записи. Где-то слова-то трудно разобрать во всей мешанине, куда там до выделения чистого голоса. Хотя легкие кейсы должны решаться как с денойзингом
А можно узнать, в какой фирме?
мы очень широко известны в крайне узких кругах, у нас нет сайта, шикарного офиса с фонтанами, и нет отдела продаж :) мы группа энтузиастов, музыкантов и учёных, профессионалов своего дела, работающая над несколькими очень интересными проектами в том числе в рамках международных научных грантовых исследований :)
Разделение голоса и музыки - а чем вам не нравится работа Deezer? https://splitter.ai/ В целом, задача уже решена.
Такое впечатление, что вы не слушали примеры на сайте, который сами же прислали :)
Есть коммерческие реализации, плюс никто не мешает под свой жанр обучить, было бы желание
Есть коммерческие реализации разделения голоса от фонограммы с полным сохранением последней?
С полным сохранением фонограммы - все к этому стремятся, U-Net, генерирующая маски, позволила приблизиться к этому вплотную
Обсуждают сегодня