ImageBind: общее представление для кросс-модального обучения
   Время чтения статьи 3 минуты

Meta AI создал проект с открытым исходным кодом, называемый IMAGEBIND, который может объединять данные из шести разных типов информации, используя искусственный интеллект. Люди могут легко понимать сложные идеи, когда им предоставляется несколько примеров из разных источников. Например, мы можем узнать животное по его описанию и угадать звук двигателя машины, когда видим изображение автомобиля. Это происходит потому, что наше восприятие может объединять различные чувства вместе, чтобы создать полную картину. Но, обучение искусственного интеллекта, который использует несколько типов информации, является сложным и имеет свои ограничения. Недавние исследования сосредоточены на соединении текста, аудио и изображений, но эти стратегии ограничены двумя типами информации. Нет достаточно мультимодальных данных, где все типы информации присутствуют вместе, поэтому создание полной картины может быть сложным.

Исследование New Meta представляет систему IMAGEBIND, которая использует несколько форм данных, включая изображения, для создания общего пространства представления. Для этого не нужно использовать наборы данных, где все модальности присутствуют одновременно. Вместо этого система использует свойство связывания изображений и показывает, как согласование встраивания каждой модальности с встраиванием изображения позволяет создать общее пространство представления для всех модальностей. Большое количество изображений и текста в Интернете позволяет использовать изображения для связывания различных модальностей, например, текста с изображением или движения с видео. Это помогает создать единое пространство для работы с данными разных модальностей.

Система ImageBind, позволяет использовать несколько форм данных пар изображений для создания единого общего пространства представления. ImageBind может выравнивать разные модальности, такие как тепло, глубина, звук и текст, с помощью изображений в паре. Это позволяет модели обеспечивать более целостную интерпретацию информации, позволяя различным модальностям обнаруживать связи между ними без непосредственного наблюдения. Кроме того, система ImageBind имеет надежное поведение масштабирования, что позволяет использовать ее вместо или в дополнение к другим моделям искусственного интеллекта.

В данной работе показано, что объединение большого количества парных данных изображений и текста с естественными парными данными самоконтроля в различных модальностях (аудио, глубина, тепловая, инерциальная единица измерения) приводит к сильной классификации с нулевым выстрелом и улучшению производительности поиска для каждой новой модальности. Кроме того, авторы показывают, что улучшение основного представления изображения может улучшить эти возникающие функции.

Эти данные показывают, что новая модель классификации IMAGEBIND, которая использует парные данные изображений и текста, может успешно классифицировать аудио и выполнять задачи поиска, такие как ESC, Clotho и AudioCaps, на уровне или лучше, чем экспертные модели, обученные на аудиотексте. В многократных тестах представления, модель IMAGEBIND также работает лучше, чем модели, контролируемые экспертами. Кроме того, они показывают, что совместные вложения IMAGEBIND могут быть использованы для различных задач, включая кросс-модальное извлечение, арифметическую комбинацию вложений, обнаружение источника звука в изображениях и генерацию изображения из аудиовхода.

Вложения, полученные в результате работы модели, не обучаются для конкретных задач и поэтому не настолько эффективны, как модели, специализированные для конкретной области. Команда исследователей считает, что было бы полезно изучить, как адаптировать эти вложения к конкретным задачам, например, для структурированного прогнозирования, такого как обнаружение.

От Andarer

Добавить комментарий

Вы пропустили