Современные системы искусственного интеллекта, в особенности генеративные модели, требуют огромного количества данных для обучения. Для создания моделей, способных генерировать тексты, изображения, музыку или программный код, разработчики используют миллионы, а иногда и миллиарды образцов. Однако значительная часть этих данных защищена авторским правом, что создает серьезные юридические проблемы для разработчиков ИИ. В этой статье мы рассмотрим правовые риски использования защищенных данных для обучения нейронных сетей и возможные пути решения этих проблем.

Правовая природа проблемы

Обучение нейронных сетей часто включает в себя несколько действий, которые потенциально могут нарушать авторские права:

Копирование и хранение защищенных произведений

Для создания обучающего датасета разработчики ИИ часто копируют и сохраняют миллионы произведений, включая тексты, изображения, музыку и другие объекты, защищенные авторским правом. В большинстве юрисдикций копирование произведений без разрешения правообладателей является нарушением авторских прав.

Изменение произведений в процессе предобработки

Данные, используемые для обучения ИИ, часто подвергаются различным преобразованиям: масштабированию, нормализации, аугментации и т.д. Эти действия могут рассматриваться как создание производных произведений, что также требует разрешения правообладателей.

Создание производных произведений с помощью обученной модели

Когда обученная на защищенных произведениях модель генерирует новый контент, который имеет сходство с оригинальными произведениями, возникает вопрос, не является ли это созданием производного произведения без разрешения.

Правовые подходы в разных юрисдикциях

Разные страны по-разному подходят к вопросу использования защищенных произведений для обучения ИИ:

США: доктрина добросовестного использования (Fair Use)

В США существует доктрина добросовестного использования (Fair Use), которая может в некоторых случаях позволять использование защищенных произведений без разрешения правообладателей. При определении, является ли использование "добросовестным", суды рассматривают четыре фактора:

  • Цель и характер использования (коммерческое или некоммерческое, трансформативное или нет)
  • Природа защищенного произведения
  • Объем и существенность использованной части по отношению к произведению в целом
  • Влияние использования на потенциальный рынок или ценность произведения

В 2015 году в деле Authors Guild v. Google суд постановил, что сканирование книг Google для проекта Google Books является добросовестным использованием, в частности, потому что это было "трансформативное" использование, которое создавало новую информационную ценность. Однако до сих пор нет однозначного прецедента, который бы напрямую рассматривал использование защищенных произведений для обучения ИИ.

ЕС: исключение для анализа текста и данных (Text and Data Mining)

Директива ЕС об авторском праве на едином цифровом рынке (2019) включает исключения для анализа текста и данных (TDM). Согласно этой директиве, исследовательские организации и учреждения культурного наследия могут проводить TDM для научных исследований без специального разрешения правообладателей. Кроме того, существует общее исключение для TDM, которое применяется к любым пользователям, но правообладатели могут явно запретить такое использование своих произведений.

Япония: исключение для машинного анализа

Япония в 2018 году внесла изменения в свое законодательство об авторском праве, введя широкое исключение для машинного анализа, которое позволяет использовать защищенные произведения для обучения ИИ без разрешения правообладателей, если это не наносит ущерба интересам правообладателей.

Россия: нет специальных положений

В российском законодательстве нет специальных положений, касающихся использования защищенных произведений для обучения ИИ. Общие принципы авторского права требуют получения разрешения правообладателей для использования их произведений, с некоторыми ограниченными исключениями, такими как использование в научных, образовательных или информационных целях, но эти исключения не всегда применимы к обучению коммерческих моделей ИИ.

Судебные споры и прецеденты

Несмотря на отсутствие четких правовых рамок, уже начинают возникать судебные споры в этой области:

Дело Getty Images против Stability AI

В начале 2023 года Getty Images подала иск против Stability AI, разработчика Stable Diffusion, утверждая, что компания нарушила авторские права, используя миллионы защищенных изображений для обучения своей модели без разрешения.

Коллективный иск против GitHub Copilot

В ноябре 2022 года был подан коллективный иск против GitHub, Microsoft и OpenAI, утверждающий, что их инструмент GitHub Copilot нарушает авторские права и лицензионные требования, используя публичный код без соблюдения условий лицензий.

Эти и другие подобные дела могут создать важные прецеденты, которые будут определять дальнейшее развитие правового регулирования в этой области.

Возможные решения и стратегии

Для разработчиков ИИ существует несколько потенциальных стратегий минимизации правовых рисков:

Использование данных в общественном достоянии или с открытыми лицензиями

Наиболее безопасный подход — использовать произведения, которые находятся в общественном достоянии, или произведения с открытыми лицензиями, которые явно разрешают использование для обучения ИИ. Например, Creative Commons предлагает различные типы лицензий, некоторые из которых могут подходить для таких целей.

Получение явных разрешений от правообладателей

Разработчики ИИ могут заключать лицензионные соглашения с правообладателями, получая явное разрешение на использование их произведений для обучения моделей. Этот подход уже используется некоторыми крупными компаниями.

Создание синтетических данных

Альтернативный подход — создание синтетических данных, которые не являются копиями существующих произведений. Однако этот подход имеет свои ограничения в плане разнообразия и качества данных.

Использование технических мер для соблюдения авторских прав

Разработчики могут внедрять технические решения, такие как фильтры для предотвращения копирования или воспроизведения защищенных произведений, или системы для отслеживания и удаления защищенного контента из обучающих наборов данных.

Правовые и этические принципы для будущего регулирования

Учитывая растущую важность ИИ, необходимо разработать новые правовые рамки, которые будут учитывать специфику использования защищенных произведений для обучения нейронных сетей. Эти рамки могут основываться на следующих принципах:

Баланс интересов

Правовое регулирование должно стремиться к балансу между защитой прав авторов и содействием инновациям и развитию технологий ИИ.

Прозрачность

Разработчики ИИ должны быть прозрачными в отношении используемых ими данных и методов обучения.

Справедливое вознаграждение

Правообладатели должны получать справедливое вознаграждение за использование их произведений для обучения коммерческих моделей ИИ.

Исключения для исследовательских и некоммерческих целей

Следует рассмотреть возможность введения исключений для использования защищенных произведений в исследовательских и некоммерческих целях.

Практические рекомендации для разработчиков ИИ

В условиях правовой неопределенности разработчикам ИИ рекомендуется:

  1. Проводить правовой аудит используемых данных и процессов обучения моделей;
  2. Документировать источники данных и правовые основания их использования;
  3. Рассмотреть возможность получения лицензий на использование данных для обучения моделей;
  4. Внедрять технические меры для соблюдения авторских прав, такие как фильтры для предотвращения копирования или воспроизведения защищенных произведений;
  5. Следить за развитием законодательства и судебной практики в этой области;
  6. Разрабатывать и применять этические принципы использования данных, которые могут выходить за рамки строго юридических требований.

Заключение

Вопрос использования защищенных произведений для обучения нейронных сетей остается одним из самых сложных и неопределенных в современном праве интеллектуальной собственности. Текущее законодательство не было разработано с учетом особенностей технологии ИИ и часто не дает четких ответов на возникающие вопросы.

В ближайшие годы мы, вероятно, увидим развитие правового регулирования в этой области через судебные прецеденты и новые законодательные инициативы. До тех пор разработчикам ИИ рекомендуется принимать меры для минимизации правовых рисков и активно участвовать в дискуссиях о будущем регулировании этой сферы.