В мире заканчиваются данные для обеспечения работы ИИ – FoxTime

В мире заканчиваются данные для обеспечения работы ИИ

13.11.2023

Глеб Голицын

Lifestyle Бизнес Мир Обзор Синтез Технологии
1234

Поскольку искусственный интеллект (ИИ) достигает пика своей популярности, исследователи предупредили, что в отрасли могут закончиться обучающие данные – топливо, на котором работают мощные системы ИИ.

Это может замедлить рост моделей искусственного интеллекта, особенно больших языковых моделей, и даже может изменить траекторию революции искусственного интеллекта. Но почему потенциальная нехватка данных является проблемой, учитывая, сколько их в Интернете? И есть ли способ устранить риск?

Почему высококачественные данные важны для ИИ

Нам нужно много данных для разработки мощных, точных и высококачественных алгоритмов искусственного интеллекта. Например, ChatGPT был обучен на 570 гигабайтах текстовых данных, или около 300 миллиардов слов.

Аналогичным образом алгоритм Stable Diffusion (который стоит за многими приложениями для создания изображений с помощью искусственного интеллекта, такими как DALL-E, Lensa и Midjourney) был обучен на наборе данных LIAON-5B, состоящем из 5,8 миллиардов пар изображение-текст. Если алгоритм обучен на недостаточном объеме данных, он будет выдавать неточные или некачественные выходные данные.

Качество обучающих данных также важно. Данные низкого качества, такие как сообщения в социальных сетях или размытые фотографии, легко получить, но их недостаточно для обучения высокопроизводительных моделей ИИ.

Текст, взятый из социальных сетей, может быть предвзятым или может содержать дезинформацию или незаконный контент, который может быть воспроизведен моделью. Например, когда Microsoft попыталась обучить своего ИИ-бота использованию контента одной из социальных сетей, в итоге ИИ научился выдавать расистские и женоненавистнические сообщения.

Вот почему разработчики ИИ ищут высококачественный контент, такой как тексты из книг, онлайн-статей, научных статей, Википедии, и определенный отфильтрованный веб-контент. Google Assistant был обучен работе с 11000 любовными романами, взятыми с сайта самиздата Smashwords, чтобы сделать его более разговорным.

Достаточно ли у нас данных?

Индустрия искусственного интеллекта обучает системы искусственного интеллекта на все больших наборах данных, вот почему сейчас у нас есть высокопроизводительные модели, такие как ChatGPT или DALL-E 3. В то же время исследования показывают, что запасы онлайн-данных растут гораздо медленнее, чем наборы данных, используемые для обучения ИИ.

В статье, опубликованной в прошлом году, группа исследователей предсказала, что у нас закончатся высококачественные текстовые данные до 2026 года, если текущие тенденции в обучении ИИ сохранятся. Они также подсчитали, что низкокачественные языковые данные будут исчерпаны где-то между 2030 и 2050 годами, а низкокачественные данные изображений – между 2030 и 2060 годами.

По данным бухгалтерской и консалтинговой группы PwC, ИИ может внести до 15,7 трлн долларов США в мировую экономику к 2030 году. Но нехватка полезных данных может замедлить его развитие.

Стоит ли обществу беспокоиться?

Хотя вышеприведенные моменты могут встревожить некоторых поклонников ИИ, ситуация может быть не такой плохой, как кажется. Существует много неизвестных о том, как модели ИИ будут развиваться в будущем, а также несколько способов устранения риска нехватки данных.

Одна из возможностей для разработчиков ИИ заключается в улучшении алгоритмов, чтобы они могли более эффективно использовать данные, которые у них уже есть.

Вполне вероятно, что в ближайшие годы они смогут обучать высокопроизводительные системы ИИ, используя меньше данных и, возможно, меньшую вычислительную мощность. Это также помогло бы уменьшить углеродный след ИИ.

Другой вариант – использовать ИИ для создания синтетических данных для обучения систем. Другими словами, разработчики могут просто генерировать необходимые им данные, подобранные в соответствии с их конкретной моделью ИИ.

В нескольких проектах уже используется синтетический контент, часто получаемый из сервисов, генерирующих данные, таких как в основном искусственный интеллект. В будущем это станет более распространенным.

Разработчики также ищут контент за пределами бесплатного онлайн-пространства, например, у крупных издателей и автономных репозиториев. Подумайте о миллионах текстов, опубликованных до появления Интернета. Став доступными в цифровом виде, они могли бы стать новым источником данных для проектов искусственного интеллекта.

News Corp, один из крупнейших в мире владельцев новостного контента (большая часть которого находится за платным доступом), недавно заявила, что ведет переговоры о заключении сделок с разработчиками ИИ. Такие сделки вынудят компании, занимающиеся ИИ, платить за обучающие данные, тогда как до сих пор они в основном бесплатно черпали их из Интернета.

Создатели контента протестуют против несанкционированного использования их контента для обучения моделей искусственного интеллекта, и некоторые из них подали в суд на такие компании, как Microsoft, OpenAI и Stability AI. Вознаграждение за их работу может помочь частично восстановить дисбаланс сил, существующий между креативщиками и компаниями, занимающимися искусственным интеллектом.

Фото превью / Possessed Photography / unsplash.com

В мире заканчиваются данные для обеспечения работы ИИ

5 1 голос
Оцените статью
Подписаться
Уведомить о
guest
0 Комментарий
Межтекстовые Отзывы
Посмотреть все комментарии

Рассказать друзьям