Microsoft и Google говорят, что наступает новая эра AI поиска. Но, как и в случае с любой новой технологией, необходимо преодолеть ошибки первых релизов: от генерации бредовых ответов до культурных войн и опасений по поводу прекращения доходов от рекламы.
На прошлой неделе Microsoft и Google пообещали, что веб-поиск изменится.
7 февраля Microsoft представила новый поисковый сервис Bing на основе искусственного интеллекта и анонсировала обновление поисковой системы с внедрённой языковой моделью GPT. Соответствующие возможности будут использованы внутри браузера Edge.
В свою очередь Google в спешке организовал собственную презентацию. Однако разработанный Google чат-бот с искусственным интеллектом Bard дал неточный ответ на запрос об открытиях, сделанных при помощи космического телескопа NASA James Webb. Этот конфуз обвалил акции Alphabet на торгах в среду, 8 февраля, более чем на 8%.
Не будем забывать и о нарушителе спокойствия, с которого все началось. ChatGPT от OpenAI взорвал Интернет в прошлом году и продемонстрировал пользователям потенциальные возможности AI в генерации результатов поисковой выдачи.
Са́тья Наде́лла, генеральный директор Microsoft, описал происходящее как технологический прорыв, который по своему воздействию сравним с внедрением графических пользовательских интерфейсов и выпуском смартфонов. С появлением новых технологий и игроков возникает возможность вытеснить Google с одной из самых прибыльных доменов в современном бизнесе.
Помощник или bullshit-генератор?
Технология, лежащая в основе представленных систем, — большие языковые модели, или LLM. Нейросетевые модели используют алгоритмы машинного обучения, которые позволяют обобщать, прогнозировать, генерировать человеческий язык на основе больших наборов текстовых данных. Принцип работы таких моделей основан на определении вероятностного сочетания слов в заданном контексте.
LLM обучены выдумывать ответы, а не искать правдивые утверждения. Ответы эти всегда звучат убедительно и естественно, а поэтому разницу заметить весьма трудно.
Данный пример мы можем воспринимать как глупость и пропустим сквозь пальцы.
Однако стоит понимать, что нейронная сеть учится на основании ответов самих пользователей и, как следствие, будет генерировать все существующие социальные стереотипы и предубеждения. А самое главное выдавать все это за правду.
Так, ряд исследований в области Natural language processing (NLP) обнаружили:
- Ассоциирование некоторых профессий: таких как домохозяйка, медсестра, библиотекарь, с женским местоимением «она»,
- Предвзятое отношение к определенным религиозным группам.
Более серьезная проблема — внедрение чат-ботов вместо классической выдачи списка ссылок.
В текущее время при поисковом запросе вам необходимо переходить на внешние источники и самостоятельно определять релевантный ответ. В случае же с помощником этот ответ будет навязан вам, без возможности определения его достоверности.
Так инженеры компании «Nabla» протестировали GPT на возможность поиска конкретной научной информации, медицинской консультации или рецептурной поддержки.
Взлом AI
Выше описанные примеры являются непреднамеренными ошибками нейронной сети, которые, очевидно, можно исправить. А что если специально обучить AI «плохим вещам»?
Политика в отношении контента OpenAI запрещает любые материалы, связанные с ненавистью, членовредительством, сексом, насилием, домогательствами и обманом. Однако люди смогли заставить ChatGPT генерировать запрещенные ответы, используя метод ролевой игры.
Например, можно дать боту указание притвориться, что он «сверхразумный ИИ», помогающий злодею с инструкциями о том, как совершить кражу.
Тем не менее, выскажем мнение о том, где LLM могут быть полезны, несмотря на их неспособность распознавать истину в целом:
- Задачи, в которых пользователю легко проверить правильность ответа бота: помощь по отладке.
- Задачи, где правда не имеет значения: написание художественной литературы.
- Задачи, для которых существует подмножество обучающих данных: языковой перевод.
«Дорогая игрушка»
Трудно назвать точные цифры, но абсолютно очевидно, что запуск чат-бота с AI стоит дороже, чем традиционная поисковая система.
- стоимость обучения модели, вероятно, составляет десятки, если не сотни миллионов долларов за итерацию.
- стоимость вывода \ создания каждого ответа. Например, OpenAI взимает 2 цента за создание примерно 750 слов.
Эти расходы могут сильно ударить по новым игрокам, особенно если им удастся масштабировать проект до миллионов поисковых запросов в день.
В случае с Microsoft, текущая цель — навредить конкурентам и нарушить баланс сил. Именно так прокомментировал официальную позицию компании Сатья Наделла в недавнем интервью The Verge.
А как же мы?
Однако самая пугающая проблема связана не корректностью работы искусственного интеллекта , а тем, какое влияние он окажет на привычный нам интернет.
По заявлению разработчиков: поисковые системы с AI должны собирать ответы с веб-сайтов и обобщать их, что непременно ускоряет процесс поиска и избавляет от необходимости «читать больше».
Но если поисковик не будет возвращать трафик на сайты-первоисточники, то его разработчик потеряет доход от рекламы. Если не будет трафика, то нет смысла иметь свой персональный сайт. А если сайтов не будет, то не будет и информации для обучения AI.
Что будет дальше?
View Comments (3)
Большинство сайтов начнёт блокировать ботов АИ-поисковиков, а некоторые будут отдавать "бред"... будет весело.
Ох, ну до нас-то это дойдет еще лет через 10 )
Пока что разбираем факторы ранжирования от слитого Яндекс
Я тоже об этом думал. Как владелец пула сайтов вначале напрягся. Но буквально через пару дней успокоился, когда трезво подумал над тем какова будет стоимость этой технологии по сравнению с классическим поиском, а также откуда же бот будет брать информацию....