Cloudflare заявила, что Google использует своё доминирование в поиске для получения беспрецедентного доступа к данным, необходимым для обучения нейросетей, что создаёт неравные условия на рынке искусственного интеллекта, ставя веб-издателей перед выбором: делиться контентом или потерять трафик.
Генеральный директор Cloudflare Мэтью Принс Matthew Prince обратил внимание регулирующих органов и IT-сообщества на стратегию Google, которая, по его мнению, граничит с недобросовестной конкуренцией. Суть претензии кроется в работе веб-краулеров — автоматических программ, которые «обходят» сайты, чтобы собрать информацию. В отличие от других крупных игроков, таких как Microsoft и OpenAI, которые используют отдельных ботов для поисковой индексации и для сбора данных под задачи ИИ, Google применяет единого краулера (Googlebot) для обеих целей одновременно.
На практике это означает, что владелец сайта, желая запретить использование своего контента для обучения нейросетей конкурентов, технически может заблокировать только отдельного «ИИ-бота». Если же он заблокирует Googlebot, чтобы оградить свой контент от использования в продуктах вроде Gemini, его сайт мгновенно исчезнет из поисковой выдачи Google. По оценкам Cloudflare, эта практика даёт колоссальное преимущество в объёме тренировочных данных и Google имеет доступ к информации с в 3,2 раза большего количества веб-страниц, чем OpenAI, и почти в 5 раз большего, чем Microsoft.
Ситуация усугубляется тем, что Google уже активно использует собранные данные, внедряя в поиск блок «ИИ-ответов» (AI Overview). Эта функция напрямую резюмирует информацию с сайтов, часто лишая их переходов пользователей. Таким образом, издатели, чей контент используется для обучения ИИ, в итоге сами же страдают от

