Поговорим, проанализируем, предложим варианты решения
Расскажите нам о своих задачах
Написать нам:
Позвонить нам:
Заполните форму, мы свяжемся и обсудим детали проекта

Анализ эффективности нейросетей для SEO-задач

Какие LLM реально работают для SEO: исследование на 28 тысячах запросов
Тестировали то, с чем сталкивается каждый сеошник в крупных проектах: нужно отделить коммерческие запросы от информационного мусора, причём быстро и без потери данных.
Мы в диджитал-агентстве Умный маркетинг прогнали 9 больших языковых моделей через одну и ту же SEO-задачу — чистку семантического ядра на 30 000 запросов. Спойлер — ChatGPT потерял половину данных, а самая дорогая модель оказалась не самой качественной.
Тестировали на семантике для e-commerce проекта из ТОП-10 в РФ

Клиент — многокатегорийная площадка с широким ассортиментом

скорость — сколько минут на 10 000 строк
стоимость — цена обработки в долларах
качество чистки — сколько % мусора не вычистили
надежность — сколько % данных потеряли из-за сбоев API
точность — сколько % коммерческих запросов ошибочно выкинули
Что измеряли:
манго — это фрукт, а не товар из категории одежды, даже если есть бренд Mango
интимиссими — навигационный запрос, люди ищут бренд конкурента
бюстгальтер вторая кожа как называется — информационный запрос, человек хочет узнать термин, а не купить
стокманн интернет-магазин — ищут другую площадку
валлдербериз — кривая транслитерация конкурента
Примеры мусора и почему это мусор:
Задача — расширить структуру сайта на сотни тысяч новых теговых страниц под спрос.
худи
термобелье мужское
свадебные платья 2024
пуховик женский зимний купить
Примеры коммерческих запросов (с ними работаем):
Тестовый массив: 28 837 реальных запросов из одного проекта, полный список от худи до кардиган пинко.
Дальше покажем данные на примере одной категории — одежда и обувь.
На вход — список запросов из Keyso.
На выход — два списка: коммерческие запросы (под которые делаем страницы) и мусор (игнорируем).
запросы к товарам, которых нет в ассортименте
навигационные запросы к чужим брендам — люди ищут конкурентов
информационные запросы, потому что гайды и советы — не покупка
вообще не про одежду/обувь
Что нужно отсеять:

Результаты

Сводная таблица

Лучшие

Если нужно максимальное качество и есть время — DeepSeek справился лучше всех. Оценка 8 из 10.
Когда использовать: если качество важнее скорости и ты готов подождать — например, проработка приоритетных разделов, где каждый кластер на вес золота.
Стоимость: $ 0,667 — средняя цена, но если считать по времени — дорого.
Потери данных: 5% запросов потерялись, не катастрофа, но не идеал.
Время: 240 минут (4 часа) на 10 000 строк, самая медленная модель в тесте.

DeepSeek V3.1 — медленный перфекционист

Если выбирать одну модель для ежедневной работы — это она. Оценка 7 из 10, но с лучшим соотношением параметров.
Но с основными товарными категориями работает без проблем.
Когда использовать: для большинства задач, если нужно обработать сотни тысяч запросов и не разориться — это лучший выбор.
Стоимость: $ 0,263 — самая дешевая среди качественных.
Потери данных: всего 2% данных.
Время: 42 минуты на 10 000 строк, в 5 раз быстрее DeepSeek.

Gemini Flash 2 — оптимальный баланс

пропускает 20% мусора, в 2 раза больше, чем DeepSeek
3% коммерческих запросов отсеивает по ошибке
Компромиссы:
пропустила maag, непонятная транслитерация
не распознал интимиссими как бренд
Где косячит:
минимум ошибок — отсеял по ошибке всего 2% коммерческих запросов
отлично чистит мусор, пропустил только 10% — лучший результат
правильно определил манго, интимиссими, валлдербериз как мусор
Что делает хорошо:
странно обработал спецодежду — определил как товар, хотя это скорее категория
консервативен с брендами — посчитал мусором авалон, некст, asos, 2mood одежда
зато burberry пропустил корректно
Где косячит:
Минус — много мусора. Пропускает 30%, худший результат среди топовых.
Если deadline горит — бери эту модель. Оценка 7 из 10.
Когда использовать: срочные задачи, где каждая минута на счету или критично не потерять ни одного запроса.
Стоимость: $ 1,022 — в 4 раза дороже Gemini Flash 2.
Потери данных: меньше 1%, стабильный API.
Время: 26 минут на 10 000 строк, самая быстрая.

Gemini 2.5 Flash — самый быстрый

Дорогие модели

Показали оценку 5−7 из 10, при этом стоят в 10+ раз дороже Gemini Flash 2.
Переплата не оправдана.
Провал по price/quality
$3,658 за обработку
Пропускает 21% мусора, теряет 2% данных

Gemini 2.5 Pro — качество 5 из 10:

Стабильный API по цене BMW, но все равно пропускает мусор. Худшее соотношение цена/качество.
$3,487 за обработку
Пропускает 29% мусора, но 0% потерь

Claude Sonnet 4 — качество 7 из 10:

Китайские модели

Экономия не стоит риска потерять каждый пятый-седьмой запрос.
Дешево, но ненадежно
Цена: $0,268 — хорошо
Потери: 20% данных — плохо

Qwen3 235B A22B — качество 4 из 10:

Цена: $0,382
Потери: 7% данных

Kimi K2 0711 — качество 5 из 10:

GPT-4o

На бумаге выглядит привлекательно — $ 0,215 за обработку, на практике — потерял половину данных. Оценка 4 из 10.
Когда использовать: никогда.
Но плюсы не имеют значения, когда теряешь половину данных.
Пример: манго GPT-4o пропустил как коммерческий запрос (ошибка), а DeepSeek правильно определил как мусор.
Катастрофа
потерял 52% запросов — из 28837 строк вернул только 15954
модель просто съела половину данных и вернула неполный результат
32% сбоев API — постоянные обрывы и артефакты
Что пошло не так:
то, что успел обработать — обработал корректно
минимум ошибок классификации — меньше 1%
Что делает хорошо:

Конкретные примеры

Как модели обрабатывают запросы
DeepSeek: мусор ✅
GPT-4o: манго ❌ (пропустил как товар)
Остальные: в основном мусор
Запрос: манго
DeepSeek: мусор ❌ (не распознал бренд)
Gemini Flash 2: авалон ✅
Claude Sonnet 4: авалон ✅
Запрос: авалон (бренд одежды)
Все модели: мусор ✅ (правильно определили как чужой бренд)
Запрос: интимиссими
DeepSeek: burberry ✅ (пропустил как коммерческий)
Большинство: мусор ❌ (определили как навигационный)
Запрос: burberry
DeepSeek: спецодежда ✅ (как товарная категория)
Остальные: тоже пропустили
Запрос: спецодежда

Настройки модели имеют значение

Если модель отходит от ТЗ:
DeepSeek изначально определяла бренды как мусор из-за высокой temperature. Снизили до 20% — результат улучшился с 6 до 8 из 10.
Недостаточно просто выбрать модель — нужно правильно настроить параметры.
01
Temperature → 20% (снизить креативность)
02
Top-p / Top-k → снизить
03
Frequency/Presence penalty → убрать

Промптинг критически важен

Что мы сделали для улучшения качества:
Результат:
структурные ошибки DeepSeek: 49% → 7%
структурные ошибки GPT: остались на уровне 49%
Было: «Привяжи теговую страницу к категории»
Стало: «…если в запросе есть явный тип изделия (колье, браслет), выбери соответствующую товарную категорию из списка, игнорируя модификаторы (материал/вставка/пол/стиль/цвет/размер: жемчуг, гранат, мужские, женские и т. п.)…
Пример доработки промпта (структура сайта):
Даже лучшая модель работает плохо без правильного промпта
01
Получили результат от ИИ.
02
Сравнили с эталоном (ручная работа SEO-специалиста за 3 месяца).
03
Классифицировали типы ошибок.
04
Доработали промпт.
05
Повторили цикл до 8 из 10.

Сколько это стоит

10 000 кластеров
100 000 кластеров
Классический подход (ручная работа)
250 тыс. ₽
2,5 млн ₽
С лучшим ИИ (Gemini Flash 2)
25 тыс. ₽
250 тыс. ₽
Экономия в 3−6 раз по деньгам и в 10−15 раз по времени.
Порог эффективности — от 1 000 кластеров начинается экономия, до этого настройка системы стоит дороже.

Что не могут LLM

массовая классификация запросов
генерация заголовков по шаблону
чистка семантики от очевидного мусора
Что LLM делают хорошо:
проверять результат на здравый смысл
понимать бизнес-контекст проекта
учитывать сезонность и приоритеты
настраивать промпты под специфику ниши
Что LLM не умеют:
Даже лучшая модель — это не замена SEO-специалиста. Оптимальная схема — ИИ обрабатывает 90−95%, человек проверяет и дорабатывает 5−10%.
Установите ограничения по частоте, чтобы не раздражать пользователей.
Не все LLM одинаково полезны
Модели за $ 3,5 показали результат не лучше, чем за $ 0,26.
Дорого ≠ качественно
DeepSeek медленный, но качественный. Gemini Flash быстрый и сбалансированный.
Скорость vs качество — выбирай под задачу
Одна и та же модель может показывать 4 или 8 из 10 в зависимости от настроек.
Настройки и промпты решают
Потеря 52% данных у GPT-4o — это не баг, а особенность работы с большими массивами.
Проверяй надежность
Максимум 95% качества, последние 5% — руками.
ИИ не заменяет специалиста
До 1 000 кластеров дешевле сделать руками.
Не все нужно автоматизировать
P.S. Записаться на 20-минутную питч-презу о том, как можно ускорить выполнение ваших SEO-задач в 12 раз с тем же бюджетом — на сайте умного маркетинга
P. P. S. Больше ноухау на стыке SEO и AI — в телеграм-канале @headofseo_um
GPT-4o, Qwen3, переплачивать за Pro-версии.
Нет смысла использовать
Gemini Flash 2. Быстро, дешево, качественно.
Лучший выбор для большинства задач:

Выводы

Погрузимся в особенности вашего бизнеса, составим стратегию и запустим продвижение