Тестировали то, с чем сталкивается каждый сеошник в крупных проектах: нужно отделить коммерческие запросы от информационного мусора, причём быстро и без потери данных.

Мы в диджитал-агентстве Умный маркетинг прогнали 9 больших языковых моделей через одну и ту же SEO-задачу — чистку семантического ядра на 30 000 запросов. Спойлер — ChatGPT потерял половину данных, а самая дорогая модель оказалась не самой качественной.

В итоге автоматизировали SEO: теги, фильтры, хабы и товарные объявления за 2 месяца вместо 2 лет. Теперь продвигать маркетплейсы и крупные интернет-магазины стало гораздо быстрее с помощью ML-алгоритмов.

Сняли видео, где ведущий SEO-эксперт показывает, как проверяли большие LLM на реальном кейсе

Оглавление

Тестирование: клиент, задача, проблема, параметры эффективности

Примеры — как модели обрабатывают запросы

→ Тестировали на семантике для e-commerce проекта из ТОП-10 в РФ

Клиент — многокатегорийная площадка с широким ассортиментом

→

скорость — сколько минут на 10 000 строк

→

стоимость — цена обработки в долларах

→

качество чистки — сколько % мусора не вычистили

→

надежность — сколько % данных потеряли из-за сбоев API

→

точность — сколько % коммерческих запросов ошибочно выкинули

Что измеряли:

→

манго — это фрукт, а не товар из категории одежды, даже если есть бренд Mango

→

интимиссими — навигационный запрос, люди ищут бренд конкурента

→

бюстгальтер вторая кожа как называется — информационный запрос, человек хочет узнать термин, а не купить

→

стокманн интернет-магазин — ищут другую площадку

→

валлдербериз — кривая транслитерация конкурента

Примеры мусора и почему это мусор:

Задача — расширить структуру сайта на сотни тысяч новых теговых страниц под спрос.

→

худи

→

термобелье мужское

→

свадебные платья 2024

→

пуховик женский зимний купить

Примеры коммерческих запросов (с ними работаем):

Тестовый массив: 28 837 реальных запросов из одного проекта, полный список от худи до кардиган пинко.

Дальше покажем данные на примере одной категории — одежда и обувь.

На вход — список запросов из Keyso.
На выход — два списка: коммерческие запросы (под которые делаем страницы) и мусор (игнорируем).

→

запросы к товарам, которых нет в ассортименте

→

навигационные запросы к чужим брендам — люди ищут конкурентов

→

информационные запросы, потому что гайды и советы — не покупка

→

вообще не про одежду/обувь

Что нужно отсеять:

В итоге ресерча поняли, что необходим собственный ML-парсер. Разработали инструмент и автоматизировали 80% рутины, сократив в 6 раз при этом расходы для федерального e-commerce проекта.

Поможем обосновать ROI перед советом директоров и не слить бюджет подрядчика

Автоматизируем SEO для маркетплейсов и крупных интернет-магазинов

Полина
SEO-специалист

→ Результаты

Сводная таблица

→ Лучшие

Если нужно максимальное качество и есть время — DeepSeek справился лучше всех. Оценка 8 из 10.

Когда использовать: если качество важнее скорости и ты готов подождать — например, проработка приоритетных разделов, где каждый кластер на вес золота.

Стоимость: $ 0,667 — средняя цена, но если считать по времени — дорого.

Потери данных: 5% запросов потерялись, не катастрофа, но не идеал.

Время: 240 минут (4 часа) на 10 000 строк, самая медленная модель в тесте.

DeepSeek V3.1 — медленный перфекционист

Если выбирать одну модель для ежедневной работы — это она. Оценка 7 из 10, но с лучшим соотношением параметров.

Но с основными товарными категориями работает без проблем.

Когда использовать: для большинства задач, если нужно обработать сотни тысяч запросов и не разориться — это лучший выбор.

Стоимость: $ 0,263 — самая дешевая среди качественных.

Потери данных: всего 2% данных.

Время: 42 минуты на 10 000 строк, в 5 раз быстрее DeepSeek.

Gemini Flash 2 — оптимальный баланс

→

пропускает 20% мусора, в 2 раза больше, чем DeepSeek

→

3% коммерческих запросов отсеивает по ошибке

Компромиссы:

→

пропустила maag, непонятная транслитерация

→

не распознал интимиссими как бренд

Где косячит:

→

минимум ошибок — отсеял по ошибке всего 2% коммерческих запросов

→

отлично чистит мусор, пропустил только 10% — лучший результат

→

правильно определил манго, интимиссими, валлдербериз как мусор

Что делает хорошо:

→

странно обработал спецодежду — определил как товар, хотя это скорее категория

→

консервативен с брендами — посчитал мусором авалон, некст, asos, 2mood одежда

→

зато burberry пропустил корректно

Где косячит:

Минус — много мусора. Пропускает 30%, худший результат среди топовых.

Если deadline горит — бери эту модель. Оценка 7 из 10.

Когда использовать: срочные задачи, где каждая минута на счету или критично не потерять ни одного запроса.

Стоимость: $ 1,022 — в 4 раза дороже Gemini Flash 2.

Потери данных: меньше 1%, стабильный API.

Время: 26 минут на 10 000 строк, самая быстрая.

Gemini 2.5 Flash — самый быстрый

→ Дорогие модели

Показали оценку 5−7 из 10, при этом стоят в 10+ раз дороже Gemini Flash 2.

Переплата не оправдана.

Провал по price/quality

→

$3,658 за обработку

→

Пропускает 21% мусора, теряет 2% данных

Gemini 2.5 Pro — качество 5 из 10:

Стабильный API по цене BMW, но все равно пропускает мусор. Худшее соотношение цена/качество.

→

$3,487 за обработку

→

Пропускает 29% мусора, но 0% потерь

Claude Sonnet 4 — качество 7 из 10:

→ Китайские модели

Экономия не стоит риска потерять каждый пятый-седьмой запрос.

Дешево, но ненадежно

→

Цена: $0,268 — хорошо

→

Потери: 20% данных — плохо

Qwen3 235B A22B — качество 4 из 10:

→

Цена: $0,382

→

Потери: 7% данных

Kimi K2 0711 — качество 5 из 10:

→ GPT-4o

На бумаге выглядит привлекательно — $ 0,215 за обработку, на практике — потерял половину данных. Оценка 4 из 10.

Когда использовать: никогда.

Но плюсы не имеют значения, когда теряешь половину данных.

Пример: манго GPT-4o пропустил как коммерческий запрос (ошибка), а DeepSeek правильно определил как мусор.

Катастрофа

→

потерял 52% запросов — из 28837 строк вернул только 15954

→

модель просто съела половину данных и вернула неполный результат

→

32% сбоев API — постоянные обрывы и артефакты

Что пошло не так:

→

то, что успел обработать — обработал корректно

→

минимум ошибок классификации — меньше 1%

Что делает хорошо:

→ Конкретные примеры

Как модели обрабатывают запросы

→

DeepSeek: мусор ✅

→

GPT-4o: манго ❌ (пропустил как товар)

→

Остальные: в основном мусор

Запрос: манго

→

DeepSeek: мусор ❌ (не распознал бренд)

→

Gemini Flash 2: авалон ✅

→

Claude Sonnet 4: авалон ✅

Запрос: авалон (бренд одежды)

→

Все модели: мусор ✅ (правильно определили как чужой бренд)

Запрос: интимиссими

→

DeepSeek: burberry ✅ (пропустил как коммерческий)

→

Большинство: мусор ❌ (определили как навигационный)

Запрос: burberry

→

DeepSeek: спецодежда ✅ (как товарная категория)

→

Остальные: тоже пропустили

Запрос: спецодежда

→ Настройки модели имеют значение

Если модель отходит от ТЗ:

DeepSeek изначально определяла бренды как мусор из-за высокой temperature. Снизили до 20% — результат улучшился с 6 до 8 из 10.

Недостаточно просто выбрать модель — нужно правильно настроить параметры.

Temperature → 20% (снизить креативность)

Top-p / Top-k → снизить

Frequency/Presence penalty → убрать

→ Промптинг критически важен

Что мы сделали для улучшения качества:

Результат:

→

структурные ошибки DeepSeek: 49% → 7%

→

структурные ошибки GPT: остались на уровне 49%

Было: «Привяжи теговую страницу к категории»

Стало: «…если в запросе есть явный тип изделия (колье, браслет), выбери соответствующую товарную категорию из списка, игнорируя модификаторы (материал/вставка/пол/стиль/цвет/размер: жемчуг, гранат, мужские, женские и т. п.)…

Пример доработки промпта (структура сайта):

Даже лучшая модель работает плохо без правильного промпта

Получили результат от ИИ.

Сравнили с эталоном (ручная работа SEO-специалиста за 3 месяца).

Классифицировали типы ошибок.

Доработали промпт.

Повторили цикл до 8 из 10.

→ Сколько это стоит

10 000 кластеров

100 000 кластеров

Классический подход (ручная работа)

250 тыс. ₽

2,5 млн ₽

С лучшим ИИ (Gemini Flash 2)

25 тыс. ₽

250 тыс. ₽

Экономия в 3−6 раз по деньгам и в 10−15 раз по времени.

Порог эффективности — от 1 000 кластеров начинается экономия, до этого настройка системы стоит дороже.

Проанализируем конкурентов, оценим объем работ и спрогнозируем трафик для вашего проекта

Получите расчет каталога для вашего интернет-магазина

Софья
SEO-специалист

→ Что не могут LLM

→

массовая классификация запросов

→

генерация заголовков по шаблону

→

чистка семантики от очевидного мусора

Что LLM делают хорошо:

→

проверять результат на здравый смысл

→

понимать бизнес-контекст проекта

→

учитывать сезонность и приоритеты

→

настраивать промпты под специфику ниши

Что LLM не умеют:

Даже лучшая модель — это не замена SEO-специалиста. Оптимальная схема — ИИ обрабатывает 90−95%, человек проверяет и дорабатывает 5−10%.

Установите ограничения по частоте, чтобы не раздражать пользователей.

Не все LLM одинаково полезны

Модели за $ 3,5 показали результат не лучше, чем за $ 0,26.

Дорого ≠ качественно

DeepSeek медленный, но качественный. Gemini Flash быстрый и сбалансированный.

Скорость vs качество — выбирай под задачу

Одна и та же модель может показывать 4 или 8 из 10 в зависимости от настроек.

Настройки и промпты решают

Потеря 52% данных у GPT-4o — это не баг, а особенность работы с большими массивами.

Проверяй надежность

Максимум 95% качества, последние 5% — руками.

ИИ не заменяет специалиста

До 1 000 кластеров дешевле сделать руками.

Не все нужно автоматизировать

P.S. Записаться на 20-минутную питч-презу о том, как можно ускорить выполнение ваших SEO-задач в 12 раз с тем же бюджетом — на сайте умного маркетинга

P. P. S. Больше ноухау на стыке SEO и AI — в телеграм-канале @headofseo_um

GPT-4o, Qwen3, переплачивать за Pro-версии.

Нет смысла использовать

Gemini Flash 2. Быстро, дешево, качественно.

Лучший выбор для большинства задач:

→ Выводы

Если хотите узнать больше про автоматизацию SEO и ИИ-агентов

→ Дополнительные материалы

Оптимизация SEO под ИИ: GEO — это инвестиции в будущее

↘

SEO-продвижение интернет-магазина: за 3 месяца сделаем столько, сколько другие за 3 года

↘

Погрузимся в особенности вашего бизнеса, составим стратегию и запустим продвижение