Когда нужно обработать не 1000 запросов, а 500 000 — ручная работа не масштабируется. Нанять 12 человек? Дорого и долго. Мы выбрали третий путь: выстроили пайплайн автоматизации через LLM.

Результат: 50−100 тысяч запросов в сутки, экономия в 3−6 раз по деньгам и в 10−15 раз по времени.

Рассказываем, как это работает технически, где все еще нужны руки специалистов, а где уже можно начать масштабироваться быстрее за счет автоматизации SEO.

Разбираем полный цикл автоматизации SEO-работ через нейросети — от парсинга запросов до прописанных H1. С архитектурой, стеком технологий и реальными цифрами производительности.

Оглавление

Проблема

Решение: трехуровневая архитектура

Уровень 1 — SQL БД

Уровень 2 — Python Parser

Уровень 3 — LLM через OpenRouter

Полный пайплайн: 8 этапов от запроса до готовой страницы

Итоговая схема процесса

Цифры эффективности

Экономика

Подводные камни

Чеклист: что нужно для запуска пайплайна

Итоги: когда это имеет смысл

Что дальше

Технологический стек

Классический SEO-процесс для крупного проекта выглядит так:

Выгружаем семантику из Keyso/Serpstat частями (лимит выгрузки)

Склеиваем куски в Excel (лимит 1 048 576 строк)

Вручную чистим мусор

Кластеризуем

Строим структуру

Типизируем страницы (категория/тег/товар)

Прописываем H1, Title, Description

Прописываем анкоры для внутренней перелинковки

За 3 месяца классической работы команда из 6 человек обработала только 10% объема. Рентабельность -60%, все перерабатывают, качество страдает.

Нужно было решение, которое масштабируется

→

Чистка семантики жрет 40% времени команды

→

Структура — самая дорогая задача (требует экспертизы и внимания)

→

Типизация и заголовки — рутина, но тоже долго

→

Keyso по умолчанию не отдает всю семантику сразу по большому проекту

→

Excel умирает на миллионе строк — медленно, больно, неэффективно

Проблемы на каждом этапе:

→ Проблема

Excel не тянет, люди не масштабируются

→ Решение: трехуровневая архитектура

[SQL БД]←→[Python API Parser]←→[LLM через OpenRouter]

Хранение

↑

Оркестрация

↑

Обработка

↑

Выстроили систему из трех уровней:

[SQL БД]
↑
↓
[Python API Parser]
↑
↓
[LLM через OpenRouter]

Хранение

→

Оркестрация

→

Обработка

→

→ Уровень 1

SQL БД — хранилище и источник данных

→

Хранит миллионы строк без проблем

→

API парсинг напрямую из Keyso и JustMagic в БД

→

Метчинг ключей на стороне БД (быстрее и надежнее)

→

Выгружаем данные небольшими порциями для обработки

Зачем нужна БД, а не Excel:

Структура данных в БД:

→

Сам запрос

→

Частотность (WS, «WS», «!WS», «[WS]», «[!WS]»)

→

Позиции конкурентов

→

URL-адреса где ранжируются конкуренты

→

Результаты классификации (категория)

→

Номер кластера

→

Тип страницы

→

Готовые заголовки/анкоры

Что хранится:

→ Уровень 2

Задача парсера:

Взять данные из БД (CSV на вход)

Разбить на куски по 200−300 строк (лимит контекста LLM)

Отправить через API к нейросети

Склеить результаты обратно

Сохранить в БД

Python Parser — оркестратор процесса

→

Веб-интерфейс нормально обрабатывает 200−300 строк

→

Больше — начинает «тупить» и терять качество

→

Запускать вручную кусками по 200 строк для 100 000 запросов = ад

Почему не через веб-интерфейс ChatGPT:

→

Выбор шаблона задачи (чистка СЯ, H1, структура, анкоры)

→

Поле для промпта (можно править на лету)

→

Выбор модели из 300+ доступных

→

Размер итерации (по умолчанию 200)

→

Количество итераций (сколько запускать параллельно)

Интерфейс парсера (скриншот из материалов):

Архитектура парсера:

# Упрощенная схема
CSV_FILE = «input.csv» # Исходные данные
TXT_PROMPT = «prompt.txt» # Промпт для LLM
CHUNK_SIZE = 250 # Размер куска

def process():
data = load_csv(CSV_FILE)
chunks = split_to_chunks(data, CHUNK_SIZE)

results = []
for chunk in chunks:
response = api_call_to_llm(chunk, TXT_PROMPT)
results.append(response)

final_csv = merge_results(results)
save_to_db(final_csv)

→

5 ПК в локальной сети

→

10 копий парсера на каждом ПК

→

Свой API-ключ для каждого ПК

Решение:

Проблема: один API-ключ + один ПК = узкое горлышко.

Итого: 50 параллельных потоков обработки.

Почему важно разделение по ключам: Много копий парсера на одном API-ключе → качество падает, скорость не растет.

Квантовый скачок производительности:

→ Уровень 3

Но популярность ≠ качество для SEO-задач (см. наше исследование по 9 моделям).

Популярность моделей для SEO/Marketing (данные OpenRouter):

Claude 3.7 Sonnet — 37.9M токенов/неделя

GPT-4o-mini — 35.6M токенов/неделя

Gemini 2.0 Flash — 25M токенов/неделя

Gemini 2.0 Flash Lite — 17.7M токенов/неделя

LLM через OpenRouter — обработка данных

→

Доступ к 300+ нейросетям через единый API

→

Можно быстро переключаться между моделями

→

Мониторинг трендов (какие модели популярны)

→

Единая биллинговая система

Почему OpenRouter, а не напрямую к ChatGPT:

На своем примере показываем, как составили грамотную инфраструктуру из ИИ-агентов для федерального ecom-проекта. В итоге помогли клиенту не только сэкономить миллионы рублей, но и опередить работу на 2 года вперед. Поможем расширить структуру сайта, оптимизировать существующий контент и многое другое через автоматизацию SEO.

Заполните форму ниже и получите расчет для вашего каталога

Рассчитаем внедрение ИИ на вашем сайте

Полина
SEO-специалист

→ Полный пайплайн: 8 этапов от запроса до готовой страницы

Технологии: SQL, API Keyso/JustMagic, Python для оркестрации

Экономия: 50 часов и 85 000 рублей на 100к кластеров

Этап 0: Сбор и загрузка данных (автоматизация)

→

Выгружаем из Keyso CSV частями (лимит 100к строк)

→

Вручную склеиваем в Excel

→

Тратим 60 часов на 100к кластеров

Было:

→

API парсинг напрямую в SQL БД

→

Автоматическая склейка на уровне БД

→

10 часов на 100к кластеров

Стало:

→ Полный пайплайн: 8 этапов от запроса до готовой страницы

Задача: Определить, к какой категории относится запрос.

Модель: Gemini Flash 2 (быстрая и дешевая для первичной сортировки)

Результат: Семантика поделена по категориям, можем выгружать и работать по частям.

Определи категорию для запроса.
Доступные категории: Одежда и обувь, Спорт и отдых, Ювелирные украшения, […]
Верни только название категории, без пояснений.

Этап 1: Классификация запросов (ML)

→

«термобелье мужское» → Одежда и обувь

→

«палатка 4 местная» → Спорт и отдых

→

«кольцо с топазом» → Ювелирные украшения

Было:

→

На старте отсекаем нерелевантные категории

→

Работаем итерациями (сначала приоритетные/сезонные)

→

Не обрабатываем все подряд

Зачем:

Промпт (упрощенно):

→ Полный пайплайн: 8 этапов от запроса до готовой страницы

Задача: Отделить коммерческие запросы от мусора.

Входные данные: CSV с колонкой «Запрос»

Выходные данные: CSV с двумя колонками — «Запрос» и «Результат» (либо сам запрос, либо «Мусор»)

Этап 2: Чистка семантики (LLM)

→

Навигационные запросы к конкурентам («wildberries», «интимиссими»)

→

Информационные запросы («как выбрать», «что лучше»)

→

Нерелевантные запросы («манго» — фрукт, не бренд одежды)

Что считаем мусором:

→

Для максимального качества: DeepSeek V3.1 (8/10, но медленно)

→

Для баланса: Gemini Flash 2 (7/10, быстро и дешево)

Модель:

→

DeepSeek: 10% мусора пропущено, 2% коммерческих отсеяно, 240 мин, $ 0.67

→

Gemini Flash 2: 20% мусора пропущено, 3% коммерческих отсеяно, 42 мин, $ 0.26

Метрики качества (на 10к запросов):

Результат: Чистая семантика, готовая к кластеризации.

Задача: отфильтровать нецелевые запросы для интернет-магазина одежды.

Убери:

→

Запросы к конкурентам и другим брендам

→

Информационные запросы (советы, гайды)

→

Запросы не про одежду/обувь

Промпт (принцип):

Мы автоматизировали 80% рутины через собственную ML-лабораторию. И получили результат в 10 быстрее.

Обсудим конкретные задачи и рассчитаем экономику под ваш проект

Покажем, как применить ML-парсер для вашего проекта

Маша
SEO-специалист

→ Полный пайплайн: 8 этапов от запроса до готовой страницы

Задача: Сгруппировать запросы по интенту.

Важно: Эту задачу LLM пока не решают хорошо. Используем проверенные сервисы.

Этап 3: Кластеризация (внешние сервисы)

→

Key Collector (классика)

→

Rush Analytics

→

Топвизор

→

Собственные алгоритмы

Инструменты:

→

Из 100 000 запросов получаем, например, 15 000 кластеров

→

Каждый кластер = одна страница сайта

Результат:

→ Полный пайплайн: 8 этапов от запроса до готовой страницы

Задача: Проверить результат LLM и исправить косяки.

Кто делает: SEO-специалист (Middle/Senior)

Объем работы: Проверяем выборочно 5-10% результата

Важно: Это НЕ полная ручная работа, а контроль качества. Без этого этапа качество падает до 6−7 из 10.

Результат: Утвержденные кластеры, готовые к дальнейшей обработке.

Этап 4: Ручная проходка (человек + здравый смысл)

→

Адекватность чистки (не потеряли ли важное)

→

Корректность кластеризации

→

Смысловую логику

Что проверяем:

→ Полный пайплайн: 8 этапов от запроса до готовой страницы

Задача: Найти и объединить кластеры-дубли.

Модель: Gemini 2.5 Flash (быстрая, минимум потерь)

Найди кластеры с одинаковым интентом и объедини их.
Учитывай синонимы и перестановку слов.
Верни CSV с колонками: Исходный кластер | Объединить с кластером

Результат: Убрали дубли, структура стала чище.

Этап 5: Сцепка дублей (LLM)

→

«термобелье мужское» и «мужское термобелье»

→

«пуховик зимний женский» и «зимний женский пуховик»

→

«кольцо с топазом» и «топазовое кольцо»

Примеры дублей:

Промпт (принцип):

→ Полный пайплайн: 8 этапов от запроса до готовой страницы

Задача: Определить тип страницы для каждого кластера.

Модель: DeepSeek V3.1 (важна точность)

Определи тип страницы для запроса.
Типы: Категория, Категория + бренд, Тег, Товар, Бренд, Категория + атрибут

Результат: Каждый кластер размечен по типу, можем строить структуру.

Этап 6: Типизация страниц (LLM)

→

Категория («пуховики женские»)

→

Категория + атрибут («пуховики женские зимние»)

→

Категория + бренд («пуховики Nike»)

→

Тег («красные пуховики»)

→

Товар («пуховик Nike Air Max женский»)

→

Бренд («Nike одежда»)

Типы страниц:

→

Разные типы страниц = разные шаблоны

→

Разная структура URL

→

Разная стратегия продвижения

Зачем:

→

Если есть конкретная модель товара → Товар

→

Если бренд + общее («Nike одежда») → Бренд

→

Если категория + бренд («пуховики Nike») → Категория+бренд

→

Если только категория → Категория

Правила:

Промпт (упрощенно):

→ Полный пайплайн: 8 этапов от запроса до готовой страницы

Задача: Написать заголовок для каждой страницы.

Модель: Gemini 2.5 Flash (хороший баланс скорости и качества)

Экономия: 300 часов и 600 000 ₽.

Итеративная доработка промпта:

Как исправили:

Запустили LLM → получили плохой результат

Сравнили с эталоном (ручная работа SEO)

Классифицировали типы ошибок

Дописали правила в промпт

Повторили → качество выросло с 4 до 7−8 из 10

Этап 7: Формирование H1 (LLM)

→

Естественность (не «keyword keyword keyword»)

→

Правильный регистр (бренды на латинице, не «фокс про»)

→

Правильное число («Аккумулятор», не «Аккумуляторы», если запрос в ед. числе)

→

Правильный порядок слов («Печенье Shock», не «Shock Печенье»)

Требования к H1:

→

Было (руками): 320 часов, 640 000 ₽

→

Стало (LLM): 20 часов, 40 000 ₽

Результат на 100к кластеров:

Примеры ошибок ДО настройки промпта:

Правила формирования H1:

Фрагмент промпта после доработки:

Бренды ВСЕГДА на латинице (Fox Pro, не «фокс про»)

Регистр: первое слово с большой, остальные с маленькой (кроме брендов)

Число: как в запросе (если «аккумулятор» → не «аккумуляторы»)

Порядок слов: сначала товар, потом бренд («Печенье Shock», не «Shock Печенье»)

→ Полный пайплайн: 8 этапов от запроса до готовой страницы

Правильный ответ: «Колье ювелирные» (приоритет товарного класса над материалом)

Модель: DeepSeek V3.1 (самая точная для структуры)

→

Тег «Колье из жемчуга» → к какой категории привязать?

→

Варианты: «Украшения из жемчуга» (широко) или «Колье ювелирные» (узко)

Пример задачи:

Приоритет товарного класса:
Если в запросе есть явный тип изделия (колье, браслет, цепочка),
выбери товарную категорию, игнорируя модификаторы
(материал/вставка/пол: жемчуг, гранат, мужские).

Общий класс vs вариации:
Если доступны «Цепочки ювелирные» и «Цепочки мужские»,
всегда выбирай общий класс «Цепочки ювелирные».

Узкая товарная > широкая атрибутная:
«Колье ювелирные» (узкая товарная) лучше чем
«Украшения из жемчуга» (широкая атрибутная).

Ключевые правила в промпте (после доработки):

Результат: Древовидная структура с 6 уровнями вложенности, готовая к заливке на сайт.

Задача: Привязать теговые страницы к категориям, построить иерархию.

Этап 8: Построение структуры (LLM + логика)

→

DeepSeek: 7% структурных ошибок

→

ChatGPT-4: 49% структурных ошибок

Сравнение качества:

Примеры ошибок ChatGPT:

→ Итоговая схема процесса (визуализация)

Время прохождения 10 000 запросов через весь пайплайн: 4−6 часов (с учетом ручной проходки).

Команда: 6 человек (vs 18 человек без автоматизации).

→ Итоговая схема процесса (визуализация)

Время прохождения 10 000 запросов через весь пайплайн: 4−6 часов (с учетом ручной проходки).

Команда: 6 человек (vs 18 человек без автоматизации).

→ Цифры эффективности

Проект: Топ-10 e-commerce РФ, расширение структуры по категории одежда/обувь.

Экономия в 10 раз по времени.

Что получилось

→

Обработано: 450 000 кластеров (vs 50 000 без ИИ)

→

Скорость: 50 000 — 100 000 запросов в сутки

→

Создано: 690 000 новых страниц

→

Проработано: 19 000 категорий

→

Общий объем: 6 млн запросов в семантике

Результаты за 3 месяца с автоматизацией:

→

7 300 кластеров

→

35 000 запросов

Ежесуточная производительность:

→

Было: 10 минут на 1 кластер (сбор СЯ + H1 + структура)

→

Стало: 1 минута на 1 кластер

Время обработки:

→ Экономика

Сколько стоит автоматизация

→

Время: ~2 000 часов

→

ФОТ команды: ~2 500 000 ₽

→

Срок: 4-6 месяцев

Сравнение затрат на 100 000 кластеров:

Классический подход (без ИИ):

Экономия:

→

По деньгам: в 3.3 раза (1.75 млн ₽)

→

По времени: в 6−12 раз (4−5 месяцев)

→

Настройка пайплайна: ~100 часов работы

→

Стоимость настройки: ~200 000 ₽

Порог эффективности

До 1000 кластеров: дешевле сделать руками.

От 1 000 кластеров: автоматизация начинает окупаться.

От 10 000 кластеров: автоматизация дает кратную экономию.

100 000+ кластеров: без автоматизации вообще нереально в разумные сроки.

С автоматизацией (LLM):

→

Время: ~200 часов (человеко-часов)

→

ФОТ: ~400 000 ₽ (меньше людей)

→

Итого: ~750 000 ₽

→

LLM API: ~350 000 ₽ (все модели)

→

Срок: 2-4 недели

→ Подводные камни

LLM не понимают бизнес-контекст

→

LLM может предложить структуру под «купальники» зимой

→

Или не учтет, что у клиента нет определенных брендов

Проблема: Модель не знает специфику ниши, ассортимент, сезонность.

Решение: Ручная проходка 5−10% результата + корректировка промптов под нишу.

Пример:

Промпты нужно дорабатывать под каждый проект

→

В ювелирке: «кольцо с топазом» → категория «Кольца», не «Украшения с топазом»

→

В одежде: «пуховик красный» → тег, не категория

Проблема: Универсального промпта нет. Каждая ниша имеет особенности.

Решение: Итеративная доработка промптов с проверкой на эталоне.

Пример:

Качество LLM — максимум 95%

→

5−10% результата нужно проверять и править руками

→

Полностью доверять нельзя

Реальность: Даже лучшая модель (DeepSeek, 8/10) делает ошибки.

Решение: Гибридный подход = 90−95% ИИ + 5−10% человек.

Что это значит:

API могут падать

→

GPT-4o: 32% сбоев API

→

Qwen3: 20% потерь данных

Проблема: Сбои API убивают весь процесс.

Решение:

→

Выбирать стабильные модели (Gemini, Claude, DeepSeek)

→

Иметь резервную модель

→

Логировать все запросы для восстановления

Пример из исследования:

Кластеризация — слабое место LLM

Проблема: LLM пока плохо справляются с кластеризацией запросов.

Решение: Используем проверенные сервисы (Key Collector, Rush Analytics).

Разные задачи = разные модели

→

Чистка СЯ: Gemini Flash 2 (скорость + цена)

→

Структура: DeepSeek V3.1 (точность)

→

H1: Gemini 2.5 Flash (скорость + качество)

→

Типизация: DeepSeek V3.1 (точность)

Ошибка: Использовать одну модель для всех задач.

Решение: Выбирать модель под задачу, а не использовать одну для всего.

Реальность:

Подводные камни и где все еще нужны руки

Инфраструктура

SQL БД — хранение
Python 3.x — оркестрация
5 ПК в локальной сети — параллелизация

OpenRouter — доступ к 300+ LLM
Keyso API — парсинг семантики
JustMagic API — дополнительный источник

API и сервисы

Модели LLM

DeepSeek V3.1 — структура, типизация
Gemini Flash 2 — чистка СЯ, классификация
Gemini 2.5 Flash — H1, скорость
Claude Sonnet 4 — резерв для критичных задач

Инструменты кластеризации

Key Collector
Rush Analytics
Топвизор

Дополнительная автоматизация

Google Apps Script — интеграции
API коннекторы различных SEO-сервисов

→ Технологический стек

→ Чеклист: что нужно для запуска пайплайна

→

Python-скрипт для API запросов к LLM

→

SQL БД, можно начать с SQLite

→

Аккаунт OpenRouter — $ 50 на старте

→

Тестовый массив 1 000—5 000 запросов

→

SEO-специалист для настройки промптов

Бюджет: ~50 000 рублей (работа + API)

Срок: 2−3 недели на настройку

Минимальный вариант для теста

Полноценный вариант для production

→

SQL БД с API интеграцией Keyso

→

Python-парсер с интерфейсом

→

Аккаунты OpenRouter на каждый ПК

→

3−5 ПК для параллелизации

→

Команда: 2−3 SEO + 1 Python-разработчик

→

Набор промптов под разные задачи

→

Процесс ручной проходки

Бюджет: 200 000 — 500 000 рублей на настройку

Срок: 1−2 месяца на развертывание

→ Итоги: когда это имеет смысл

ИИ обрабатывает 90−95% → Человек проверяет 5−10% → Результат 8/10

→ Что дальше

Автоматизация SEO через LLM — это не замена специалистов, а инструмент масштабирования.

Генерация мета-описаний с учетом CTR

Предсказание приоритетных кластеров

Автоматическая привязка товаров к категориям

Автоматизация генерации контента

Следующие шаги:

Технологии быстро развиваются. То, что год назад делали руками за месяц, сегодня автоматизируется за неделю.

Главное: не пытаться заменить людей ИИ, а дать людям инструмент для работы с нечеловеческими объемами.

Хочешь внедрить такой пайплайн в своем проекте? Пиши @headofseo_um — разберем специфику и посчитаем целесообразность.

Формула успеха:

Для крупного e-commerce обычное SEO не поспевает за темпом рынка. Чтобы оставаться в топе нужна гибрид-команда: люди + AI. Пока И И работает с рутиной, люди занимаются стратегией и настраивают логику под проект. В результате ИИ-инструменты работают в 10 раз быстрее ручного труда, сохраняя достойный уровень контента.

Поможем автоматизировать SEO для вашего проекта

Обсудим конкретные задачи и рассчитаем экономику под ваш проект