Серверная система составления семантического ядра

С 2013 года наши программисты разрабатывают систему полного цикла по автоматизации составления семантического ядра.

Наше оборудование

Мы используем 5 Linux (Ubuntu 20.04) и Windows Server 2019 серверов для автономного сбора.

Чем мы отличаемся 5 Linux и Windows серверов

Все сервера работают круглосуточно над сбором информации из поисковой выдачи, содержимого из страниц конкурентов, разгадыванием капчи,  группировкой семантического ядра и других необходимых процессов. 

Чем мы отличаемся Windows сервер

Система парсинга поисковых запросов

Модуль парсинга поисковых запросов

Сбор ключей из 25+ платных, бесплатных и закрытых источников.
Адаптация и обход блокировок сбора информации со стороны поисковых систем нашими программистами производится максимально в течении 24 часов.

Система чистки ядра от мусора

У нас реализовано 16+ этапов чистки поисковых запросов от нецелевых запросов.

Модуль чистки поисковых запросов

Система кластеризации

Этапы автоматической кластеризации запросов

Еще в 2013 году наши программисты за 10 дней написали модуль кластеризации запросов (Hard, Soft и Middle). Он умеет работать с семантическими ядрами от 1 000 000 запросов.
НО, чтобы "выжать" из автоматической группировки максимум, мы 6 лет искали, разрабатывали и отлаживали различные модули докластеризации и автоисправления ошибок. Под каждый проект вручную устанавливаются свои модули / этапы.

Эти доработки позволили:
✓ На автомате кластеризировать от 80-90% запросов,
✓ Точность группировки увеличилась на 20-30%,
✓ Уменьшить цену и сроки сдачи ядра в 2 раза.

Система для ручной доработки семантики

Кластеризировать ядро только по ТОПам или только по интентам/логике - плохое решение. Мы c 2013 максимально совместили эти 2 подхода для составления семантического ядра! 
Данный этап идет после "автомата" и занимает до 60% всего времени. Различные модули и параметры позволяют получить максимально точные / полные кластера запросов. Семантист учитывает: типы сайтов «близких» конкурентов в ТОПе + интент запроса + специфику бизнеса.

Модуль ручной группировки запросов

Проверка семантики отделом качества в модуле «HandControl24»

Одна голова хорошо, а два опытных семантиста - лучше!
Отдел контроля проверит «ручную» доработку первого семантиста.
Данный этап занимает от 30 до 35% всего времени. Устраняется от 10 до 20% ошибок и «спорных» моментов.

Модуль handcontrol
Виталий Каспрук
Автор:
Виталий Каспрук
Иконка календарь
08-05-2024
Иконка глаз
Иконка чата
0