Серверная система составления семантического ядра

Kaspruk Vitaly
Автор:
Kaspruk Vitaly
icon Calendar
icon eye
Содержание:

С 2013 года наши программисты разрабатывают систему полного цикла по автоматизации составления семантического ядра.

Appearance of the full-cycle keyword research system

Наше серверное оборудование

Мы используем 5 Linux (Ubuntu 20.04) и Windows Server 2019 серверов для автономного сбора.

Все сервера работают круглосуточно над сбором информации из поисковой выдачи, содержимого из страниц конкурентов, разгадыванием капчи,  группировкой семантического ядра и других необходимых процессов. 

What makes us different Windows serverHow we differ 5 Linux and Windows servers

Система парсинга поисковых запросов

Search query parsing module

Сбор ключей из 25+ платных, бесплатных и закрытых источников.
Адаптация и обход блокировок сбора информации со стороны поисковых систем нашими программистами производится максимально в течении 24 часов.

Система чистки ядра от мусора

У нас реализовано 16+ этапов чистки поисковых запросов от нецелевых запросов.

Search query cleanup module
Cleaning keywords by different parameters

Система кластеризации ключевых слов

Automatic keyword clustering

Еще в 2013 году наши программисты за 10 дней написали модуль кластеризации запросов (Hard, Soft и Middle). Он умеет работать с семантическими ядрами от 1 000 000 запросов.
НО, чтобы "выжать" из автоматической группировки максимум, мы 6 лет искали, разрабатывали и отлаживали различные модули докластеризации и автоисправления ошибок. Под каждый проект вручную устанавливаются свои модули / этапы.

Эти доработки позволили:
✓ На автомате кластеризировать от 80-90% запросов,
✓ Точность группировки увеличилась на 20-30%,
✓ Уменьшить цену и сроки сдачи ядра в 2 раза.

Система для ручной доработки семантики

Кластеризировать ядро только по ТОПам или только по интентам/логике - плохое решение. Мы с 2013 максимально совместили эти 2 подхода для составления семантического ядра! 
Данный этап идет после "автомата" и занимает до 60% всего времени. Различные модули и параметры позволяют получить максимально точные / полные кластера запросов. Семантист учитывает: типы сайтов «близких» конкурентов в ТОПе + интент запроса + специфику бизнеса.

Manual validation of keyword groups

Проверка семантики отделом качества в модуле «HandControl24»

Одна голова хорошо, а два опытных семантиста - лучше!
Отдел контроля проверит «ручную» доработку первого семантиста.
Данный этап занимает от 30 до 35% всего времени. Устраняется от 10 до 20% ошибок и «спорных» моментов.

Handcontrol module
Comparison of search results by clusters