Серверна система збору семантичного ядра

Автор:

Vitaly Kaspruk

10.07.2025

Зміст:

З 2013 року наші програмісти розробляють систему повного циклу з автоматизації збору семантичного ядра.

Наше серверне обладнання

Ми використовуємо 5 Linux (Ubuntu 20.04) і Windows Server 2019 серверів для автономного збору.

Всі сервери працюють цілодобово над збором інформації з пошукової видачі, вмісту зі сторінок конкурентів, розгадуванням каптчі, групуванням семантичного ядра та інших необхідних процесів.

Система парсингу пошукових запитів

Збір ключів з 25+ платних, безкоштовних та закритих джерел.
Адаптація та обхід блокувань збору інформації з боку пошукових систем нашими програмістами виконується максимально протягом 24 годин.

Система чищення ядра від сміття

У нас реалізовано 16+ етапів чищення пошукових запитів від нецільових ключів.

Система кластеризації ключових слів

Ще у 2013 році наші програмісти за 10 днів написали модуль кластеризації запитів (Hard, Soft і Middle). Він уміє працювати з семантичними ядрами від 1 000 000 запитів.
АЛЕ, щоб "вижати" з автоматичного групування максимум, ми 6 років шукали, розробляли та налагоджували різні модулі докластеризації та автовиправлення помилок. Під кожен проект вручну встановлюються свої модулі / етапи.

Ці доопрацювання дозволили:
✓ На автоматі кластеризувати від 80-90% запитів,
✓ Точність групування збільшилася на 20-30%,
✓ Зменшити ціну та терміни здачі ядра у 2 рази.

Система для ручного доопрацювання семантики

Кластеризувати ядро тільки по ТОПах або тільки по інтентах/логіці - погане рішення. Ми з 2013 максимально поєднали ці 2 підходи для складання семантичного ядра!
Даний етап йде після "автомата" і займає до 60% всього часу. Різні модулі та параметри дозволяють отримати максимально точні / повні кластери запитів. Семантист враховує: типи сайтів «близьких» конкурентів у ТОПі + інтент запиту + специфіку бізнесу.

Перевірка семантики відділом якості в модулі «HandControl24»

Одна голова добре, а два досвідчених семантисти - краще!
Відділ контролю перевірить «ручне» доопрацювання першого семантиста.
Даний етап займає від 30 до 35% усього часу. Усувається від 10 до 20% помилок і «спірних» моментів.

Перевірка семантики відділом якості в модулі «HandControl24»