Серверна система збору семантичного ядра

З 2013 року наші програмісти розробляють систему повного циклу з автоматизації збору семантичного ядра.

Наше серверне обладнання
Ми використовуємо 5 Linux (Ubuntu 20.04) і Windows Server 2019 серверів для автономного збору.
Всі сервери працюють цілодобово над збором інформації з пошукової видачі, вмісту зі сторінок конкурентів, розгадуванням капчі, групуванням семантичного ядра та інших необхідних процесів.
Система парсингу пошукових запитів

Збір ключів з 25+ платних, безкоштовних та закритих джерел.
Адаптація та обхід блокувань збору інформації з боку пошукових систем нашими програмістами виконується максимально протягом 24 годин.
Система чищення ядра від сміття
У нас реалізовано 16+ етапів чищення пошукових запитів від нецільових ключів.

Система кластеризації ключових слів
Ще у 2013 році наші програмісти за 10 днів написали модуль кластеризації запитів (Hard, Soft і Middle). Він уміє працювати з семантичними ядрами від 1 000 000 запитів.
АЛЕ, щоб "вижати" з автоматичного групування максимум, ми 6 років шукали, розробляли та налагоджували різні модулі докластеризації та автовиправлення помилок. Під кожен проект вручну встановлюються свої модулі / етапи.
Ці доопрацювання дозволили:
✓ На автоматі кластеризувати від 80-90% запитів,
✓ Точність групування збільшилася на 20-30%,
✓ Зменшити ціну та терміни здачі ядра у 2 рази.
Система для ручного доопрацювання семантики
Кластеризувати ядро тільки по ТОПах або тільки по інтентах/логіці - погане рішення. Ми з 2013 максимально поєднали ці 2 підходи для складання семантичного ядра!
Даний етап йде після "автомата" і займає до 60% всього часу. Різні модулі та параметри дозволяють отримати максимально точні / повні кластери запитів. Семантист враховує: типи сайтів «близьких» конкурентів у ТОПі + інтент запиту + специфіку бізнесу.
Перевірка семантики відділом якості в модулі «HandControl24»
Одна голова добре, а два досвідчених семантисти - краще!
Відділ контролю перевірить «ручне» доопрацювання першого семантиста.
Данний етап займає від 30 до 35% усього часу. Усувається від 10 до 20% помилок і «спірних» моментів.
