n8n: автоматический скрейпинг сотрудников и верификация email
Как собрать полный список сотрудников компании и автоматически обогатить его верифицированными email-адресами с помощью n8n-воркфлоу.
Зачем собирать сотрудников компании автоматически?
Представьте: вам нужно выйти на 50 компаний, в каждой найти нужных людей — директоров по маркетингу, CTO, HR-менеджеров — и получить их рабочие email-адреса. Вручную это занимает дни работы: LinkedIn, сайты компаний, сервисы поиска email, проверка доставляемости. Один менеджер — 5–10 минут. Триста менеджеров — неделя.
n8n-воркфлоу решает эту задачу в фоновом режиме. Вы запускаете его один раз, а через час получаете в Google Sheets готовый список с именами, должностями, компаниями и верифицированными рабочими email-адресами.
В этой статье разберём архитектуру такого воркфлоу от А до Я: какие инструменты использовать, как настроить каждый шаг, и какие подводные камни вас ждут.
Почему именно n8n, а не Zapier или Make?
Прежде чем погружаться в детали, стоит ответить на вопрос: почему n8n?
Zapier и Make берут оплату за каждую операцию или задачу. Когда воркфлоу обрабатывает 500 компаний, обогащает каждую, ищет контакты и верифицирует email — это тысячи операций за одну сессию. Стоимость растёт стремительно. n8n же списывает оплату за каждый запуск воркфлоу, а не за шаг внутри него — сложная цепочка из 20 нод стоит столько же, сколько простейшая двухшаговая автоматизация.
Self-hosted n8n бесплатен — вы платите только за сервер (обычно $5–20 в месяц для небольших инстансов). n8n Cloud начинается от €24/месяц (~$27) за 2 500 запусков воркфлоу.
Ещё один аргумент — приватность данных. Воркфлоу лидогенерации работает с чувствительными данными о потенциальных клиентах. Часть компаний предпочитает хранить их на собственных серверах, а не пропускать через сторонние платформы — self-hosted n8n делает это возможным.
n8n предлагает более 400 интеграций, включая CRM (HubSpot, Salesforce, Pipedrive), email-инструменты (Gmail, Lemlist, Instantly), источники данных о лидах (LinkedIn через скрейперы, Hunter.io), таблицы (Google Sheets, Airtable) и AI-модели (OpenAI, Anthropic, Google Gemini).
Архитектура воркфлоу: как это работает
Весь пайплайн состоит из четырёх логических блоков:
graph TD
A[📋 Google Sheets\nСписок компаний] --> B[🔍 Apify / PhantomBuster\nСкрейпинг сотрудников LinkedIn]
B --> C{Найдены профили?}
C -- Да --> D[🔗 Dropcontact\nEmail → LinkedIn URL]
C -- Нет --> E[⚠️ Пометить как failed]
D --> F[📧 Serper + OpenRouter\nОпределение email-паттерна]
F --> G[✅ Prospeo / Hunter.io\nВерификация email]
G --> H[💾 Google Sheets\nОбогащённая база]
H --> I[🚀 CRM / Email-рассылка]
Шаг 1. Входные данные — список компаний
Всё начинается с Google Sheets. Воркфлоу стартует со списка URL-адресов или доменов сайтов в Google Sheets (по одному на строку). Нода Apify запускает Email & Phone Extractor для сбора email-адресов, номеров телефонов и ссылок на соцсети. Результаты записываются в новый лист с найденными контактами и источниками.
Для сбора именно сотрудников (а не просто контактов с сайта) используется скрейпинг LinkedIn Company Pages.
Шаг 2. Скрейпинг сотрудников через Apify
Для каждого лида, который ещё не был обработан, воркфлоу использует актор Apify для скрейпинга LinkedIn-профиля, извлекая ключевую информацию: раздел «О себе» и подробный опыт работы.
Apify — наиболее надёжный вариант для скрейпинга LinkedIn в рамках n8n. Воркфлоу использует Apify Actor «LinkedIn Profile Scraper» (ID: apify/linkedin-profile-scraper). Этот актор самостоятельно обрабатывает аутентификацию, ограничения частоты запросов и защиту от ботов.
LinkedIn-скрейпер в среднем безопасно обрабатывает 50–100 профилей в час. Для больших объёмов настройте ротацию прокси в настройках актора.
В результате для каждого сотрудника вы получаете структуру:
{
"linkedinUrl": "https://www.linkedin.com/in/johndoe",
"firstName": "John",
"lastName": "Doe",
"fullName": "John Doe",
"headline": "Senior Product Manager at Tech Corp",
"connections": 1247,
"location": "San Francisco Bay Area",
"company": "Tech Corp",
"positions": [...],
"skills": ["Product Management", "Agile", "Strategy"]
}
Шаг 3. Определение email-паттерна и построение адреса
Это — сердце воркфлоу. Зная имя сотрудника и домен компании, нужно угадать формат корпоративного email.
Воркфлоу забирает только строки в Google Sheet, где Status = FALSE. Затем делает запрос к Serper.dev для поиска снипетов и передаёт их в Gemini Flash (через OpenRouter), чтобы выявить доминирующий формат email. После этого строится вероятный адрес для каждого имени и фамилии.
Пример JavaScript-логики в Code Node для построения адресов:
const patterns = [
`${firstName}.${lastName}@${domain}`,
`${firstName[0]}${lastName}@${domain}`,
`${firstName}@${domain}`,
`${lastName}.${firstName}@${domain}`
];
// Берём паттерн, определённый AI-моделью
return patterns[detectedPatternIndex];
{first}.{last}@company.com) прямым запросом к домену.Шаг 4. Верификация email в реальном времени
Построить адрес — мало. Нужно убедиться, что он существует и принимает почту.
Для верификации по умолчанию используется Prospeo (через API) или опционально массовая очистка через Sparkle.io. После проверки воркфлоу обновляет таблицу: паттерн, email, уровень уверенности, статус верификации — и переключает Status в TRUE. Затем цикл продолжается партиями, чтобы не превышать лимиты API.
Альтернативный вариант — двойная проверка через mails.so. Валидность email проверяется через mails.so — фильтруются недоставляемые или неактивные адреса путём проверки MX-записей и доставляемости.
Водопадная (waterfall) стратегия обогащения
Одного провайдера данных недостаточно. Настоящая мощь — в каскаде источников.
Одна из ключевых паттернов при работе с email-обогащением — waterfall enrichment.
Обогащение обычно работает по водопадному принципу: если Hunter не находит верифицированный email, пробуем RocketReach. Если промахивается и он — подключаем третий источник. Такой подход обычно даёт покрытие 80%+ против 40–50% от любого одного провайдера.
Вот сравнение популярных инструментов для обогащения email:
| Инструмент | Что делает | Бесплатный тариф | Особенности |
|---|---|---|---|
| Hunter.io | Поиск и верификация email по домену | 25 запросов/мес | API + паттерны домена |
| Prospeo | Верификация, поиск по имени + домену | 75 кредитов/мес | SMTP-верификация |
| Dropcontact | Email → LinkedIn URL | Платный | GDPR-compliant |
| Apollo.io | Full enrichment: email, телефон, соцсети | 50 экспортов/мес | Большая B2B-база |
| Clearbit | Enrichment по email или домену | Нет | Точность, но дорого |
| mails.so | Валидация MX-записей | Есть | Двойная проверка доставляемости |
Полная настройка воркфлоу: пошагово
Что понадобится
- n8n (self-hosted или Cloud)
- Аккаунт Apify (LinkedIn Profile Scraper / Company Employees Scraper)
- API-ключ Serper.dev
- Аккаунт OpenRouter (доступ к Gemini Flash или GPT-4o-mini)
- Аккаунт Prospeo или Hunter.io
- Google Sheets (для хранения данных)
Шаг 1 — Настройка тригера и источника данных
Для автоматического запуска замените Manual Trigger на Cron Node — и таблица будет обогащаться сама каждое утро.
Структура Google Sheet на входе:
| company_name | domain | status |
|---|---|---|
| Acme Corp | acme.com | FALSE |
| TechNova | technova.io | FALSE |
Шаг 2 — Запуск Apify Company Employees Scraper
Используйте HTTP Request ноду для запуска актора:
POST https://api.apify.com/v2/acts/apify~linkedin-company-employees-scraper/runs
{
"companyUrl": "https://www.linkedin.com/company/acme-corp",
"maxResults": 100,
"filters": {
"titles": ["CTO", "VP Marketing", "Head of Sales"]
}
}
Шаг 3 — Ожидание и получение датасета
Добавьте ноду Wait (30–60 секунд), затем снова HTTP Request для получения результатов:
GET https://api.apify.com/v2/acts/{actorId}/runs/last/dataset/items
Шаг 4 — Определение паттерна и построение email
HTTP Request → Serper.dev для поиска site:linkedin.com/in @domain.com email format, затем Code Node с AI-запросом к OpenRouter:
// Пример промпта для OpenRouter
const prompt = `
Вот сниппеты из поиска по домену ${domain}.
Определи наиболее вероятный формат корпоративного email.
Ответь ТОЛЬКО форматом: {first}.{last}, {f}{last}, {first} и т.д.
Сниппеты: ${snippets}
`;
Шаг 5 — Верификация через Prospeo
POST https://api.prospeo.io/email-verifier
{
"email": "john.doe@acme.com"
}
Ответ содержит поле status: valid, invalid, risky, unknown.
Шаг 6 — Запись в Google Sheets
Воркфлоу обновляет лист с полями: паттерн, email, уровень уверенности, статус верификации — и переключает Status в TRUE. Добавьте также поля scraped_at (timestamp) и source для трекинга.
Автоматическое обновление и защита от устаревших данных
Люди меняют работу. Email становятся недействительными. База лидов деградирует со временем.
Воркфлоу можно запускать еженедельно или ежемесячно, проверяя записи на признаки устаревания: дату последней активности, возраст данных, известные смены работы. Устаревшие записи проходят повторное обогащение. Смена работы триггерит обновление — новая должность, новая компания, иногда поздравительная последовательность outreach. Записи, которые не удаётся верифицировать, помечаются для ревью. Такая автоматизация предотвращает постепенную деградацию качества данных, которая делает CRM-системы бесполезными.
Итоги и следующие шаги
n8n-воркфлоу для скрейпинга сотрудников и верификации email — это не просто экономия времени. Это смена парадигмы в outbound-продажах: вместо того чтобы искать людей вручную, вы описываете идеальный профиль и получаете готовую базу автоматически.
Ключевые выводы:
- n8n изменил правила игры, сделав сложные пайплайны для извлечения данных доступными через визуальную автоматизацию. Имея более 500 интеграций и AI-ноды, можно построить скрейпер, на кодинг которого ушли бы недели — за считанные минуты.
- Используйте waterfall enrichment — каскад из нескольких провайдеров даёт 80%+ покрытие vs 40–50% от одного сервиса
- Верифицируйте через SMTP (Prospeo, mails.so) — не только через синтаксис
- Настройте Cron-тригер для регулярного обновления базы
- Всегда соблюдайте GDPR и Terms of Service платформ
Следующий уровень — добавить AI-персонализацию: воркфлоу отправляет обогащённые профили в Google Gemini через LangChain, используя сложный промпт, инструктирующий модель работать как эксперт по B2B-копирайтингу. AI анализирует весь карьерный путь лида, чтобы найти уникальные «зацепки» и написать compelling opening line.
Автоматизация — это не замена человека в продажах. Это освобождение от рутины, чтобы сосредоточиться на том, что действительно важно: настоящем разговоре с нужным человеком.