logo

Techlead/Senior Data Engineer (Core Data Platfrom)

Москва, Санкт-Петербург, комбинированный гибридный режим работы (дистанционно-офисный) · Data team
Откликнуться

Мы — Атом. Разрабатываем электромобиль-гаджет и его версии для семьи, такси, каршеринга и службы доставки, а также собственный маркетплейс приложений и другие сервисы.

Тут можно посмотреть ролик.

Ищем TechLead/Senior Data Engineer (Core Data Platfrom) в команду Data, которая cтроит современную и гибкую платформу данных без хадуповского легаси: 

  • Data Lake
  • Data WhareHouse,
  • Data Streaming,
  • Data Integrations,
  • Data Governance.

Технологический стек:

  • Spark+Iceberg,
  • S3,
  • Trino,
  • Kafka,
  • Flink,
  • Cassandra,
  • Superset,
  • Openmetadata,
  • GraphQL,
  • Airflow,
  • ArgoCD.

Обязанности

  • Построение моделей данных и разработка схем для новых источников.
  • Оптимизация DataLakeHouse для ускорения big-data пайплайнов и улучшения хранения данных в формате Iceberg tables.
  • Проведение code review для поддержания стандартов кода и улучшения codebase.
  • Написание и автоматизация ETL/ELT пайплайнов для извлечения и преобразования данных из различных источников.
  • Дизайн и разработка масштабируемой архитектуры данных.
  • Создание платформенных решений для сбора, хранения и анализа данных с учётом безопасности, стабильности и масштабируемости.
  • Подготовка промышленных витрин с фичами для ML-моделей в сотрудничестве с ML-командой.
  • Автоматизация контроля доступа к данным и внедрение механизмов Data Management и Data Governance на основе OpenMetadata и Online Policy Agent.

Требования

  • Опыт работы в аналогичной или схожей роли в команде по разработке данных: code-review, развитие направления, внедрение паттернов и подходов от 1 года.
  • Опыт коммерческой разработки на Python от 2 лет.
  • Уверенное знание SQL.
  • Опыт работы с данными: Apache Iceberg, S3, PostgreSQL, ClickHouse, MySQL.
  • Опыт работы от 2 лет с Big Data ETL: Apache PySpark, Apache Beam.
  • Опыт работы с Kubernetes и Airflow: k8s-spark-operator, Airflow KubernetesPodOperator, SparkOperator и др.
  • Понимание разницы между Data Lakes и Data Warehouses.
  • Способность вести сложные проекты, поддерживать и улучшать codebase.
  • Готовность выступать техническим консультантом для команд, оценивать решения с учетом их влияния на другие направления.
  • Глубокое знание лучших практик в Data Engineering: стандарты, качество, постоянное развитие.
  • Умение балансировать технические и бизнес-потребности, вести переговоры с stakeholders и предлагать сбалансированные решения.

Будет плюсом:

  • Опыт работы в software engineering: настройка интеграция сервисов, разработка и деплой API.
  • Опыт разработки архитектуры поставки данных от концепции до продакшена.
  • Знание современных практик software delivery: CI/CD, DevOps.
  • Опыт деплоя приложений через ArgoCD.
  • Опыт работы с крупномасштабными решениями потоковой передачи данных (Kafka) и батчевой обработки событий (Spark Structured Streaming).
  • Опыт работы с подходами Data-as-a-code.
  • Знание Kubernetes deployments и инфраструктурного provisioning (Terraform).

Условия

  • Высокотехнологичный продукт, которым хочется гордиться.
  • Работа в международной команде.
  • Трудоустройство в аккредитованной ИТ-компании.
  • Годовая премия и дополнительные бонусы в кафетерии льгот, которые можно тратить на питание, транспорт, ДМС со стоматологией, страхование жизни и имущества, фитнес, образование и другое.
  • Бесплатный доступ к платформе с обучающими курсами iSpring, спортивные командные игры и другие приятные мелочи.

Как будем общаться:

  • Интервью с HR.
  • Полуторачасовое техническое видео-интервью с Lead DWH & DataLake.
  • Финальное часовое видео-интервью с Head of Data.
  • Job offer.

Пройди вместе с нами крутой кейс по созданию электромобиля с нуля!

Расскажите об этой вакансии в соцсетях

Отклик на вакансию:

Откликаясь на вакансию, вы даете согласие на обработку ваших персональных данных и соглашаетесь с политикой конфиденциальности Атом