Немного о нас: PulsePoint — ведущая технологическая компания, которая использует реальные данные в режиме реального времени для оптимизации эффективности кампаний и революционного процесса принятия решений в области здравоохранения. Используя собственные наборы данных и методологию, PulsePoint нацелен на медицинских работников и пациентов с беспрецедентным уровнем точности, обеспечивая беспрецедентные результаты для клиентов, которых мы обслуживаем. В настоящее время компания является частью Int
Немного о нас: PulsePoint — ведущая технологическая компания, которая использует реальные данные в режиме реального времени для оптимизации эффективности кампаний и революционного процесса принятия решений в области здравоохранения. Используя собственные наборы данных и методологию, PulsePoint нацелен на медицинских работников и пациентов с беспрецедентным уровнем точности, обеспечивая беспрецедентные результаты для клиентов, которых мы обслуживаем. В настоящее время компания является частью Internet Brands, портфельной компании KKR и владельцем WebMD Health Corp. Инженер по обработке данных Команда PulsePoint Data Engineering играет ключевую роль в нашей технологической компании, которая переживает экспоненциальный рост. Наш конвейер данных обрабатывает более 80 миллиардов показов в день (> 20 ТБ данных, 220 ТБ в несжатом виде). Эти данные используются для создания отчетов, обновления бюджетов и управления нашими механизмами оптимизации. Мы делаем все это, соблюдая чрезвычайно жесткие соглашения об уровне обслуживания, и предоставляем статистику и отчеты, максимально приближенные к реальному времени. Самое интересное в работе в PulsePoint — это огромный потенциал для личного и профессионального роста. Мы всегда ищем новые и более совершенные инструменты, которые помогут нам решить такие задачи, как внедрение проверенных технологий с открытым исходным кодом, чтобы сделать нашу инфраструктуру данных более гибкой, масштабируемой и надежной. Некоторые из передовых технологий, которые мы недавно внедрили, — это Kafka, Spark Streaming, Presto, Airflow и Kubernetes. Чем вы будете заниматься: Проектировать, создавать и поддерживать надежные и масштабируемые распределенные системы обработки транзакционных данных корпоративного уровня для масштабирования. существующий бизнес и поддержка новых бизнес-инициатив. Оптимизация рабочих мест для наиболее эффективного использования ресурсов Kafka, Hadoop, Presto, Spark и Kubernetes. Мониторинг и обеспечение прозрачности качества данных в разных системах (точность, согласованность, полнота и т. д.). Повышение доступности и эффективности данных. (работать с аналитиками, специалистами по данным и разработчиками для создания/развертывания инструментов и наборов данных, соответствующих их сценариям использования) Сотрудничать в небольшой команде с разнообразным технологическим опытом Предоставлять наставничество и рекомендации младшим членам команды Обязанности команды: Принимать, проверять и обрабатывать внутренние и сторонние dataСоздание, поддержка и мониторинг потоков данных в Spark, Hive, SQL и Presto для обеспечения согласованности, точности и времени задержки. Поддержание и улучшение инфраструктуры для заданий (в основном агрегирование заданий в Spark и Hive). Создание различных потребителей данных в Kafka с использованием Spark Streaming для агрегации в реальном времени. Инструмент оценка/выбор/реализацияРезервное копирование/хранение/высокая доступность/планирование емкостиПросмотр/утверждение — DDL для базы данных, заданий Hive Framework и потоковой передачи Spark, чтобы убедиться, что они соответствуют нашим стандартам. Технологии, которые мы используем:Airflow — для планирования заданийDocker — упакованный образ контейнера со всеми зависимостямиGraphite/Beacon - для мониторинга потоков данныхHive - Уровень хранилища данных SQL для данных в HDFSKafka - Распределенное хранилище журналов фиксации Kubernetes - Диспетчер ресурсов распределенного кластераPresto - Быстрое параллельное хранилище данных и уровень объединения данныхSpark Streaming - Агрегация в реальном времениSQL Server - Надежная OLTP RDBMSGCP BQТребования: 5+ лет данных инженерный опыт. Большой недавний опыт работы со Spark. Опыт работы на предприятии. Свободное владение Python, огромный опыт работы с Scala/Java.плюс (предпочтителен программист-полиглот!) Знание LinuxХорошее понимание РСУБД, SQL; Страсть к инженерным и компьютерным наукам, связанным с данными. Знание и знакомство с распределенными производственными системами, например Hadoop, является огромным плюсом. Знание и умение мигрировать в облака является плюсом. Желание и возможность работать. Восточное побережье. Часы работы в США (9:00–18:00 по восточному стандартному времени), вы можете работать удаленно. Готовность участвовать в круглосуточной ротации по вызову. Процесс отбора: 1) Начальный экран (30 минут) 2) Интервью с менеджером по найму (45 минут) 3) Технический конкурс 4) Командное собеседование (60 минут) + 3 x 45 минут) + Старший вице-президент по разработке (15 минут)5) Старший директор WebMD, DBA (30 минут)WebMD и ее филиалы являются работодателем, обеспечивающим равные возможности и позитивные действия, и не допускают дискриминации по признаку расы, происхождения, цвет кожи, религия, пол, пол, возраст, семейное положение, сексуальная ориентация, гендерная идентичность, национальное происхождение, состояние здоровья, инвалидность, статус ветерана или любое другое основание, охраняемое законом.
Показать больше
Показать меньше
Посадовый ровень
Старший середний рівень
Тип занятости
Повний рабочий день
Посадовые обвязки
Аналитик и инженерия
Галузи
Маркетинговые услуги