close

Lead Data Scientist (проект Prom.ua)

Проект Prom.ua компании EVO в поисках Lead Data Scientist’a

Prom.ua — лидирующая торговая площадка в Украине, почти 50 000 продавцов и 120 000 000 предложений, каждая 5-ая гривна в уанете тратится на нашей prom.ua.

Prom.ua в цифрах:

  • по нагрузке 20 млн просмотров страниц в день (180 млн событий при этом),
  •  5.5 млн запросов на поисковую выдачу, 
  • трафик в месяц около 70 млн сессий, 
  • в онлайне в пике одновременно 21к пользователей, около 3к запросов в секунду на основное приложение, 
  • около 5к запросов изображений в секунду, 
  • 4 млн задач выполняется за сутки, 
  • около 120 млн товаров в PostgreSQL/Elasticsearch)

Мы в поисках Lead Data Scientist’a в команду Marketplace.  

Команда Marketplace занимается такими направлениями:

  • каталог товаров (работа с карточками товара, с выдачей товаров, seo оптимизация, антиспам)
  • работа с рекомендациями товаров
  • seo
  • поисковая система 
  • система аналитики и больших данных
  • сервис обработки/отдачи изображений

Что уже у нас есть/Что пробовали и что получилось:

  • Сделали генерацию и валидацию ключевых слов для товаров. После запуска на продакшене вернули модель на доработку
  • Кластеризация товаров в модель — готова модель, ждет очереди для реализации на продакшене
  • Поиск по изображениям (похожие, идентичные) в процессе деплоя на продакшен
  • Детекция фродовых отзывов в процессе деплоя на продакшен
  • Детекция фродового поведения компании работает на продакшене
  • Рекомендационная система в процессе разработки
  • Выделение контекста с текста — модель готова, ждет очередь для реализации на продакшене
  • Определение предмета поиска — модель готова, ждет очередь для реализации на продакшене

Что хотим построить в направлении Data Science? Какие вызовы и почему это может быть вам интересно?

Мы верим в smart бизнес и понимаем, что с помощью данных можем построить лучшее решение для предпринимательства на территории Украины. Поэтому хотим построить систему, которая позволит легко создавать и проверять гипотезы в направлении data science.

В направлении data science используем:

Поскольку мы переходим к микросервисной архитектуре, то ограничений на стек технологий нету, кроме резонных потребностей под конкретную задачу. На данный момент легаси стека не существует, начинаем использовать библиотеки scikit-learn, scikit-image, FastText, связки keras + tensorflow, pytorch, Spark MLlib.

Относительно данных: для обработки собранной аналитики используется Hadoop кластер (HDFS + Yarn + Hive), над которым Spark работает движком выполнения тасок (опыт работы со стеком будет как +, но не является необходимым). Мы собираем данные с 2014 года и на сегодня это 50Тб.

Зачем нам TL Data Scientist? И кто в команде уже есть?

Нам нужна новая экспертиза и нужен человек, который готов взять ответственность за реализацию амбициозных целей, который имеет видение построения Data Science команды. Желательно и важно быть t-shaped person, то есть с глубокими знаниями  в одном направлении и общим пониманием всех сфер деятельности data science. В команде сейчас есть два data scientist-a поэтому важно уметь развивать и давать конструктивную обратную связь. 

Наши кандидаты:

  • имеют опыт работы с Python (Pandas, NumPy, scikit-learn, алгоритмы, структуры данных);
  • имеют навыки визуализации данных (исследование, интерпретирование результатов)
  • имеют теоретические знания машинного обучения (могут объяснить , как работают функции стандартных библиотек);
  • имеют видение относительно поставленной задачи, а также задач всего направления (каким будет подход к решению; что делать, если выбранный подход не сработал, какие критерии оценки успешности решения);
  • желают вести задачу от этапа прототипа модели до деплоя на прод и коррекции при полученных результатах (конечно, с деплоем будет необходима помощь);
  • не боятся потратить время на подготовку данных (разобраться, что нужно и сделать необходимый препроцессинг)

Про технический департамент в EVO и все наши решения:

Основные языки программирования: Python, JavaScript, TypeScript, Golang.
Новые Python-проекты начинаем на aiohttp.
Для JavaScript на бекенде используем express или koa. Все большая часть API переходит на GraphQL, поэтому регулярно подключаем Apollo Server. Значительная часть сервисов на Node.js написана на TypeScript. Фронтенд пишем в основном на React.
В основном базой данных берем PostgreSQL. В сервисах также используются MongoDB, ClickHouse. Для поиска используем ElasticSearch. Для асинхронных задач — RabbitMQ или Kafka.
CI/CD реализуем через GitLab. Продакшн работает на kubernetes (istio, prometheus, elk stack, grafana).
Онлайн аналитика на Spark Streaming (Scala) + Clickhouse + GraphQL.

 

People Partner

Виктория Деревянко
viktoriia.derevianko@evo.company
Расскажите нам о себе
Максимум 1 файл размером до 5 МБ