Cientista de Dados Sênior

Cientista de Dados Sênior

Local
Remoto BR
Modalidades disponíveis
PJ
Benefícios
Tecnologias
Senioridade
Descrição

Sobre a empresa:

Atuar em uma consultoria que é o maior parceiro e Service Provider de Analytics em ambiente Azure para a Nestlé na América Latina, com uma operação de mais de 70 pessoas somente neste cliente. Além disso, também são seus clientes contas Bradesco, Hapvida, Supermercados Dia%, Scania, SKF, Bayer, In Press entre outros.

Skills necessárias:

  • Linguagens de Programação e Bibliotecas: Python e R: Domínio avançado para análise de dados, pré-processamento e modelagem. Bibliotecas: conhecimentos avançados em pandas, numpy, scikit-learn, ggplot2, dplyr, tidyr, pyspark, entre outras.
  • Microsoft & Azure: Azure Machine Learning Studio: Domínio na criação e otimização de fluxos de trabalho, execução de experimentos e implementação de modelos. Azure Data Factory: Para orquestração de dados. Azure DevOps: Para integração contínua e entrega contínua (CI/CD) específica para projetos de MLOps. Microsoft Custom Vision: Domínio na criação e customização dos embeddings dos modelos construídos para reconhecimento de imagens e vídeos via Custom Vision. Azure Databricks: Domínio na criação e customização dos embeddings dos modelos construídos em Ciência de Dados.
  • Visão Computacional: Frameworks: Experiência com TensorFlow, Keras, PyTorch ou Fast.ai. Técnicas: Conhecimento em CNNs (Convolutional Neural Networks) e transferência de aprendizado para reconhecimento de imagem. OpenCV: Para processamento de imagem e integração com soluções de reconhecimento.
  • MLOps: Monitoramento de Modelos: Utilização de ferramentas como ModelDB ou MLflow. Teste de Modelos: Habilidade de realizar testes A/B, testes multi-armed bandit, entre outros.
  • Sistemas de Recomendação: Collaborative Filtering: Técnicas como matriz de fatoração e algoritmos baseados em memória. Content-Based Filtering: Entendimento de características de produtos para recomendação. Híbridos: Combinação de técnicas para melhoria da precisão.
  • Big Data: Spark: Conhecimento em PySpark para processamento e análise de grandes volumes de dados. Databases: Familiaridade com bancos de dados NoSQL (como MongoDB, Cassandra) e SQL (como PostgreSQL, SQL Server).
  • Métodos Estatísticos e de Machine Learning: Modelos Preditivos: Regressão, classificação, clustering, redução de dimensionalidade. Deep Learning: RNNs, GANs, além das mencionadas CNNs. Técnicas de Otimização: Grid search, random search e otimização bayesiana para ajuste de hiperparâmetros.
  • Metodologia Ágil: Frameworks: Conhecimento avançado em Scrum, Kanban e práticas XP. Ferramentas: Conhecimento sobre a metodologia para gerenciamento de sprints e backlog.
  • Versionamento e Colaboração: Git/Repos: Conhecimento avançado em Git e Repos para versionamento e colaboração em código. Docker: Capacidade de criar e gerenciar containers para garantir a consistência em ambientes.
  • Engenharia de Características: Domínio na criação e seleção de características para melhorar a performance dos modelos.
  • Validação de Modelos: Conhecimento em técnicas como validação cruzada, bootstrap e ensemble para avaliação e robustez dos modelos.

Additional Information

  • Segunda a sexta (horário comercial)
  • Contratação PJ com média de 160 horas trabalhadas por mês
  • Atuação 100% Home Office