Cientista de Dados Sênior

Sobre a empresa:

Atuar em uma consultoria que é o maior parceiro e Service Provider de Analytics em ambiente Azure para a Nestlé na América Latina, com uma operação de mais de 70 pessoas somente neste cliente. Além disso, também são seus clientes contas Bradesco, Hapvida, Supermercados Dia%, Scania, SKF, Bayer, In Press entre outros.

Skills necessárias:

Linguagens de Programação e Bibliotecas: Python e R: Domínio avançado para análise de dados, pré-processamento e modelagem. Bibliotecas: conhecimentos avançados em pandas, numpy, scikit-learn, ggplot2, dplyr, tidyr, pyspark, entre outras.
Microsoft & Azure: Azure Machine Learning Studio: Domínio na criação e otimização de fluxos de trabalho, execução de experimentos e implementação de modelos. Azure Data Factory: Para orquestração de dados. Azure DevOps: Para integração contínua e entrega contínua (CI/CD) específica para projetos de MLOps. Microsoft Custom Vision: Domínio na criação e customização dos embeddings dos modelos construídos para reconhecimento de imagens e vídeos via Custom Vision. Azure Databricks: Domínio na criação e customização dos embeddings dos modelos construídos em Ciência de Dados.
Visão Computacional: Frameworks: Experiência com TensorFlow, Keras, PyTorch ou Fast.ai. Técnicas: Conhecimento em CNNs (Convolutional Neural Networks) e transferência de aprendizado para reconhecimento de imagem. OpenCV: Para processamento de imagem e integração com soluções de reconhecimento.
MLOps: Monitoramento de Modelos: Utilização de ferramentas como ModelDB ou MLflow. Teste de Modelos: Habilidade de realizar testes A/B, testes multi-armed bandit, entre outros.
Sistemas de Recomendação: Collaborative Filtering: Técnicas como matriz de fatoração e algoritmos baseados em memória. Content-Based Filtering: Entendimento de características de produtos para recomendação. Híbridos: Combinação de técnicas para melhoria da precisão.
Big Data: Spark: Conhecimento em PySpark para processamento e análise de grandes volumes de dados. Databases: Familiaridade com bancos de dados NoSQL (como MongoDB, Cassandra) e SQL (como PostgreSQL, SQL Server).
Métodos Estatísticos e de Machine Learning: Modelos Preditivos: Regressão, classificação, clustering, redução de dimensionalidade. Deep Learning: RNNs, GANs, além das mencionadas CNNs. Técnicas de Otimização: Grid search, random search e otimização bayesiana para ajuste de hiperparâmetros.
Metodologia Ágil: Frameworks: Conhecimento avançado em Scrum, Kanban e práticas XP. Ferramentas: Conhecimento sobre a metodologia para gerenciamento de sprints e backlog.
Versionamento e Colaboração: Git/Repos: Conhecimento avançado em Git e Repos para versionamento e colaboração em código. Docker: Capacidade de criar e gerenciar containers para garantir a consistência em ambientes.
Engenharia de Características: Domínio na criação e seleção de características para melhorar a performance dos modelos.
Validação de Modelos: Conhecimento em técnicas como validação cruzada, bootstrap e ensemble para avaliação e robustez dos modelos.

Additional Information

Segunda a sexta (horário comercial)
Contratação PJ com média de 160 horas trabalhadas por mês
Atuação 100% Home Office