Local
Hibrido Av Paulista (São Paulo)
Modalidades disponíveis
CLT
Benefícios
Tecnologias
Senioridade
Descrição
Responsabilidades
- Arquitetura de Dados: Projetar a base técnica e os fluxos de informação, garantindo que os dados sejam robustos, escaláveis e prontos para consumo.
- Desenvolvimento de Pipelines (ETL/ELT): Criar e manter pipelines de transformação de dados, tanto em tempo real quanto em processamento por lote, assegurando a integridade das informações em todo o ecossistema.
- Suporte a Inteligência Artificial: Otimizar a preparação e ingestão de dados para arquiteturas RAG, integrando fluxos com bases de dados vetoriais.
- Orquestração de Fluxos: Gerenciar e monitorar workflows complexos para garantir que o processamento de dados ocorra de forma contínua e confiável.
- Modelagem e Governança: Definir esquemas de dados eficientes e aplicar validações que assegurem qualidade e conformidade regulatória (LGPD/GDPR).
- Eficiência Operacional: Gerenciar e otimizar recursos de computação e armazenamento em nuvem, garantindo controle de custos operacionais.
Skills necessárias:
Habilidades Técnicas (Hard Skills)
- Processamento de Dados: Domínio avançado de SQL e Python (Pandas, PySpark ou Apache Beam) para manipulação de grandes volumes de dados.
- Orquestração e Ferramentas: Experiência comprovada com Airflow, dbt ou Prefect para gestão de fluxos de trabalho.
- Data Warehousing: Vivência sólida com soluções em nuvem como BigQuery, Snowflake ou Redshift.
- Arquiteturas de Streaming: Capacidade de construir pipelines de dados em tempo real e em processamento por lote (batch).
- Ecossistema de IA: Conhecimento em preparação de dados para bases vetoriais e otimização de processos de ingestão para modelos de linguagem.
Habilidades Comportamentais (Soft Skills)
- Modelagem de Dados: Experiência na criação de esquemas eficientes, como Star Schema ou Data Vault, alinhados às necessidades do negócio.
- Qualidade e Governança: Capacidade de implementar regras de validação e garantir conformidade com normas de privacidade e proteção de dados.
- Otimização de Custos: Perfil analítico para gestão eficiente de recursos de armazenamento e processamento em ambientes Cloud.