O que esperamos de você Graduação em Ciência da Computação, Engenharia, Estatística, Matemática, Física ou áreas relacionadas;Experiência comprovada em projetos Big Data, Data Warehouse.Profundo conhecimento em Python, Airflow e Big Data & Data Lake.Experiência em projetar, desenvolver e otimizar pipelines de dados escaláveis e tolerantes a falhas para processar, limpar, transformar e carregar dados de várias fontes para armazenamento e análise.Habilidade para realizar tuning avançado de DAGs do Airflow.Sólidos conhecimentos em construir pipelines de dados, escrever APIs, e realizar processos de data ingestion, cleansing e data preparation.Experiência com GitHub e Docker para construção de repositórios de DataOps.Colaborar efetivamente com equipes multidisciplinares, comunicar resultados complexos de forma clara e eficaz para partes interessadas não técnicas.Como será o seu dia a dia Papéis e Responsabilidades:Arquitetura de Dados:Projetar e implementar arquiteturas Big Data em Nuvem (preferencialmente Azure).Definir estratégias para organização e modelagem dos dados no Data Lake, garantindo sua integridade, segurança e governança.Desenvolvimento de Pipelines de Dados:Projetar, desenvolver e otimizar pipelines de dados escaláveis e tolerantes a falhas utilizando ferramentas como Apache Spark, Airflow, Azure Data Factory;Realizar processos de ingestão, limpeza, transformação e carga de dados de várias fontes para o Data Lake.Integração com Machine Learning / Artificial Intelligence:Colaborar com os cientistas de dados na preparação e disponibilização dos dados necessários para construção e treinamento de modelos de ML/AI;Integrar pipelines de dados com ferramentas e serviços de ML/AI .Configuração e Tuning do Airflow em Kubernetes (Azure ou AWS):Configurar e gerenciar ambientes Airflow em Kubernetes, garantindo alta disponibilidade, escalabilidade e eficiência na execução de DAGs.Realizar tuning avançado de DAGs do Airflow para otimizar o desempenho e a confiabilidade dos pipelines de dados.Práticas de DevOps e MLOps:Utilizar ferramentas como GitHub e Docker para construir e gerenciar repositórios de DataOps, facilitando o versionamento e a colaboração no desenvolvimento de pipelines de dados;Apoiar os cientistas de dados na implementação de práticas de MLOps para garantir o monitoramento contínuo dos modelos de ML / AI em produção.Colaboração e Comunicação:Colaborar de forma eficaz com equipes multidisciplinares, incluindo analistas de requisitos, cientistas de dados, desenvolvedores e stakeholders;Comunicar resultados complexos de forma clara e eficaz para partes interessadas não técnicas, demonstrando o valor e o impacto dos insights gerados pela análise de dados.