O que esperamos de você Graduação em Ciência da Computação, Engenharia, Estatística, Matemática, Física ou áreas relacionadas;Desejável pós-graduação em áreas correlatas;Experiência comprovada em projetos Big Data, Data Warehouse, Ciência de Dados, tendo a compreensão dos conceitos de Data Lake e Lake Warehouse, e experiência em projetar e implementar arquiteturas de armazenamento de dados eficientes para suportar análises Big Data;Experiência em projetar, desenvolver e otimizar pipelines de dados escaláveis e tolerantes a falhas para processar, limpar, transformar e carregar dados de várias fontes para armazenamento e análise;Profundo conhecimento em Python, Airflow e Big Data & Data Lake;Experiência com configuração de ambiente Airflow em Kubernetes AKS;Habilidade para realizar tuning avançado de DAGs do Airflow;Sólidos conhecimentos em construir pipelines de dados, escrever APIs, e realizar processos de data ingestion, cleansing e data preparation;Experiência com GitHub e Docker para construção de repositórios de DataOps;Conhecimento em MLOps para apoiar os Cientistas de Dados;Colaborar efetivamente com equipes multidisciplinares, comunicar resultados complexos de forma clara e eficaz para partes interessadas não técnicas;Experiência com manipulação de grandes volumes de dados;Experiência com criação de especificação técnica e funcional;Compreensão de metodologias Agile;Sólidos conhecimentos em modelagem, desenvolvimento e monitoramento de processos.Como será o seu dia a dia Papéis e Responsabilidades:Arquitetura de Dados:Projetar e implementar arquiteturas Big Data em Nuvem (preferencialmente Azure).Definir estratégias para organização e modelagem dos dados no Data Lake, garantindo sua integridade, segurança e governança.Desenvolvimento de Pipelines de Dados:Projetar, desenvolver e otimizar pipelines de dados escaláveis e tolerantes a falhas utilizando ferramentas como Apache Spark, Airflow, Azure Data Factory;Realizar processos de ingestão, limpeza, transformação e carga de dados de várias fontes para o Data Lake.Integração com Machine Learning / Artificial Intelligence:Colaborar com os cientistas de dados na preparação e disponibilização dos dados necessários para construção e treinamento de modelos de ML/AI;Integrar pipelines de dados com ferramentas e serviços de ML/AI .Configuração e Tuning do Airflow em Kubernetes (Azure ou AWS):Configurar e gerenciar ambientes Airflow em Kubernetes, garantindo alta disponibilidade, escalabilidade e eficiência na execução de DAGs.Realizar tuning avançado de DAGs do Airflow para otimizar o desempenho e a confiabilidade dos pipelines de dados.Práticas de DevOps e MLOps:Utilizar ferramentas como GitHub e Docker para construir e gerenciar repositórios de DataOps, facilitando o versionamento e a colaboração no desenvolvimento de pipelines de dados;Apoiar os cientistas de dados na implementação de práticas de MLOps para garantir o monitoramento contínuo dos modelos de ML / AI em produção.Colaboração e Comunicação:Colaborar de forma eficaz com equipes multidisciplinares, incluindo analistas de requisitos, cientistas de dados, desenvolvedores e stakeholders;Comunicar resultados complexos de forma clara e eficaz para partes interessadas não técnicas, demonstrando o valor e o impacto dos insights gerados pela análise de dados.