Na Aquarela temos o propósito de aumentar a inteligência do mundo. Para isso, traduzimos problemas complexos de maneira inovadora e assertiva para soluções e produtos estratégicos para nossos clientes. O desafio que te espera aqui é o de trabalhar com a extração, transformação e carga de grandes volumes de dados e de nos auxiliar a projetar, implementar e suportar Data Lakes, Data Warehouse e estruturas de dados robustas e totalmente baseados em tecnologias open-source.
Atividades:Arquitetar as soluções existentes para garantir um código legível e de fácil manutenção;Trabalhar com grande volume de dados que serão utilizados para alimentação de Data Lake e Data Warehouse;Manipular e integrar dados de diferentes fontes, com diferentes sistemas;Criar e aperfeiçoar os processos e rotina de ETL, ELT e EtLT;Planejar e conduzir o processo de migração de Data Warehouses e Data Lakes;Implementar ferramentas e automatizar tarefas para atender as áreas de dados;Projetar e criar pipelines de dados confiáveis, trabalhar com fluxos completos de manipulação de dados, desde a extração até a documentação;Alinhar as expectativas do time de desenvolvimento com o de ciência de dados;Interagir com o time de infraestrutura no desenvolvimento de soluções;Contribuir com os processos da área, mediante a execução de todos os atos inerentes e demais tarefas correlatas às funções, solicitadas pelo responsável da área.Requisitos:Sólidos conhecimentos em programação;Boas práticas em programação e facilidade de uso com OOP;Conhecimentos consolidados em Bancos de Dados;Conhecimento avançado em modelagem de dados;Conhecimento consolidado em arquitetura de dados multi-zonas;Experiência em ferramentas de ETL, ELT, EtLT e integração de dados;Conhecimento avançado em SQL;Conhecimento das dinâmicas de sistemas open-source;Boas práticas de desenvolvimento que permitam trabalhar facilmente com Git e esteiras CI/CD;Manipulação e criação de imagens Docker;Conhecimento básico de orquestração de containers com Kubernetes;Experiência com soluções de processamento massivo paralelo como Spark, YARN/MapReduce, Trino, Presto;Domínio da ferramenta de orquestração e agendamento Apache Airflow;Experiência com sistema de arquivos distribuídos como HDFS, MinIO, etc.;Conhecimento do ecossistema Apache Hadoop;Conhecimento de formato de arquivos Parquet, Avro e ORC;Conhecimento de formatos de tabelas Iceberg, Delta Lake;Manipulação e criação de shell scripts;Domínio do uso de sistemas operacionais baseados em Linux.Desejáveis:Vivência em Python;Bancos de Dados NoSQL;Design Patterns;Apache Kafka;Apache NiFi;Monitoramento com Prometheus e Grafana;Domínio de alguma linguagem de programação fortemente tipada como Java ou C#;Conhecimento intermediário ou avançado em alguma Cloud Computing como AWS, GCP ou Azure;Modelagem e transformação de dados com dbt (Data Build Tools);Conhecimento de contrato de dados (Data Contracts).Conhecimento de frameworks de qualidade de dados como SODA ou Great Expectations.CaracterísticasTipo de ContrataçãoTempo integral
SalárioNegociável
Outras CaracterísticasTrabalho remoto
#J-18808-Ljbffr