A Cadmus junto com seu parceiro, grande empresa da área de Seguros, está em busca de um SRE.Responsabilidades:Definir e aplicar práticas de engenharia de confiabilidade de sistemas (SRE) para melhorar a confiabilidade e disponibilidade dos sistemas.Atuar como uma ponte entre as equipes de desenvolvimento e operações, com foco em quebrar silos entre elas.Trabalhar com outros SREs buscando padronizar práticas, ferramentas e soluções, fornecendo feedback para melhorá-las.Monitorar sistemas e serviços para identificar e resolver problemas antes que afetem os usuários finais.Conhecimento em ferramentas de logs como Elasticsearch, Logstash, Kibana (ELK Stack) ou Jaeger.Utilizar ferramentas de monitoramento para identificar problemas de desempenho, anomalias e tendências que possam afetar a confiabilidade do serviço.Apoiar na investigação das causas raiz dos incidentes e implementar medidas corretivas para evitar recorrências. Trabalhar em planos de resposta a incidentes e na melhoria contínua dos processos de recuperação.Colaborar com as equipes de desenvolvimento para projetar e implementar estratégias de escalabilidade, como ajuste automático de recursos e adoção de arquiteturas resilientes.Requisitos:Familiaridade com as melhores práticas e padrões globais para SRE (Site Reliability Engineering). Capacidade de direcionar ações para equipes de engenheiros em suas áreas locais.Conhecimentos em Gerenciamento de Portfólio de Projetos de implementação de sistemas de alta disponibilidade e resiliência.Fortes habilidades de resolução de problemas, com capacidade de pensar criativa e estrategicamente para resolver problemas técnicos complexos.Forte capacidade de abstração para traduzir a linguagem de tecnologia para a de negócios e vice-versa.Experiência com gerenciamento de incidentes, incluindo identificação, diagnóstico e resolução de incidentes.Entendimento de acordos de nível de serviço (SLAs) e objetivos de nível de serviço (SLOs).Experiência com ferramentas de monitoramento e alerta, como Zabbix, AppDynamics, Open Telemetry, Dynatrace e DataDog.Desejável:Conhecimento de conceitos IaC e ferramentas como Ansible, Chef, Puppet, Terraform ou similares.Conhecimento de conceitos de orquestração de contêineres e plataformas como Rancher, Docker e Kubernetes.
#J-18808-Ljbffr