Estamos em busca de um Site Reliability Engineer (SRE) para integrar nossa equipe e desempenhar um papel crucial na gestão e melhoria contínua da confiabilidade, escalabilidade e desempenho dos nossos sistemas. Este(a) profissional será responsável por implementar práticas de SRE, atuar na gestão de incidentes e monitorar eventos em tempo real, contribuindo diretamente para o sucesso operacional da organização. Responsabilidades Principais: Gestão de Mudanças e Implementação de CI/CD: Gestão de CI/CD robustos e eficientes, além de controle de deploys. Promover e implementar práticas SRE para integração e entrega contínua. Garantir que as mudanças nos sistemas sejam introduzidas com qualidade, segurança e mínima interrupção. Monitoramento e Resposta a Eventos: Garantir respostas rápidas a alertas e eventos, mitigando impactos antes que afetem os usuários. Trabalhar proativamente para identificar e resolver problemas de desempenho e estabilidade. Gestão de Incidentes e RCA: Liderar a resposta a incidentes, coordenando esforços para rápida recuperação. Realizar análises detalhadas de causa raiz (RCA) e elaborar relatórios postmortem claros e acionáveis. Propor e implementar ações corretivas e preventivas para evitar recorrências de problemas. Requisitos Técnicos: Experiência prática com pipelines de CI/CD e ferramentas como Jenkins, GitLab CI/CD, ou similares. Conhecimento profundo de práticas e ferramentas de monitoramento (e.g., Prometheus, Grafana, Datadog). Experiência com linguagens de script e automação (e.g., Python, Bash). Conhecimento em gestão de configuração e infraestrutura como código (e.g., Terraform, Ansible). Experiência em ambientes de nuvem (AWS, Azure ou Google Cloud). Sólidos fundamentos em sistemas operacionais (Linux) e redes. Habilidades Comportamentais: Capacidade de trabalhar de forma colaborativa em equipes multifuncionais. Excelente comunicação para conduzir postmortems e apresentar resultados para stakeholders. Mentalidade proativa e orientada para a resolução de problemas. Habilidade para trabalhar sob pressão durante incidentes críticos.