Sobre a Empresa A Spesia, a mais nova empresa do Grupo Med4U, nasce para simbolizar nossa busca incessante por soluções inovadoras e disruptivas, utilizando inteligência artificial para oferecer tratamentos mais precisos, humanos e transformadores. Inspirada na palavra latina spes (esperança) e no IA de Inteligência Artificial, a Spesia reflete nosso compromisso com cuidados humanizados e centrados no paciente. Nossa missão vai além da tecnologia: buscamos melhorar os desfechos clínicos, promovendo esperança e colocando o paciente no centro de tudo o que fazemos. Com a Spesia, queremos redefinir o cuidado em saúde, ajudando a construir vidas mais longas, saudáveis e plenas. Junte-se a nós para transformar a saúde e fazer a diferença na vida das pessoas. Saiba mais sobre o Grupo Med4U em https://med4u.com.br/ Sobre a Vaga Esta vaga é focada na construção de modelos preditivos de machine learning para a predições no contexto da saúde e a análise avançada de dados clínicos. O objetivo é desenvolver soluções inovadoras para apoiar a detecção precoce e o tratamento de doenças, e visa construir e manter uma infraestrutura de dados robusta e escalável para o armazenamento, processamento e análise de grandes volumes de dados médicos provenientes de prontuários eletrônicos (EHR), exames laboratoriais, e outras fontes biomédicas. Principais Responsabilidades Projetar, implementar e gerenciar um data lake e um data warehouse para consolidar e organizar dados médicos de diferentes fontes. Construir pipelines de ingestão de dados robustos, automatizados e escaláveis, garantindo a integração de dados estruturados e não estruturados. Trabalhar diretamente com sistemas de prontuários eletrônicos (EHR), com foco especial em bancos de dados do Tasy e outros sistemas amplamente utilizados na área médica. Implementar processos de governança de dados, incluindo anonimização, limpeza, normalização e auditoria, para garantir conformidade com LGPD e HIPAA. Otimizar o desempenho das consultas e garantir alta disponibilidade e segurança dos dados armazenados. Colaborar com cientistas de dados, engenheiros de machine learning, médicos e outros stakeholders para disponibilizar dados prontos para análise e modelagem. Criar e manter documentação técnica detalhada de todas as etapas e fluxos do sistema de dados. Monitorar e corrigir falhas em pipelines e infraestrutura de dados, garantindo a integridade dos dados ao longo do processo. Participar na criação de relatórios detalhados e visualizações de dados para comunicar insights de maneira clara e acessível a stakeholders técnicos e clínicos. Contribuir para a documentação técnica e científica do projeto, incluindo publicações acadêmicas e relatórios internos. Requisitos Formação em Engenharia de Computação, Ciência da Computação, Sistemas de Informação ou áreas correlatas. Experiência comprovada com bancos de dados de sistemas de prontuário eletrônico, especialmente Tasy. Proficiência em ferramentas de ETL e frameworks de dados como Apache Spark, Apache Kafka, ou Airflow. Conhecimento em bancos de dados relacionais e não relacionais, como PostgreSQL, SQL Server, MongoDB e sistemas baseados em Hadoop. Experiência prática na construção de data lakes utilizando serviços como AWS, Azure ou Google Cloud Storage. Familiaridade com data warehouses modernos, como Snowflake, Amazon Redshift ou BigQuery. Forte entendimento de melhores práticas de governança e segurança de dados em ambientes médicos. Habilidade para trabalhar com grandes volumes de dados em tempo real e batch. Boa habilidade de comunicação para apresentar resultados complexos de forma clara e objetiva a times multidisciplinares. Diferenciais Experiência com padrões de interoperabilidade, como HL7 FHIR, e terminologias médicas, como SNOMED-CT e LOINC. Certificações em cloud computing (ex.: AWS Data Analytics Specialty, Azure Data Engineer). Experiência com ferramentas de monitoramento e logs, como Datadog, Prometheus ou ELK Stack. Contribuições em projetos relacionados à gestão de dados médicos ou saúde digital. Experiência em ambientes MLOps para automação de deploy e manutenção de infraestrutura de dados. Conhecimentos em Python para Data Science. Benefícios Salário compatível com o mercado. Flexibilidade de horário e possibilidade de trabalho remoto. Oportunidade de participar de um projeto inovador e ambicioso com impacto direto na saúde e bem-estar dos pacientes. Trabalhar com uma equipe altamente talentosa e reconhecida na área de IA em Saúde.