Cargo: Cientista de Dados – Modelagem preditiva Tipo de Bolsa: Bolsa de Desenvolvimento Tecnológico Nível I (R$ 5.200,00). O valor não é negociável devido ser um projeto da Fapemig. Requisitos para a Bolsa: Possuir título de doutor em área compatível com as atividades previstas no projeto; ou possuir título de graduação, com no mínimo 6 (seis) anos de efetiva experiência em atividades de pesquisa, desenvolvimento tecnológico ou inovação, relacionadas com as atividades do projeto. Local de Trabalho: Preferencialmente presencial na sede da EnvironBIT, em Lavras, Minas Gerais. A atuação em home office é possível para residentes em Minas Gerais, mas daremos preferência a candidatos que possam trabalhar presencialmente. Duração da Bolsa: 22 meses Início: fevereiro de 2025 Descrição Geral: O Cientista de Dados será responsável pela análise geoespacial, desenvolvimento e aplicação de modelos preditivos, e integração de técnicas de inteligência artificial para identificar e prever áreas de alto risco em rodovias. Esse profissional deverá possuir sólida formação em ciências exatas, raciocínio lógico apurado, forte experiência em programação e estatística, bem como capacidade de lidar com grande diversidade de dados (geoespaciais, acidentes, fauna e infraestrutura viária). Além disso, o profissional atuará em um ambiente multidisciplinar – colaborando com desenvolvedores, outros cientistas de dados, especialistas em geoinformação e biólogos – com o objetivo de aprimorar a segurança viária e proteger a fauna, por meio da identificação de padrões e da previsão de riscos. Atividades Principais: 1. Desenvolvimento de Modelos Preditivos para Análise Geoespacial: • Criar e implementar modelos de machine learning (classificação, regressão, clustering geográfico) que utilizem dados georreferenciados para identificar padrões de risco em trechos rodoviários. • Aplicar técnicas de aprendizado supervisionado e não supervisionado, incluindo detecção de hotspots e análise de padrões espaciais. 2. Análise e Modelagem Geoespacial: • Realizar análises geoespaciais avançadas, combinando dados de localização com informações sobre acidentes, fauna e infraestrutura, para melhorar a precisão e a robustez das previsões. • Utilizar métodos de análise espacial (por exemplo, regressão geograficamente ponderada, interpolação, análise de padrões pontuais) para capturar as dinâmicas espaciais e compreender melhor os fatores associados ao risco. 3. Manipulação e Processamento de Dados Geográficos para Modelagem: • Trabalhar com dados georreferenciados, assegurando a limpeza, integração, formatação e alinhamento dos dados com outras bases relevantes. • Colaborar com engenheiros de dados, cientistas de dados focados em dados tabulares e especialistas em geo para garantir que os dados espaciais estejam prontos e adequados para as análises e modelagens. 4. Validação, Ajuste e Integração de Modelos Preditivos: • Validar e ajustar modelos preditivos com foco em dados espaciais, garantindo previsões consistentes e aplicáveis a intervenções estratégicas nas rodovias. • Desenvolver métricas de avaliação apropriadas para modelos geoespaciais e integrar esses modelos a sistemas internos, possivelmente fazendo deploy via APIs, em ambiente on-premise ou em nuvem. Aptidões Requeridas: 1. Formação e Estatística: • Formação em ciências exatas (Ciência da Computação, Engenharia, Estatística, Matemática ou áreas correlatas). • Sólido conhecimento de estatística, inferência, raciocínio lógico e análise quantitativa. 2. Programação e Manipulação de Dados: • Experiência profunda em programação, especialmente em Python, com domínio de bibliotecas como Pandas, NumPy, Scikit-Learn e Matplotlib. • Experiência com limpeza, integração, formatação e análise exploratória de dados, incluindo dados geoespaciais (Geopandas, Shapely). 3. Modelagem Preditiva e Machine Learning: • Experiência comprovada na aplicação de modelos de machine learning (classificação, regressão, clustering) a dados complexos. • Capacidade de ajustar, avaliar e otimizar modelos, assim como implementar técnicas de aprendizado supervisionado e não supervisionado em um contexto espacial. 4. Dados Geoespaciais e Visualização: • Proficiência em manipulação e análise de dados espaciais, uso de ferramentas GIS (QGIS, ArcGIS) e visualização com ferramentas como Folium, Mapbox ou Carto. • Conhecimento de SQL para dados espaciais (PostGIS) e habilidades para consultas complexas a bancos de dados. 5. Inglês Técnico: • Leitura e escrita em inglês para compreender documentação, artigos científicos e comunicar resultados analíticos em nível internacional. Aptidões Desejadas: 1. Redes Neurais e Deep Learning: • Experiência com TensorFlow ou PyTorch, incluindo redes neurais convolucionais, se houver necessidade de lidar com imagens georreferenciadas ou visão computacional. 2. Uso de IA Generativa (ChatGPT): • Familiaridade com ferramentas de IA generativa para auxiliar em fluxos de análise ou documentação. 3. ETL, Cloud e Deploy via API: • Conhecimento em processos ETL, integração com GCP ou AWS para escalabilidade e deploy de modelos via APIs, garantindo performance e confiabilidade. 4. Aprendizado Multi-Tarefa: • Experiência com técnicas de aprendizado que permitem modelar múltiplas variáveis simultaneamente, otimizando a utilização dos dados disponíveis. Soft Skills: • Capacidade Analítica e Pensamento Crítico: Habilidade para interpretar dados complexos, identificar padrões e gerar insights relevantes. • Comunicação Técnica: Capacidade de documentar e explicar métodos, resultados e recomendações de forma clara e acessível, tanto para técnicos quanto para não especialistas. • Trabalho em Equipe e Colaboração Multidisciplinar: Facilidade de interação com devs, cientistas de dados, geógrafos e biólogos, integrando diversas perspectivas e conhecimentos para atingir resultados mais robustos. • Proatividade e Autonomia: Iniciativa para propor melhorias, testar novas abordagens analíticas e assumir a liderança na resolução de problemas complexos.