Democratização de acesso a dados de saúde, ambiente e clima com o R

a experiência do LIS,/ICICT/Fiocruz

Raphael Saldanha

Fiocruz

2025-04-08

Raphael Saldanha

  • Geógrafo (UFJF)
  • Especialista em Métodos Estatísticos Computacionais (UFJF)
  • Mestre em Saúde Coletiva (UFJF)
  • Doutor em Informação e Comunicação em Saúde (Fiocruz)
  • Assistente de pesquisa na Fiocruz
  • Observatório de Clima e Saúde
  • Plataforma de Ciência de Dados Aplicada à Saúde (PCDaS)

Raphael Saldanha e o R

  • R 2.1 (2005)
  • Lembra do Tinn-R?
  • Desenvolvedor de pacotes
  • {microdatasus}
  • {brpop}
  • {nseq} e outros

{microdatasus}

  • Facilitar o acesso e processamento de dados dos Sistemas de Informação em Saúde do Brasil
  • Dados de nascimentos, mortalidade, internações hospitalares, procedimentos ambulatoriais, casos suspeitos de doenças e outros
  • Início do desenvolvimento: Maio de 2017 (8 anos)

{microdatasus}

  • Formato legado de arquivo: DBC (versão compactada do DBF)
  • Download de dados: servidor FTP
  • Dados sem rótulos
  • Aplicativo oficial: TabWin (apenas para Windows)
  • Necessidade de integrar o processo de acesso e pré-processamento dos dados em um único ambiente (R)

{microdatasus}

  • Download de dados: função fetch_datasus()
  • Pré-processamento: família de funções process_sim(), process_sinasc(), process_*()

{microdatasus}

library(microdatasus)

raw_data <- fetch_datasus(
  year_start = 2022,
  year_end = 2023,
  uf = "ES",
  information_system = "SIM-DO"
)

tibble::tibble(raw_data)
# A tibble: 55,307 × 87
   ORIGEM TIPOBITO DTOBITO  HORAOBITO NATURAL CODMUNNATU DTNASC   IDADE SEXO 
   <chr>  <chr>    <chr>    <chr>     <chr>   <chr>      <chr>    <chr> <chr>
 1 1      2        22012022 1420      832     320530     16041965 456   2    
 2 1      2        22012022 1625      825     250690     02031966 455   1    
 3 1      2        22012022 2317      832     320030     17101932 489   1    
 4 1      2        22012022 1846      832     320390     17121985 436   1    
 5 1      2        22012022 0545      831     311330     06081941 480   1    
 6 1      2        22012022 0558      829     292270     17071950 471   2    
 7 1      2        22012022 1205      829     290150     20111936 485   2    
 8 1      2        22012022 1300      831     314850     23091930 491   1    
 9 1      2        23012022 1644      832     320320     19061991 430   1    
10 1      2        23012022 0810      825     250770     23041930 491   2    
# ℹ 55,297 more rows
# ℹ 78 more variables: RACACOR <chr>, ESTCIV <chr>, ESC <chr>, ESC2010 <chr>,
#   SERIESCFAL <chr>, OCUP <chr>, CODMUNRES <chr>, LOCOCOR <chr>,
#   CODESTAB <chr>, ESTABDESCR <chr>, CODMUNOCOR <chr>, IDADEMAE <chr>,
#   ESCMAE <chr>, ESCMAE2010 <chr>, SERIESCMAE <chr>, OCUPMAE <chr>,
#   QTDFILVIVO <chr>, QTDFILMORT <chr>, GRAVIDEZ <chr>, SEMAGESTAC <chr>,
#   GESTACAO <chr>, PARTO <chr>, OBITOPARTO <chr>, PESO <chr>, …

{microdatasus}

p_data <- process_sim(raw_data)

tibble::tibble(p_data)
# A tibble: 55,307 × 100
   ORIGEM TIPOBITO  DTOBITO    HORAOBITO CODMUNNATU DTNASC   IDADE SEXO  RACACOR
   <chr>  <chr>     <chr>      <chr>     <chr>      <chr>    <chr> <chr> <chr>  
 1 1      Não Fetal 2022-01-22 1420      320530     1965-04… 456   Femi… Parda  
 2 1      Não Fetal 2022-01-22 1625      250690     1966-03… 455   Masc… Preta  
 3 1      Não Fetal 2022-01-22 2317      320030     1932-10… 489   Masc… Branca 
 4 1      Não Fetal 2022-01-22 1846      320390     1985-12… 436   Masc… Parda  
 5 1      Não Fetal 2022-01-22 0545      311330     1941-08… 480   Masc… Parda  
 6 1      Não Fetal 2022-01-22 0558      292270     1950-07… 471   Femi… Parda  
 7 1      Não Fetal 2022-01-22 1205      290150     1936-11… 485   Femi… Parda  
 8 1      Não Fetal 2022-01-22 1300      314850     1930-09… 491   Masc… Branca 
 9 1      Não Fetal 2022-01-23 1644      320320     1991-06… 430   Masc… Parda  
10 1      Não Fetal 2022-01-23 0810      250770     1930-04… 491   Femi… Branca 
# ℹ 55,297 more rows
# ℹ 91 more variables: ESTCIV <chr>, ESC <chr>, ESC2010 <chr>,
#   SERIESCFAL <chr>, CODMUNRES <chr>, LOCOCOR <chr>, CODESTAB <chr>,
#   ESTABDESCR <chr>, CODMUNOCOR <chr>, IDADEMAE <chr>, ESCMAE <chr>,
#   ESCMAE2010 <chr>, SERIESCMAE <chr>, QTDFILVIVO <chr>, QTDFILMORT <chr>,
#   GRAVIDEZ <chr>, SEMAGESTAC <chr>, GESTACAO <chr>, PARTO <chr>,
#   OBITOPARTO <chr>, PESO <chr>, TPMORTEOCO <chr>, OBITOGRAV <chr>, …

{microdatasus}

Pandemia: MonitoraCovid-19

  • Cenário de chegada da Covid-19 no Brasil
  • Simulação de cenários de casos e óbitos
  • Dificuldade com dados oficiais, apagão de dados
  • Importante parceiro: brasil.io (Turicas)
  • Informar o gestor e o cidadão em uma realidade de negacionismo científico

MonitoraCovid-19

  • Painel em R Shiny
  • Uma das respostas institucionais da Fiocruz frente a pandemia
  • Monitoramento da situação da pandemia além de casos e óbitos
  • Circulação de pessoas, vacinação, medidas de combate…
  • Mais de 10 fontes de dados
  • Impacto nacional e internacional

MonitoraCovid-19

  • Atualização diária de dados (17h)
  • Script manual
  • Script “semi”-automático
  • Saída: arquivo rdata para o painel

MonitoraCovid-19

  • Shiny server local
  • Efeito “Atila Iamarino”
  • Load balancer

MonitoraCovid-19

  • 1,025 milhões de acessos
  • 324 mil usuários de todos os continentes
  • 793 inserções na mídia
  • 38 notas técnicas, comunicações breves e artigos relacionados
  • Premiado pela ENAP

Dados ambientais e climáticos

  • R + SIG
  • Compatibilizar dados de superfície (raster) com dados lattice (limites municipais)
  • Estatísticas zonais

Dados ambientais e climáticos

  • Desafio: dados horários e diários, desde 1950
  • 5.570 municípios
  • Pacote {zonalclim}: https://rfsaldanha.github.io/zonalclim/
  • {exactextractr} on steroids
  • Blocos de tarefas computacionais para computação em paralelo

De dados para eventos climáticos

Publicação de conjuntos de dados

Outros pacotes

  • {brpop}: Estimativas populacionais
  • {tidyrates}: Tidy taxas padronizadas por idade
  • {zendown}: Download e cache de arquivos depositados no Zenodo
  • {zenstats}: Estatísticas de depósitos no Zenodo

Método de trabalho

  • Identificação de uma necessidade de dados
  • Pacote R para produção de dados
  • Disponibilização de dados no Zenodo (política de dados plenamente abertos)
  • Download de dados com {zendown}

Obrigado!

raphael.saldanha@fiocruz.br

rfsaldanha.github.io