Espelho S3 do FTP DataSUS

O Departamento de Informática do SUS (DataSUS), do Ministério da Saúde, hospeda arquivos anonimizados de microdados de vários sistemas de informação em saúde, cobrindo temas como mortalidade, nascidos vivos, internações e doenças transmissíveis.

Esses arquivos são hospedados em um servidor FTP público, mas o acesso é geograficamente restrito ao Brasil.

Para oferecer uma forma alternativa de acesso, criei um espelho parcial do servidor FTP em uma arquitetura de armazenamento de objetos S3. Essa estrutura permite acesso mundial, distribuição por CDN e redundância em caso de falha do servidor FTP do DataSUS.

Sistemas de informação em saúde e arquivos disponíveis

Atualmente, os seguintes sistemas de informação em saúde são espelhados:

  • SIM – Sistema de Informações de Mortalidade
  • SINASC – Sistema de Informações de Nascidos Vivos
  • SINAN – Sistema de Informações de Agravos de Notificação
  • SIH – Sistema de Informações Hospitalares do SUS
  • SIA – Sistema de Informações Ambulatoriais do SUS
  • CNES – Cadastro Nacional de Estalecimentos de Saúde
  • Pasta E-SUS Notifica
  • Pasta Dados Abertos

Acesso aos arquivos

O espelho S3 está disponível neste endpoint:

https://datasus-ftp-mirror.nyc3.cdn.digitaloceanspaces.com
Nota
  • A estrutura de arquivos no espelho S3 segue a mesma estrutura de diretórios do servidor FTP.
  • Todos os arquivos disponíveis no FTP são espelhados, exceto arquivos XML e CSV expandidos.

Atualização do espelho e árvore de arquivos

O espelho é sincronizado diariamente às 3h, horário de Brasília. Em cada atualização, algumas listas de arquivos são produzidas:

Dica

A opção de versionamento do bucket S3 foi ativada em 7 de novembro de 2024. Desde então, o histórico de versões de todos os arquivos, incluindo arquivos excluídos, é mantido.

Como acessar um arquivo?

Verifique o nome do arquivo desejado na lista de caminhos completos e acrescente esse caminho ao endpoint de acesso.

Exemplo: arquivo do SIM para Bahia, 2022

https://datasus-ftp-mirror.nyc3.cdn.digitaloceanspaces.com/SIM/CID10/DORES/DOBA2022.dbc

Logs de atualização

Um log da última atualização é disponibilizado, e todos os logs de atualização são armazenados na pasta rclone-logs.

Como acessar um log de atualização antigo?

Primeiro, localize o nome do arquivo de log aqui e depois acesse o arquivo. Exemplo:

https://datasus-ftp-mirror.nyc3.cdn.digitaloceanspaces.com/rclone-logs/rclone_datasus_log_2024-11-07_03:04:55.txt

CDN

Os arquivos são armazenados em cache em uma CDN (content delivery network) para aumentar a velocidade de transferência. Esse cache é atualizado a cada hora. Para acessar diretamente o arquivo, sem a CDN, remova cdn do endereço. Exemplo:

https://datasus-ftp-mirror.nyc3.digitaloceanspaces.com/SIM/CID10/DORES/DOBA2022.dbc

Custos

Este espelho S3 está disponível para uso gratuito, mas há custos recorrentes de armazenamento e transferência na Digital Ocean. Use com cuidado e consciência.

Script

Se tiver curiosidade de ver como isso funciona, consulte este repositório de código.

De volta ao topo