Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil

Santos, Hellen Geremias dos; Nascimento, Carla Ferreira do; Izbicki, Rafael; Duarte, Yeda Aparecida de Oliveira; Porto Chiavegatto Filho, Alexandre Dias

Published in

Escola Nacional de Saúde Pública, Fundação Oswaldo Cruz, Cadernos de Saúde Pública, 7(35), 2019

DOI: 10.1590/0102-311x00050818

Tools

Export citation

Search in Google Scholar

Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil

Journal article published in 2019 by Hellen Geremias dos Santos

, Carla Ferreira do Nascimento

, Rafael Izbicki

, Yeda Aparecida de Oliveira Duarte

, Alexandre Dias Porto Chiavegatto Filho

This paper is made freely available by the publisher.

Full text: Download

Preprint: policy unknown

Upload

Postprint: policy unknown

Upload

Published version: policy unknown

Upload

Policy details

Data provided by

Abstract

Este estudo objetiva apresentar as etapas relacionadas à utilização de algoritmos de machine learning para análises preditivas em saúde. Para isso, foi realizada uma aplicação com base em dados de idosos residentes no Município de São Paulo, Brasil, participantes do estudo Saúde Bem-estar e Envelhecimento (SABE) (n = 2.808). A variável resposta foi representada pela ocorrência de óbito em até cinco anos após o ingresso do idoso no estudo (n = 423), e os preditores, por 37 variáveis relacionadas ao perfil demográfico, socioeconômico e de saúde do idoso. A aplicação foi organizada de acordo com as seguintes etapas: divisão dos dados em treinamento (70%) e teste (30%), pré-processamento dos preditores, aprendizado e avaliação de modelos. Na etapa de aprendizado, foram utilizados cinco algoritmos para o ajuste de modelos: regressão logística com e sem penalização, redes neurais, gradient boosted trees e random forest. Os hiperparâmetros dos algoritmos foram otimizados por validação cruzada 10-fold, para selecionar aqueles correspondentes aos melhores modelos. Para cada algoritmo, o melhor modelo foi avaliado em dados de teste por meio da área abaixo da curva (AUC) ROC e medidas relacionadas. Todos os modelos apresentaram AUC ROC superior a 0,70. Para os três modelos com maior AUC ROC (redes neurais e regressão logística com penalização de lasso e sem penalização, respectivamente), foram também avaliadas medidas de qualidade da probabilidade predita. Espera-se que, com o aumento da disponibilidade de dados e de capital humano capacitado, seja possível desenvolver modelos preditivos de machine learning com potencial para auxiliar profissionais de saúde na tomada de melhores decisões.

Published in

Links

Tools

Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil

Abstract