Aprendizaje dinámico de modelos de curvas de infectados y de número de camas hospitalarias y camas UCI ocupadas por COVID-19 en Andalucía mediante técnicas estadísticas y de Inteligencia Artificial

Hits: 8008
Status:
Not started
Project leaders:
Collaborators:
Proposed start date:
2020-12-01
Proposed end date:
2022-02-28

Description:

 

 

Organismo: Consejería de Salud y Familia de la Junta de Andalucía

Periodo: 2020-2022

 

Resumen español:

La enfermedad por coronavirus (COVID-19) es una de las pandemias mundiales más amenazantes de la historia con un rápido aumento de muertes en todo el mundo.

 

El objetivo de este proyecto es evaluar la propagación del virus en los distintos distritos sanitarios de Andalucía, construyendo modelos de predicción del número de infectados y el número de infectados activos por COVID-19 a lo largo del tiempo, y poder ayudar con sistemas de apoyo a la decisión a estimar: i) los casos de población infectada que necesitan hospitalización urgente; ii) los casos por edades de población infectada; iii) la tipología de la población infectada (sanitarios, personal de riesgo, personal de residencias, residentes, fuerzas de orden público, etc.). Estos modelos serían necesarios cuando los sistemas de alerta temprana fallen.

 

Un objetivo adicional consistirá en poder aplicar aprendizaje automático para obtener modelos de clasificación ordinal de diferentes distritos sanitarios de Andalucía en función de la gravedad de la pandemia, para propiciar sistemas de apoyo a la decisión de los expertos en salud pública de Andalucía, y poder tomar medidas preventivas diferentes en cada uno de ellos. Nuestra propuesta consiste en aprender de los modelos propuestos por el Dr. Hervás basados en transformaciones de curvas de crecimiento de poblaciones, esto es, curvas sigmoides donde no existe una asíntota de crecimiento cuando aumenta el número de días de la pandemia. Estas curvas tienen 4 parámetros que hay que estimar, los cuáles, como experiencia previa, ya se han estimado utilizando datos de la Consejería de Salud y Familia desde el 18 de febrero hasta el 11 de Mayo de 2020.

 

Así, nuestro proyecto tratara de conseguir más curvas de crecimiento de diferentes distritos sanitarios de Andalucía o regiones similares a Andalucía, en España o en otras zonas del mundo, donde las características medio ambientales, económicas, de densidad de población y de movilidad, fueran similares, de forma tal que podamos entrenar modelos de redes neuronales superficiales y/o profundas utilizando algoritmos evolutivos para estimar los hiperparámetros de los modelos.

 

La obtención de los cuatro parámetros a posteriori puede realizarse utilizando técnicas estadísticas clásicas, pero el objetivo del proyecto es ser capaces de aprender y predecir estas curvas al inicio de las mismas, para lo cual tendremos que valernos de variables exógenas y de técnicas de aprendizaje basadas en inteligencia artificial. El aprendizaje de los parámetros nos permitiría disponer de modelos de previsión de infectados a priori, esto es, al principio de la curva de crecimiento, obteniendo sistemas de apoyo a la decisión de los profesionales en salud pública acerca de las medidas más óptimas para cortar la pandemia.

 

Las variables independientes de los modelos estarán asociadas, entre otras, a condiciones medioambientales, de temperatura, humedad, presión, CO2, etc, en el movimiento de la población (medido mediante el consumo eléctrico, telefónico, de internet, etc), en la estructura de la población (nº personas por km2, nº de pacientes en residencias, % de personal sanitario y asistencial por habitante, etc.) estructura geoeconómica de cada distrito (infraestructuras, puertos, aeropuertos, estaciones de Ave, etc.).

 

Resumen inglés:

Coronavirus disease (COVID-19) is one of the most threatening global pandemics in history with a rapid increase in deaths worldwide.

The aim of this project is to assess the spread of the virus in the different health districts of Andalusia, building predictive models of the number of infected and the number of active COVID-19 infected over time, and to help with decision support systems to estimate: i) cases of infected population requiring urgent hospitalisation; ii) age-specific cases of infected population; iii) typology of infected population (health workers, at-risk staff, residential staff, residents, law enforcement, etc.). These models would be needed when early warning systems fail.

An additional objective will be to be able to apply machine learning to obtain ordinal classification models of different health districts in Andalusia according to the severity of the pandemic, in order to provide decision support systems for public health experts in Andalusia, and to be able to take different preventive measures in each of them. Our proposal consists of learning from the models proposed by Dr. Hervás based on transformations of population growth curves, i.e. sigmoid curves where there is no growth asymptote when the number of days of the pandemic increases. These curves have 4 parameters to be estimated, which, as previous experience, have already been estimated using data from the Consejería de Salud y Familia from 18 February to 11 May 2020.

Thus, our project will try to obtain more growth curves from different health districts of Andalusia or regions similar to Andalusia, in Spain or in other areas of the world, where the environmental, economic, population density and mobility characteristics are similar, so that we can train shallow and/or deep neural network models using evolutionary algorithms to estimate the hyperparameters of the models.

Obtaining the four parameters a posteriori can be done using classical statistical techniques, but the aim of the project is to be able to learn and predict these curves at the beginning of the curves, for which we will have to use exogenous variables and learning techniques based on artificial intelligence. The learning of the parameters will allow us to have models for forecasting the number of people infected a priori, that is, at the beginning of the growth curve, obtaining decision support systems for public health professionals on the most optimal measures to stop the pandemic.

The independent variables of the models will be associated, among others, with environmental conditions, temperature, humidity, pressure, CO2, etc., in the movement of the population (measured by electricity, telephone, internet consumption, etc.), in the structure of the population (number of people per km2, number of patients in residences, % of health and care personnel per inhabitant, etc.), geo-economic structure of each district (infrastructures, ports, airports, high-speed train stations, etc.).