Análisis para preprocesamiento de data COVID-19 de Perú

22 May 2020

Este post busca realizar un análisis parcial y básico para el preprocesamiento de los datos de acceso libre de los nuevos contagios en Perú del COVID-19. He dejado en este [repositorio](https://github.com/gissemari/covid19Peru) un notebook en jupyter para que se puedan apreciar mejor los pasos que seguí. La calidad de la data es un tema importante. Y algunas instancias con datos ilegibles podrían no significar o impactar mucho en el análisis global. Sin embargo, cuando abrimos los datos por departamento estos podrían impactar más o menos:
1. Fecha de Nacimiento
Es una variable que aporta la edad y por tanto el riesgo de las personas de contraer la enfermedad. Tiene mezcladas fechas con guiones y diagonales.
2. Fecha de Prueba
también contiene los mismos problemas que la fecha de nacimiento, mezcla entre guiones y diagonales. Afortunadamente la función to_datetime() de pandas identifica ambas.
Ambas fechas cuentan con instancias donde mes y día se han intercalado. Es fácil confirmar esto porque hay registros de pruebas después de mayo del 2020, es decir que no han sucedido aún. La solución aquí es identificar estas instancias, pasarlas a string, intercambiar dia y mes y volverlas tipo de dato datetime de nuevo.
Hay algunos dias de enero y febrero con registros y no necesariamente por confusión en mes/dia, llegando incluso a valores alrededor de 500. Ejemplos en la siguiente tabla.
2020-01-02 2
2020-01-04 444
2020-01-05 581
2020-01-06 1
2020-01-07 2
2020-01-27 2
3. Provincia, Distritos
Algunas nombres están escritos con una ligera diferencia, acento u otra letra y esto hace que se conviertan en una nueva instancia. Ejemplo: 'BONGARA', 'BONGARÁ'
4. Sexo
En minúsculas y mayúsculas hacen que se creen dos otras instancias a los dos valores que generalmente se usan.
5. Disminuyen las pruebas los domingos
Debido a algunos valles, se puede concluir que en alguna departamento-provincia se hacen menos pruebas los días domingos (cada 7 dias)
Nuevos casos con valles cada 7 dias, los domingos
6. Tipo de prueba
Hay menos pruebas PCR hechas, comparadas con el número de PR. Ambos tipos parecen tener un ligero patrón de acuerdo el día de la semana.
Nuevos casos por tipo de prueba


comments powered by Disqus