La limpieza de datos es el proceso de corregir o eliminar datos incorrectos, corruptos, formateados incorrectamente, duplicados o incompletos dentro de un conjunto de datos.
Cuando se combinan varias fuentes de datos, existen muchas oportunidades para que los datos se dupliquen o se etiqueten incorrectamente. Si los datos son incorrectos, los resultados y los algoritmos no son fiables, aunque parezcan correctos.
No existe una forma absoluta de prescribir los pasos exactos en el proceso de limpieza de datos porque los procesos variarán de un conjunto de datos a otro.
Pero es crucial establecer una plantilla para su proceso de limpieza de datos para que sepa que lo está haciendo de la manera correcta en todo momento.