Calidad del dato en entornos regulados: una propuesta metodológica para la selección de herramientas tecnológicas

Data quality in regulated environments: a methodological proposal for the selection of technological tools

Llanos Cuenca1, Jorge Maté2, Andrés Boza3

Recibido: 7/9/2025 | Aceptado: 10/12/2025

Resumen

En el contexto actual de big data y transformación digital, la gestión de la calidad del dato (DQM) se ha convertido en una función esencial, especialmente en entornos regulados por normativas como el RGPD o la Ley de Inteligencia Artificial de la UE. Este artículo examina los principales marcos normativos y estándares técnicos aplicables, analiza el ciclo de vida del dato y evalúa herramientas comerciales para su gestión. Finalmente, se propone una metodología para seleccionar herramientas tecnológicas de calidad del dato, integrando aspectos normativos, técnicos y organizacionales, con el objetivo de facilitar decisiones informadas y cumplimiento regulatorio.

Palabras clave: Calidad del dato, gobernanza de datos, cumplimiento normativo, herramientas tecnológicas, ciclo de vida del dato.

Abstract

In the current context of big data and digital transformation, data quality management (DQM) has become an essential function, especially in environments regulated by legislation such as the GDPR or the EU Artificial Intelligence Act. This article examines the main applicable regulatory frameworks and technical standards, analyzes the data lifecycle, and evaluates commercial tools for data management. Finally, it proposes a methodology for selecting data quality technology tools, integrating regulatory, technical, and organizational aspects, with the aim of facilitating informed decision-making and regulatory compliance.

Keywords: Data quality, data governance, regulatory compliance, technological tools, data lifecycle.

1. Introducción

En pleno auge de la era del big data, la gestión de la calidad del dato (DQM) ha asumido un papel crítico. DQM incluye acciones, metodologías y técnicas que permiten comprobar que los datos tratados se ajustan a unos requerimientos específicos de calidad.

Uno de los principales usos de la DQM es el cumplimiento de normativas regulatorias y la verificación de su conformidad con las mismas. En ámbitos donde se gestiona información personal existen códigos de obligado cumplimiento, como el RGPD (European Parliament & Council, 2016), que ha sido articulado para proteger los derechos y libertades de los individuos en lo concerniente al tratamiento de sus datos personales. Otros, que obligan a identificar, clasificar y documentar la información gestionada, y otras normativas, como la Ley de Inteligencia Artificial de la UE, que clasifican las aplicaciones de la IA (European Parliament & Council, 2024c) en categorías de riesgo, llegando a considerar algunas de ellas como inaceptables, como por ejemplo los sistemas de puntuación social. La calidad del dato no puede abordarse exclusivamente desde una óptica técnica o legal, sino que exige una visión integradora que combine estándares, regulación y tecnología.

Muchos de estos problemas son abordados por las herramientas de evaluación y gestión de la calidad del dato que intentan resolver la operativa expuesta de un modo sistemático.

El objetivo de este artículo es profundizar en las normas, regulaciones y herramientas comerciales más relacionadas con técnicas de la ciencia de datos y proponer una metodología de selección basada en criterios de calidad.

La estructura del paper continúa con la sección 2 donde se revisan los antecedentes en normativa y regulación. El ciclo de vida de los datos y herramientas informáticas asociadas se analizan en la sección 3 y posteriormente en la sección 4 se lleva a cabo un análisis integrado de los conceptos anteriores, para dar paso a la sección 5 con la propuesta metodológica para la selección de herramienta de calidad del dato. Los principales resultados y conclusiones se exponen en las secciones 6 y 7 respectivamente.

2. Antecedentes

2.1. Normas y calidad del dato

Las normas podrían definirse como, fórmulas que describen la mejor manera de hacer algo, y que son el resultado de un acuerdo internacional entre expertos (European Parliament & Council, 2024a).

La Organización Internacional de Normalización, o ISO es una de las encargadas establecer estos estándares internacionales.

2.1.1. ISO 8000: gestión de la calidad de datos

Esta norma establece un marco para la gestión de la calidad de los datos y datos maestros. Su propósito principal es definir conceptos clave y especificaciones que aseguren la calidad de los datos dentro de las organizaciones (International Organization for Standardization, 2011).

Se estructura en dos grandes bloques:

  1. Gestión de calidad de datos (ISO 8000-6X): Describe procesos para garantizar la calidad de los datos.
  2. Gestión de datos maestros (ISO 8000-1X0): Define roles como proveedor, consumidor, cliente y custodio de datos, además de establecer un formato específico para el intercambio de información entre aplicaciones.

Un aspecto clave de esta norma es que propone un ciclo de mejora continua en la gestión de calidad del dato. Este ciclo comienza con el aprovisionamiento de recursos, destacando la importancia del factor humano, especialmente en términos de formación y capacitación.

2.1.2. ISO/IEC 25012: modelo de calidad de datos

Esta norma define el modelo de calidad de datos, estableciendo que la calidad de un producto de datos debe evaluarse con base en ciertas características (International Organization for Standardization, 2015a). Se clasifica en dos categorías principales:

  1. Calidad de datos inherente: Se refiere a la calidad intrínseca de los datos, considerando:
    • Exactitud: Precisión en la representación de los datos.
    • Completitud: Presencia de todos los valores necesarios.
    • Consistencia: Coherencia dentro de un contexto determinado.
    • Credibilidad: Nivel de confianza en la veracidad de los datos.
    • Actualidad: Grado de actualización de los datos respecto a su contexto.
  2. Calidad de datos dependiente del sistema: Relacionada con el impacto del sistema informático en la calidad de los datos:
    • Accesibilidad: Disponibilidad de los datos para usuarios, incluyendo aquellos con discapacidades.
    • Conformidad: Cumplimiento con regulaciones y normativas.
    • Confidencialidad: Garantía de acceso solo a usuarios autorizados.
    • Eficiencia: Optimización en el procesamiento de datos.
    • Trazabilidad: Capacidad de rastrear cambios y origen de los datos.
    • Comprensibilidad: Facilidad de interpretación por parte de los usuarios.

Es importante destacar que algunas características pueden ser híbridas, es decir, compartir aspectos tanto de la calidad inherente como de la dependiente del sistema.

ISO/IEC 25024:2015 – Medición de Calidad de Datos (International Organization for Standardization, 2015b).

Pertenece a la familia de normas ISO 25000 y se centra en definir medidas cuantitativas para evaluar la calidad de los datos, basándose en los criterios establecidos por la ISO/IEC 25012.

Incluye:

Es importante mencionar que esta norma no establece rangos de valores fijos para medir la calidad, ya que estos dependen del sistema, el contexto y las necesidades del usuario.

La norma ISO/IEC 25024:2015 también reconoce la importancia del factor humano en la calidad de los datos y establece los siguientes roles dentro de su gestión:

2.2. Normativa regulatoria

En esta sección se incluye una revisión de regulaciones que afectan a la gestión de datos, en cuanto que pueden constituir una restricción a su recopilación, uso, cesión o cualquier otro tratamiento que se plantee realizar.

2.2.1. RGPD (Reglamento (UE) 2016/679)

El Reglamento General de Protección de Datos (RGPD) es el principal marco legal para la protección de datos personales en la UE (European Parliament & Council, 2016). Regula el tratamiento y la libre circulación de datos personales de personas físicas, garantizando derechos fundamentales en materia de privacidad y protección de información.

Puntos clave:

2.2.2. Actas de Servicios Digitales (DSA) y de Mercados Digitales (DMA) (UE 2022/2065 y UE 2022/1925)

Las regulaciones DSA (Digital Services Act) y DMA (Digital Markets Act) establecen reglas para garantizar un entorno digital seguro y competitivo dentro de la UE (European Parliament & Council, 2022b).

Objetivos principales:

  1. DSA:
    • Combatir la desinformación y contenidos ilegales en plataformas digitales.
    • Regular el uso de patrones oscuros en interfaces digitales.
    • Introducir roles como el coordinador de servicios digitales y los detectores de confianza.
    • Aplicar normativas más estrictas a plataformas con más de 45 millones de usuarios.
  2. DMA:
    • Controlar el poder de los gatekeepers (grandes plataformas tecnológicas como motores de búsqueda y tiendas de aplicaciones).
    • Establecer normas sobre competencia justa y transparencia.

Ambas normativas afectan a grandes actores digitales y garantizan derechos a los usuarios en el entorno digital.

2.2.3. Ley de Inteligencia Artificial de la UE (EU AI Act)

Este reglamento, es la primera regulación integral sobre inteligencia artificial (European Parliament & Council, 2024a), e incorpora:

Clasificación del riesgo en IA:

Obligaciones clave:

Además, permite a los usuarios verificar el cumplimiento de herramientas de IA con la regulación mediante un servicio web oficial.

2.2.4. Reglamento de Datos NO Personales (UE 2023/2854)

Conocido como Reglamento de Datos, complementa al RGPD regulando el acceso y uso de datos no personales (European Parliament & Council, 2023) generados por productos y servicios digitales.

Aspectos clave:

2.2.5. Reglamento de Identidad Digital Europea (eIDAS2) (UE 2024/1182)

El reglamento eIDAS2 es una actualización del marco legal para la identificación electrónica y los servicios de confianza en la UE (European Parliament & Council, 2024b).

Objetivo:

Aspectos clave:

2.2.6. Espacios Europeos de Datos: hacia una infraestructura federada de compartición sectorial

La Unión Europea ha lanzado la iniciativa de Espacios Europeos de Datos como parte central de su Estrategia Europea de Datos. El objetivo es fomentar un ecosistema de compartición de datos interoperable, seguro y confiable en distintos sectores (industria, energía, salud, agricultura, finanzas, movilidad, etc.). Esta iniciativa se apoya normativamente en dos pilares recientes: el Reglamento de Gobernanza de Datos (European Parliament & Council, 2022a)(DGA, en vigor desde 2023), que establece estructuras para la intermediación de datos y refuerza la confianza en su reutilización voluntaria; y el Data Act (European Parliament & Council, 2023)(adoptado en 2024), que regula los derechos de acceso y uso de datos generados por productos conectados y servicios digitales. También se vincula con el EDS (European Commission, 2024). Ambos instrumentos introducen nuevas obligaciones para los proveedores tecnológicos, incluidos requisitos de portabilidad, interoperabilidad, transparencia y neutralidad. La creación de estos espacios de datos conlleva implicaciones relevantes para la calidad del dato, ya que exige estándares uniformes, trazabilidad, mecanismos robustos de gobernanza y herramientas capaces de operar en entornos distribuidos y normativamente complejos.

3. Ciclo de vida del dato y herramientas asociadas

El concepto de ciclo de vida del dato permite entender y gestionar los datos como activos dinámicos que atraviesan múltiples etapas desde su creación hasta su eliminación. Cada una de estas fases, generación, almacenamiento, procesamiento, análisis, distribución, retención y destrucción, conlleva riesgos específicos y requiere mecanismos adecuados de control de calidad, seguridad e interoperabilidad. Desde una perspectiva de gestión de la calidad del dato, resulta imprescindible asegurar que en cada etapa se mantengan atributos clave como la exactitud, consistencia, trazabilidad y conformidad normativa. La implementación efectiva del ciclo de vida, alineada con estándares como ISO 8000 o ISO/IEC 25012 y con regulaciones como el RGPD o el Data Act, constituye una base esencial para una gobernanza de datos responsable, especialmente en entornos organizacionales complejos o sectorialmente regulados.

3.1. ETL y ELT

La transformación de datos es fundamental en su procesamiento y almacenamiento. Tradicionalmente, este proceso se realizaba a través del método ETL (Extracción, Transformación y Carga), donde los datos se transforman antes de ser almacenados en un repositorio (SnapLogic, 2024), (Seenivasan Mphasis & Seenivasan, 2022).

Sin embargo, con el avance de la computación en la nube y el crecimiento de nuevos paradigmas como los data warehouses y data lakes, ha surgido la metodología ELT (Extracción, Carga y Transformación). La diferencia clave es que en ELT, los datos se cargan primero en un repositorio sin transformación previa, lo que permite mayor flexibilidad en su análisis posterior.

Conceptos clave:

Por otra parte, el uso de inteligencia artificial en la gestión de datos mejora su calidad y facilita su análisis. Algunas herramientas clave incluyen (AWS, 2024; Developers, 2024; Foundation, 2024; Labs, 2024):

El uso de estas herramientas no solo permite mejorar la calidad de los datos, sino también optimizar su procesamiento y análisis en entornos de aprendizaje automático.

3.2. Etapas del ciclo de vida de los datos

Los datos pasan por diversas fases desde su creación hasta su eliminación. Estas etapas incluyen (ESIC, 2024; Shah et al., 2021):

  1. Creación: Generación y recopilación de datos, asegurando su precisión desde el inicio.
  2. Limpieza: Eliminación de datos incorrectos, duplicados o incompletos para garantizar su calidad.
  3. Almacenamiento y Organización: Guardado seguro de los datos en bases de datos, data warehouses o data lakes.
  4. Procesamiento y Análisis: Aplicación de técnicas de minería de datos, machine learning y análisis estadístico para extraer información valiosa.
  5. Clasificación y Perfilado: Evaluación de los datos para entender su estructura y calidad.
  6. Fusión y Deduplicación: Combinación de datos de diferentes fuentes y eliminación de redundancias.
  7. Distribución y Acceso: Disponibilidad de los datos a los usuarios mediante informes, APIs o dashboards.
  8. Retención y Copia de Seguridad: Políticas de respaldo y almacenamiento de datos históricos.
  9. Eliminación Segura: Destrucción de datos obsoletos o confidenciales según regulaciones de seguridad.

3.3. Herramientas de calidad de datos

Para la selección de herramientas de gestión y análisis de calidad de datos, se ha adoptado un enfoque amplio y fundamentado en múltiples criterios, evitando limitarnos a un único patrón, proveedor o clasificación específica. Se han considerado diversas fuentes, incluyendo documentación técnica, análisis de mercado y la propia evaluación basada en su alineación con las necesidades de la ciencia de datos.

Dado que la publicidad de los productos suele enfatizar sus características más atractivas, se ha llevado a cabo una revisión más profunda para identificar aquellas herramientas que realmente ofrecen un valor diferencial en la práctica. En este proceso, se han seleccionado soluciones ampliamente reconocidas, incluyendo tres de las principales herramientas posicionadas como líderes en el Cuadrante Mágico de Gartner para Data Quality Solutions (Ataccama, 2024b). Esta distinción, otorgada por una de las firmas más influyentes en análisis de mercado tecnológico, respalda su relevancia en términos de funcionalidad, innovación y adopción en la industria.

Se han incluido también las soluciones más representativas del panorama actual, priorizando aquellas que ofrecen capacidades avanzadas en calidad del dato, gobernanza y automatización, con especial interés en herramientas que integran aprendizaje automático y análisis de datos, aspectos clave en entornos de ciencia de datos.

Las herramientas seleccionadas han sido:

Para llevar a cabo un análisis detallado de las herramientas seleccionadas, se ha adoptado un enfoque estructurado que permite evaluar sus características distintivas, identificar puntos en común y ponderar las prestaciones y servicios que ofrecen.

Dado que la mayoría de estas herramientas proporcionan un período de prueba o evaluación, en los casos en los que ha sido posible, se ha hecho uso de estas versiones, a pesar de que suelen requerir un registro previo y presentan funcionalidades más limitadas en comparación con las versiones completas. La evaluación se ha centrado en verificar su funcionalidad, facilidad de uso y capacidades, asegurando un análisis equilibrado entre las soluciones exploradas durante el año 2024.

Se ha puesto especial atención en aquellas herramientas que integran técnicas de aprendizaje automático o capacidades de entrenamiento de modelos, dado que estos elementos son fundamentales en la ciencia de datos y pueden representar un valor diferencial en términos de automatización y optimización de la calidad del dato.

Dada la diversidad y el nivel de sofisticación de las herramientas analizadas, en algunos casos se ha optado por una evaluación práctica, utilizando la herramienta en un entorno real para obtener una comprensión precisa de sus capacidades. En aquellos casos en los que el acceso ha estado más restringido por parte del fabricante, se ha realizado una exploración basada en la documentación disponible y en la observación de su interfaz, permitiendo al menos una visión general de su funcionamiento.

Las herramientas evaluadas, con sus propias particularidades, aportan soluciones para cada una de las etapas del ciclo de vida de los datos. Se identifican y destacan las fases en las que cada herramienta demuestra un mayor impacto o especialización, permitiendo así una comparación más precisa de su alcance y funcionalidad, junto con las características destacadas, descripción breve, carencias y la indicación de si es o no software libre.

Cada herramienta responde a necesidades específicas, desde la preparación y transformación de datos hasta la gestión avanzada y gobernanza en entornos empresariales, así como el nivel de integración y costes, por lo que la elección de una u otra dependerá de las necesidades del usuario.

Herramienta

Etapas del ciclo de vida mejor caracterizadas

Características Destacadas

Software Libre

Descripción Breve

Carencias

Open Refine

Creación, Transformación, Perfilado

Plataforma local, Versión de evaluación, Funciones de clasificación

Plataforma para limpieza y transformación de datos, basada en un servidor local y accesible vía navegador.

No permite crear conjuntos de datos arbitrarios, requiere Jython para scripts en Python.

Talend

Almacenamiento y Organización, Funciones de ELT

Plataforma local/cloud/híbrida, Conexión vía APIs

Plataforma de integración de datos con enfoque en Data Fabric, gobernanza y cumplimiento normativo.

Dependencia de Java, algunas funciones avanzadas requieren licencia de pago.

Astera

Creación, Limpieza, Almacenamiento y Organización

Funciones de ELT, Herramientas de AI, Conexión vía APIs

No

Entorno sin necesidad de código con automatización y funciones de AI para preparación e integración de datos.

Limitado en funciones avanzadas de gobernanza y gestión de calidad de datos.

IBM InfoSphere

Creación, Limpieza, Almacenamiento, Procesamiento y Análisis

Identificación de datos sensibles, Interoperabilidad y Certificación

No

Solución empresarial para integración y calidad de datos, con funcionalidades de clasificación y certificación.

Plataforma opaca en detalles técnicos, alto coste de implementación.

Data Ladder

Creación, Limpieza, Deduplicación, Almacenamiento, Eliminación Segura

Versión de evaluación, Identificación del tipo de datos, Conexión vía APIs

No

Herramienta especializada en coincidencia y deduplicación de datos distribuidos en múltiples fuentes.

Enfoque específico en deduplicación, puede no ser suficiente para necesidades más amplias de calidad de datos.

Experian Aperture

Creación, Preparación, Perfilado, Interoperabilidad y Certificación

Versión de evaluación, Permite generar certificaciones, Funciones de clasificación

No

Plataforma de autoservicio para calidad y enriquecimiento de datos con IA y flujos de trabajo automatizados.

Versión gratuita con muchas limitaciones, centrada en autoservicio más que en integración avanzada.

Attacama ONE

Creación, Preparación, Perfilado, Clasificación y Agrupamiento

Distintos perfiles de usuario, Plataforma multi-cloud, Conexión vía APIs, Identificación del tipo de datos

No

Solución modular de gestión de datos maestros, calidad y gobernanza con integración en múltiples plataformas.

Modularidad puede generar complejidad en la implementación y configuración.

Informatica

Creación, Preparación, Perfilado, Clasificación y Agrupamiento

Distintos perfiles de usuario, Plataforma multi-cloud, Conexión vía APIs, Identificación del tipo de datos

No

Plataforma de calidad de datos con integración multi-cloud, catalogación y automatización de procesos.

Costo elevado en versiones avanzadas, pago por uso en funcionalidades de IA.

4. Análisis integrado

Las normas de calidad de datos, la normativa regulatoria y el ciclo de vida del dato están estrechamente relacionados en la gestión y protección de la información en entornos digitales. Las normas ISO 8000, ISO/IEC 25012 y ISO/IEC 25024 establecen principios para garantizar la precisión, consistencia y accesibilidad de los datos, asegurando su fiabilidad en distintos contextos. Paralelamente, la regulación europea, con marcos como el RGPD, la DSA/DMA, la Ley de IA, el Reglamento de Datos No Personales y eI DAS2, refuerza la seguridad, transparencia y derechos de los usuarios en el uso y tratamiento de la información, promoviendo un equilibrio entre innovación y protección de datos. En este contexto, la gestión del ciclo de vida del dato es esencial para garantizar su calidad desde su creación hasta su eliminación, mediante procesos de extracción, transformación, almacenamiento, análisis y distribución. La evolución de metodologías como ETL y ELT, junto con el auge de data lakes, data lakehouses y herramientas de IA, optimizan el tratamiento de datos a gran escala, permitiendo una integración eficiente con marcos normativos y estándares de calidad, asegurando así su correcto uso en aplicaciones digitales, aprendizaje automático y toma de decisiones estratégicas. El avance hacia una economía del dato en la Unión Europea está materializándose a través de la creación de espacios europeos de datos sectoriales, como el Espacio Europeo de Datos de Salud (EHDS) o los futuros espacios en movilidad, energía o industria. Estas infraestructuras digitales promovidas por la Comisión Europea no solo requieren interoperabilidad técnica, sino también mecanismos comunes de gobernanza, control de calidad y trazabilidad, que garanticen el uso ético y legal de los datos compartidos. La alineación entre normas internacionales (como ISO 8000 o ISO/IEC 25024), regulaciones como el RGPD o el Data Governance Act, y herramientas tecnológicas que operen sobre estas bases, se convierte así en un requisito estructural para el funcionamiento eficaz y seguro de estos nuevos ecosistemas de datos.

La Tabla 1 muestra una aproximación de las normas y regulaciones aplicables las fases del ciclo de vida de los datos.

Tabla 1. Normas y regulaciones aplicables a las fases del ciclo de vida de los datos.

Fase del Ciclo de Vida

Normas Aplicables

Regulaciones Aplicables

Creación

ISO 8000 / IEC 25012

RGPD, eIDAS2, EDS

Limpieza

ISO/IEC 25012, 25024

RGPD

Almacenamiento y Organización

ISO 8000, ISO/IEC 25012, 25024

RGPD, Reglamento de Datos No Personales, eIDAS2

Procesamiento y Análisis

ISO 8000, ISO/IEC 25012, 25024

Ley de IA, DSA/DMA, RGPD, EDS

Clasificación y Perfilado

ISO/IEC 25012, 25024

Ley de IA, RGPD

Fusión y Deduplicación

ISO/IEC 25012

RGPD, Reglamento de datos no personales

Distribución y Acceso

ISO 8000, ISO/IEC 25024

DSA/DMA, eIDAS2, EDS

Retención y Copia de Seguridad

ISO/IEC 25024

Reglamento de Datos No Personales, RGPD

Eliminación Segura

ISO/IEC 25024

RGPD, eIDAS2

Fuente: elaboración propia.

Por otra parte, las herramientas comerciales de calidad del dato desempeñan un papel fundamental en la automatización, optimización y monitorización del proceso de gestión de datos dentro de una organización. Su función principal es garantizar que los datos sean precisos, coherentes, completos y conformes con estándares y regulaciones a lo largo de su ciclo de vida.

Algunas herramientas como IBM InfoSphere, Attacama e Informatica cubren múltiples fases y están mejor alineadas con el cumplimiento regulatorio integral. Data Ladder y OpenRefine son útiles para tareas específicas, pero más limitadas en alcance.

Ninguna herramienta cubre por sí sola todo el ciclo de vida ni garantiza cumplimiento total, pero bien combinadas permiten operacionalizar las normas ISO y las regulaciones europeas. La Tabla 2 muestra el resumen de este análisis.

Tabla 2. Fases del ciclo de vida de los datos cubiertas por las herramientas informáticas más relevantes.

Fase del ciclo de vida

Herramientas más relevantes

Aporte en relación con normas y regulaciones

Creación

OpenRefine, Astera, IBM InfoSphere, Data Ladder, Experian, Attacama

Permiten estandarizar datos desde su origen (ISO 8000, 25012), aplicar identificación de datos personales (RGPD), y asegurar formato electrónico estructurado (eIDAS2, EHD)

Limpieza

Astera, IBM InfoSphere, Data Ladder

Apoyan procesos de validación, deduplicación, tratamiento de errores y perfiles de calidad (ISO/IEC 25024, RGPD)

Almacenamiento y organización

Talend, Astera, IBM InfoSphere

Integración estructurada y control de almacenamiento con trazabilidad e interoperabilidad (ISO 8000, 25012, Reglamento de Datos No Personales)

Procesamiento y análisis

IBM InfoSphere, Informatica, Attacama

Procesamiento avanzado con IA, perfilado y trazabilidad. Apoya cumplimiento de requisitos técnicos y legales de sistemas automatizados (Ley de IA, DSA/DMA, RGPD, EHD)

Clasificación y perfilado

Experian, Attacama, Informatica

Generan perfiles de datos, clasificación semántica y segmentación, lo cual es clave para controles de riesgo en IA y tratamiento conforme al RGPD

Fusión y deduplicación

Data Ladder, IBM InfoSphere

Identifican y eliminan redundancias en registros. Relevante para minimizar errores de identificación personal (RGPD)

Distribución y acceso

Talend, Attacama, Informatica

Gobernanza del dato y control de accesos a través de APIs y roles de usuario (DSA/DMA, eIDAS2, EHD)

Retención y backup

Data Ladder, IBM InfoSphere

Apoyo parcial mediante políticas de almacenamiento seguro y trazabilidad para auditoría y conservación regulada (Reglamento de Datos No Personales, RGPD)

Eliminación segura

Data Ladder

Soporte a borrado de registros y controles de acceso (ISO/IEC 25024, RGPD, eIDAS2)

Fuente: elaboración propia.

5. Propuesta metodológica para la selección de herramienta de calidad del dato

Se plantea un enfoque estructurado y aplicable a distintos contextos organizativos con el objetivo de facilitar la selección informada de herramientas tecnológicas orientadas a la gestión de la calidad del dato. La metodología consta de las siguientes fases:

1.- Identificación de criterios relevantes.

Se establecen las características funcionales, técnicas y normativas que resultan clave según las necesidades particulares del entorno donde se va a aplicar la herramienta.

2.- Asignación de pesos o prioridades

Cada criterio se pondera en función de su relevancia relativa para el caso de uso, permitiendo diferenciar entre requisitos críticos y complementarios.

3.- Evaluación de herramientas.

Se valoran las soluciones consideradas en relación con los criterios definidos, mediante revisión documental, pruebas funcionales o análisis comparativo.

4.- Cálculo del valor ponderado y selección.

Se computan las puntuaciones obtenidas por cada herramienta en función de su adecuación a los criterios y la importancia asignada. La herramienta con mayor valor ponderado será la que, en principio, presente un mejor ajuste a las necesidades planteadas.

Figura 1. Metodología para la selección de herramienta de calidad del dato.

Figura 1. Metodología para la selección de herramienta de calidad del dato.

Fuente: elaboración propia.

5.1. Identificación de criterios relevantes

De las fuentes comerciales anteriores se ha ido extrayendo las siguientes características, que podemos denominar características evaluables y que, según el criterio particular, podrían permitir implementar algún mecanismo de decisión sobre cuál sería la mejor solución u herramienta para adoptar en función de las necesidades de un ámbito, lo más genérico posible, a abordar.

Este primer paso es muy importante y debería personalizarse en función de las necesidades del agente evaluador que han de ser previamente definidas y priorizadas.

La definición de características ha de contar con la suficiente granularidad –o nivel de detalle–, para satisfacer los requerimientos de un modo lo más preciso posible.

Así pues, como paso previo a la hora de elegir cualquiera de las herramientas revisadas, se debería hacer una lista de las características de necesaria implementación (en función de la índole de nuestros datos, sus requerimientos de seguridad, equipo de proceso disponible, o cualquier otro que se ajustase a nuestras necesidades) que sirviese como guía para decidir cuáles de ellas cumplen con los requisitos deseados.

En nuestro (genérico) caso: Características evaluable sobre el concepto de calidad del dato en plataformas comerciales:

  1. Tipo (respecto a ubicación) de plataforma.
  2. Posibilidad de implementar distintos perfiles en función del papel de cada usuario.
  3. Necesidad de codificación. Tipo de lenguaje(s) principal(es).
  4. Disponible Versión de evaluación.
  5. Identificación de datos sensibles.
  6. Implementación de identificación del tipo de datos.
  7. Permite generar certificaciones.
  8. Herramientas de ELT/ETL.
  9. Herramientas de AI.
  10. Funciones de estandarización y validación.
  11. Funciones de clasificación.
  12. Interoperabilidad y certificación.
  13. Conexión vía APIs.

En la tabla de la figura 2 mostramos una matriz cuyas columnas asociamos a las características seleccionadas. En sus filas, disponemos cada una de las herramientas evaluadas y en las casillas de intersección vamos a incluir la puntuación (o ausencia/presencia) de dichas características para cada herramienta evaluada (Vemos completado el ejemplo para la herramienta Astera).

Figura 2. Definición y extracción de características.

Figura 2. Definición y extracción de características.

Fuente: elaboración propia.

Es necesario incidir en que esta extracción de características podría modificarse para ser más acorde a las necesidades del demandante de datos de calidad.

5.2. Ponderación de las características

Las características (que también podemos denominar dimensiones) deseables se deberían ponderar en función de nuestros requerimientos particulares otorgando mayor valor a aquellas más prioritarias.

Dichas necesidades se pueden puntuar y tipificar como binarias (1 o 0 para SI o NO) o graduadas en una escala entera, en la que, por convenio, mayor puntuación implicaría mayor adecuación.

El modelo propuesto permitiría sofisticaciones adicionales, tales como la implementación de una función de optimización que contemplase tanto variables binarias –para reflejar los requerimientos como ineludibles o prescindibles– así como numéricas, (para reflejar un grado de adecuación): El producto evaluado que presentase un valor óptimo, mayor puntuación en nuestro caso, debería ser el seleccionado.

Dicha función podría contemplar como restricciones la presencia de características ineludibles o un valor mínimo a satisfacer por ciertas características.

5.3. Extracción y valoración de características

Tras haber definido y ponderado nuestras necesidades es el momento de extraer el grado de adecuación a las mismas de las herramientas a evaluar. Debería fundamentarse en dos acciones:

1.- La revisión de la información que el proveedor de la herramienta pone a disposición general del público en su web promocional (mejor en su apartado técnico) para verificar si la herramienta ofrece lo relacionado con la prestación requerida. Esto constituiría una primera criba.

2.- La experimentación y uso de la prestación directamente en el prototipo ofrecido por el fabricante o su versión de evaluación.

Este proceso se puede refinar recurriendo al servicio de soporte de la herramienta evaluada para recabar información adicional.

El objetivo final de estas dos acciones es disponer de información suficiente para puntuar cada herramienta: A más adecuación al requerimiento evaluado deberíamos asignar una puntuación mayor.

5.4. Cómputo de valoraciones y selección del valor óptimo ponderado

Habiendo obtenido el grado de ajuste de cada característica, por su valor en la escala definida o su valor binario, en la figura 3 columna Puntuación (1), y multiplicándola por el valor que damos a esa característica como proporción de su importancia en nuestros requerimientos, en la misma figura columna Peso (2), obtenemos un valor ponderado para cada característica. Sumando el de todas ellas obtenemos un valor final que puede ser utilizado para clasificar por orden las herramientas evaluadas.

Figura 3. Modelo de evaluación de herramientas para la calidad del dato.

Figura 3. Modelo de evaluación de herramientas para la calidad del dato.

Fuente: elaboración propia.

El valor total ponderado que obtendríamos sería el de 2,95. Dicho valor no tiene dimensión ni unidades de medida, pero es de utilidad para nuestro propósito: Dotar de un orden de adecuación de los productos evaluados a nuestra necesidad.

Adicionalmente, y una vez generada esa lista ordenando las herramientas por su grado de adecuación, se podrían considerar otros condicionantes importantes (como los económicos) que nos permitiesen tomar una decisión final.

Explícitamente no se incluye el coste de implementación como una dimensión más, para dejarlo como una consideración final al margen. El motivo es comprobar si las soluciones técnicas más adecuadas a nuestras necesidades están al alcance de nuestros recursos destinados para su implementación. En caso contrario, podemos considerar incrementarlos.

En la figura 4 mostramos, respectivamente, un gráfico de tipo radar que podemos utilizar para visualizar de un modo gráfico el nivel de adecuación de cada dimensión (con valor entero) a nuestros requisitos y en el otro el flujo de acciones del proceso propuesto.

Figura 4. Gráfico comparativo de la puntuación asignada a cada solución evaluada como adecuación a los requisitos definidos.

Figura 4. Gráfico comparativo de la puntuación asignada a cada solución evaluada como adecuación a los requisitos definidos.

Fuente: elaboración propia.

De un modo objetivo, el polígono asociado a cada solución que tenga la mayor superficie es el que más se adecuaría a los intereses particulares.

En este caso se muestra el soporte de cinco dimensiones concretas para tres herramientas evaluadas. El número de dimensiones y herramientas puede alterarse para hacerlo extensible a la cantidad adecuada de las mismas.

6. Resultados

Las herramientas analizadas tienen distintas orientaciones según su propósito principal. Open Refine se centra en la limpieza y transformación de datos con un enfoque sencillo y accesible. Talend y Informatica ofrecen plataformas completas de integración y gobernanza de datos con capacidades avanzadas de procesamiento y conectividad. Astera e IBM InfoSphere son soluciones empresariales con automatización de procesos y calidad del dato a gran escala. Data Ladder se especializa en coincidencia y deduplicación, mientras que Experian Aperture se enfoca en enriquecimiento y autoservicio de datos. Por último, Attacama ONE busca integrar gobernanza, calidad y gestión de datos maestros en una única solución modular.

Respecto a la propiedad del sofware Open Refine y Talend (versión Open Studio) son herramientas de código abierto, lo que permite mayor personalización y flexibilidad sin costes de licencia. Las demás herramientas son propietarias, con licencias de pago que incluyen soporte técnico, seguridad avanzada y mejores integraciones con plataformas empresariales. Herramientas como Informatica y Attacama ONE ofrecen modelos de pago por uso en la nube, mientras que otras como IBM InfoSphere requieren infraestructura dedicada. Las versiones gratuitas de herramientas como Experian Aperture y Talend tienen limitaciones de filas, funcionalidades o conectividad, lo que puede afectar su adopción.

Conviene destacar que la mayoría de estas herramientas realizan análisis descriptivos (estado actual del dato) o diagnósticos (detección de errores), pero pocas incorporan analítica predictiva o prescriptiva. Herramientas como Attacama ONE e Informatica han comenzado a integrar inteligencia artificial y aprendizaje automático, pero su alcance sigue siendo limitado en comparación con plataformas especializadas en machine learning.

Por otra parte, las herramientas comerciales permiten operacionalizar y automatizar la aplicación de normas como ISO 8000, ISO/IEC 25012 y 25024 al proporcionar funcionalidades que garantizan la calidad, integridad y gobernanza de los datos. Open Refine, Talend, Informatica, Attacama ONE Facilitan la aplicación de los principios de calidad de ISO 8000, mejorando la precisión, consistencia y accesibilidad de los datos. IBM InfoSphere, Experian Aperture, Data Ladder implementan controles que aseguran la exactitud, deduplicación y trazabilidad de los datos según ISO/IEC 25012. Astera, Informatica, Talend proveen métricas de medición de calidad alineadas con ISO/IEC 25024, permitiendo evaluar automáticamente la confiabilidad de los datos tratados.

A su vez, cada normativa impone requisitos específicos sobre privacidad, seguridad, interoperabilidad y gobernanza de datos, y las herramientas comerciales juegan un papel clave en su cumplimiento.

Talend, Attacama ONE, Informatica implementan mecanismos de anonimización y pseudonimización para datos personales. Experian Aperture, IBM InfoSphere permiten gestionar derechos de acceso, rectificación y eliminación de datos personales. Data Ladder ayuda en la deduplicación y perfilado de datos personales, asegurando que los registros sean correctos y actualizados. DSA/DMA (Regulación de Servicios y Mercados Digitales). Attacama ONE, Talend, Informatica aseguran la gobernanza y trazabilidad de datos en plataformas digitales. IBM InfoSphere ofrece control sobre la clasificación y acceso a datos en motores de búsqueda y grandes plataformas digitales.

Informatica, Attacama ONE proveen herramientas para evaluar la calidad de los datos utilizados en IA, asegurando la conformidad con los estándares de datos de entrenamiento. Experian Aperture facilita la identificación de sesgos en datos, algo crucial para IA de alto riesgo.

IBM InfoSphere, Astera permiten auditar y gestionar datos no personales de manera estructurada y conforme a regulaciones. Talend, Informatica Facilitan la interoperabilidad entre fuentes de datos no personales y reguladas.

Experian Aperture, Informatica gestionan identificación digital segura y certificaciones de autenticidad. IBM InfoSphere implementa controles de seguridad y encriptación de datos personales en servicios digitales.

7. Conclusiones

El estudio de las normas de calidad del dato, la normativa regulatoria y las herramientas comerciales permite comprender el estado actual de la gestión y control de los datos en entornos digitales. La calidad del dato no es solo una buena práctica técnica, sino un requisito normativo y una necesidad operativa. Las normas ISO han establecido criterios claros para garantizar datos precisos, accesibles y confiables, mientras que las regulaciones como RGPD, DSA/DMA o la Ley de IA han impuesto requisitos de protección y gobernanza.

Así pues, podríamos definir la DQM como un marco sistemático con el objeto de generar datos precisos, válidos y suficientes, mediante un proceso continuo que ajuste fuentes de datos, verifique la calidad de la información que proporcionan e implemente mecanismos que eliminen o minimicen la propagación de posibles errores, sin olvidar adecuar todo ello al corpus normativo aplicable en cada contexto y a la vez intentando asumir los estándares necesarios que garanticen la interoperabilidad durante su desarrollo, a unos costes asumibles.

Las herramientas comerciales han evolucionado para cubrir estos aspectos, pero aún existen desafíos en la automatización y en la alineación entre calidad y cumplimiento legal. Si bien las herramientas comerciales han integrado funciones de gobernanza y auditoría, ninguna herramienta por sí sola garantiza el cumplimiento total de las normativas. La adopción de regulaciones como el Reglamento de Datos No Personales y la Ley de IA impone nuevos desafíos en la gestión de datos, especialmente en términos de transparencia, trazabilidad y anonimización. Las organizaciones deben combinar herramientas tecnológicas con procesos internos de auditoría para lograr una conformidad real y efectiva. Por otra parte, las herramientas de calidad del dato han mejorado en términos de procesamiento, gobernanza y seguridad, pero muchas aún tienen limitaciones en la integración con entornos multicloud y arquitecturas híbridas. La interoperabilidad es clave para la conformidad con regulaciones emergentes, especialmente en sectores como finanzas, salud y plataformas digitales; las organizaciones no pueden considerar la calidad del dato como un proceso aislado o puramente técnico. El futuro de la calidad del dato dependerá de la capacidad de las herramientas para operar de manera conectada y adaptable a diferentes normativas, estas, han convertido la gestión del dato en una cuestión de cumplimiento legal y reputación corporativa, mientras que las herramientas han permitido una optimización operativa y reducción de riesgos. La correcta implementación de estos tres ejes (normas, regulaciones y herramientas) permite mejorar la eficiencia empresarial, la toma de decisiones y la confianza del usuario en los datos tratados.

Financiación

Esta investigación ha sido financiada por el Vicerrectorado de Investigación de la Universitat Politècnica de Valencia (PAID-11-24) y (POLISABIO2024_AP15).

Referencias

ATACCAMA. (2024a). Ataccama ONE – Unified data management platform powered by AI. https://www.ataccama.com/platform

ATACCAMA. (2024b). What’s new in the Gartner Magic Quadrant for Data Quality Solutions 2024. https://www.ataccama.com/blog/what-s-new-in-the-gartner-magic-quadrant-for-data-quality-solutions-2024

AWS. (2024). Amazon SageMaker – Built-in Algorithms. https://docs.aws.amazon.com/sagemaker/latest/dg/algos.html

DEVELOPERS, B. (2024). Boto3 Documentation. https://docs.aws.amazon.com/boto3/latest/

ESIC. (2024). Ciclo de vida de los datos: qué es y etapas. https://www.esic.edu/rethink/tecnologia/ciclo-vida-datos-c

EUROPEAN COMMISSION. (2024). Common European Data Spaces: Enhancing data-driven innovation across strategic sectors. https://digital-strategy.ec.europa.eu/en/policies/data-spaces

EUROPEAN PARLIAMENT, & COUNCIL. (2016). Regulation (EU) 2016/679 (General Data Protection Regulation). https://eur-lex.europa.eu/eli/reg/2016/679/oj

EUROPEAN PARLIAMENT, & COUNCIL. (2022a). Regulation (EU) 2022/868 on data governance (Data Governance Act). https://eur-lex.europa.eu/eli/reg/2022/868/oj

EUROPEAN PARLIAMENT, & COUNCIL. (2022b). Regulation (EU) 2022/2065 (Digital Services Act). https://eur-lex.europa.eu/eli/reg/2022/2065/oj

EUROPEAN PARLIAMENT, & COUNCIL. (2023). Regulation (EU) 2023/2854 on harmonised rules on fair access to and use of data (Data Act). https://eur-lex.europa.eu/eli/reg/2023/2854/oj

EUROPEAN PARLIAMENT, & COUNCIL. (2024a). AI Act Explorer – Regulation on harmonised rules for artificial intelligence. https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:32024R1689

EUROPEAN PARLIAMENT, & COUNCIL. (2024b). Regulation (EU) 2024/1183 on European digital identity (eIDAS2). https://eur-lex.europa.eu/eli/reg/2024/1183/oj/eng

EUROPEAN PARLIAMENT, & COUNCIL. (2024c). Regulation on harmonised rules for artificial intelligence (Artificial Intelligence Act). https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:32024R1689

EXPERIAN. (2024). Aperture Data Studio. https://www.experian.co.uk/business/platforms/aperture-data-studio

FOUNDATION, A. S. (2024). Apache Arrow documentation. https://github.com/apache/arrow

IBM. (2024). InfoSphere Information Server for Data Quality. https://www.ibm.com/es-es/products/infosphere-info-server-for-datamgmt

INFORMATICA. (2024). Informatica Data Quality Solutions. https://www.informatica.com/

INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. (2011). ISO 8000-110:2011 – Data quality – Part 110: Master data: Exchange of characteristic data.

INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. (2015a). ISO/IEC 25012:2015 – Software product quality requirements and evaluation (SQuaRE) – Data quality model.

INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. (2015b). ISO/IEC 25024:2015 – Measurement of data quality.

LABS, A. W. S. (2024). awswrangler: Pandas on AWS. https://aws-sdk-pandas.readthedocs.io/en/stable/

LADDER, D. (2024). Software de comparación de datos. https://dataladder.com/address-standardization-guide/

OPENREFINE. (2024). OpenRefine – A free, open source, powerful tool for working with messy data. https://openrefine.org/

SEENIVASAN MPHASIS, D., & SEENIVASAN, D. (2022). ETL vs ELT: Choosing the right approach for your data warehouse. International Journal for Research Trends and Innovation, 7(2), 2456–3315. https://doi.org/10.6084/m9.doione.IJRTI2202018

SHAH, S. I. H., PERISTERAS, V., & MAGNISALIS, I. (2021). DaLiF: A Data Lifecycle Framework for Data-Driven Governments. Journal of Big Data, 8, 89. https://doi.org/10.1186/s40537-021-00481-3

SNAPLOGIC. (2024). ETL vs. ELT: What’s the Difference? https://www.snaplogic.com/blog/etl-vs-elt-whats-the-difference

TALEND. (2024). Talend – Data Integration and Integrity Platform. https://www.talend.com/products/data-integration/

_______________________________

1 Research Centre on Production Management and Engineering (CIGIP), Universitat Politècnica de València (UPV), Camino de Vera s/n, 46022 Valencia, Spain. Email: llcuenca@cigip.upv.es ORCID: 0000-0003-3589-4182

2 Escuela Técnica Superior de Ingeniería Informática, Universitat Politècnica de València (UPV), Camino de Vera s/n, 46022 Valencia, Spain. Email: jormama1@inf.upv.es

3 Research Centre on Production Management and Engineering (CIGIP), Universitat Politècnica de València (UPV), Camino de Vera s/n, 46022 Valencia, Spain. Email: aboza@cigip.upv.es ORCID: 0000-0002-5429-0416