¿Son los datos sintéticos el mejor futuro posible para el desarrollo de IA?
Softtek propone el uso de datos sintéticos para acabar con la explotación de los datos personales de los usuarios, que erosiona la privacidad e implica grandes costes económicos.
El uso de datos sintéticos como alimento para los modelos de IA lleva siendo un tema de conversación en el sector tech desde hace varios años. Ahora, la firma mexicana Softtek publicó en octubre un completo informe sobre el estado de la cuestión en el que arroja optimismo sobre esta tendencia de cara al futuro.
En resumidas cuentas, desde Softtek señalan que los datos sintéticos son el futuro del desarrollo de inteligencia artificial por varios motivos: por un lado, porque garantizan al 100% la protección del usuario al no usar directamente datos personales, y por otro, porque democratizan el acceso a datos para las startups y pequeñas empresas que no pueden pagar el alto precio que se cobra por acceder a bases de datos de calidad.
No obstante, y como también mencionan en el whitepaper titulado “El auge de los datos sintéticos: datos sin fronteras”, entrenar sucesivamente a los modelos de IA con datos sintéticos (al estilo del ciempiés humano) implica oros problemas, como el llamado colapso del modelo o la progresiva homogeneización de los resultados dada la ausencia de inputs nuevos.
Qué son los datos sintéticos
Los datos sintéticos se crean aprendiendo de datos reales para extraer estadísticas a nivel de población y luego generar un conjunto de datos completamente nuevo que se ve y se comporta como el original.
“La generación de datos sintéticos implica el uso de algoritmos y modelos estadísticos para producir datos que no han sido recolectados de fuentes del mundo real”, explican desde la firma. Estos datos sintéticos pueden ser parciales, híbridos o completos dependiendo del porcentaje de datos reales con los que se mezclen.
Asimismo, avisan de que “el mercado global de generación de datos sintéticos llegará a 1.788,1 millones de dólares para 2030, con una tasa de crecimiento anual compuesta (CAGR) del 35,3% entre 2024 y 2030, impulsado principalmente por la creciente adopción de tecnologías emergentes como la IA, el ML (machine learning) y el IoT (Internet of Things), junto con un aumento en el uso de tecnologías de dispositivos conectados. De hecho, Forbes ya la ha nombrado una de las 5 Biggest Data Science Trends in 2022”.
Doris Seedorf, CEO de Softtek para España, asegura en nota de prensa:
“Los datos sintéticos representan una oportunidad única para redefinir la forma en que las empresas gestionan y aprovechan la información. Gracias a ellos, podemos experimentar, aprender y crear sin poner en riesgo la información personal, construyendo modelos de IA más justos y responsables. Es una herramienta clave para que las empresas lideren la transformación digital de manera ética y confiable”.
La reidentificación impide garantizar la privacidad al 100%
Actualmente se utilizan diversos métodos con los que anonimizar la información que se le inyecta a la IA para cumplir con las leyes de protección a la privacidad. Estas técnicas son la anonimización, seudonimización y el enmascaramiento, que de diversas formas impiden asociar un dato al usuario al que pertenece.
Sin embargo, Softtek señala que estos métodos no aseguran la protección al 100%, ya que existe riesgo de que un tercero o actor malicioso revierta el proceso y consiga personalizar los datos, pudiendo así venderlos o realizar otras malas prácticas con ellos.
Por ello, para cumplir con normativas como la GDPR o AI Act europea, o la CCPA en California, los datos sintéticos serían la solución definitiva para proteger la privacidad de los usuarios, cada vez más reacios a facilitar sus datos a empresas y plataformas en Internet.
Así, los datos sintéticos serían la solución “en un mundo donde el acceso a datos reales está cada vez más limitado y protegido por regulaciones, leyes y preocupaciones de privacidad”.
“Se espera que para 2026, el 75% de las empresas empleen IA generativa para crear datos sintéticos de clientes”.
Pero no solo se aconseja su uso para evitar multas y sanciones por violaciones de la privacidad, sino porque pueden ser económicamente rentables. El acceso a datos reales implica pagar por acceso a bases de datos que a menudo concentran las grandes empresas o data brokers. Esto puede suponer una barrera de entrada que impida a las startups desarrollar IAs competitivas, al no tener la misma cartera de datos que gigantes como Google o Amazon, por ejemplo.
Así, según la consultora Gartner, “se espera que para 2026, el 75% de las empresas empleen IA generativa para crear datos sintéticos de clientes”.
En la actualidad “los datos se consolidan como activos clave”, pero crecen obstáculos para las empresas debido a “regulaciones más estrictas y protocolos cada vez más rigurosos” que protegen al usuario.
Finalmente, Softtek destaca que con estos datos, al poder ser creados según parámetros específicos diseñados para evitar sesgos, “los modelos de inteligencia artificial pueden entrenarse de forma más justa y responsable, evitando discriminaciones en áreas sensibles como el reconocimiento facial, la concesión de crédito o la atención sanitaria”.
Riesgo de colapso del modelo e igualación
Pero los datos sintéticos no dejan de tener su contrapartida. El informe señala como riesgos potenciales del uso de datos artificiales el bucle autoreferencial, la reproducción de “sesgos inherentes a los datos originales, los problemas relacionados con la auditoría y trazabilidad, y las cuestiones legales y regulatorias vinculadas al uso de estos datos”.
Y es que, advierten, “existe un dilema fundamental: ¿cómo auditar un conjunto de datos que, por definición, no proviene de hechos ocurridos en el mundo real?”.
El colapso del modelo se refiere a la multiplicación de errores en un modelo debido a que una inexactitud en los datos vuelve a entrar al modelo en forma de entrenamiento y acaba dañando más y más la calidad del output.
“El bucle autoreferente es otro problema, que ocurre cuando un modelo es entrenado con datos sintéticos generados por otro modelo sintético. En este ciclo, los errores o sesgos del modelo original pueden amplificarse en los modelos sucesivos”.
Asimismo, también se corre el peligro de que los resultados vayan homogeneizándose o igualándose por la falta de inputs externos, de forma que el modelo no consiga mejorar o distinguirse de otros.
Utilidad por sectores de los datos sintéticos
El informe especifica cuáles serían las principales ventajas o utilidades del uso de datos artificiales dependiendo de la actividad:
En el sector tecnológico, “los datos sintéticos aceleran innovación y pruebas, eliminando barreras legales y riesgos de privacidad reales”.
En el sector salud, “permiten entrenar IA médica y compartir datos clínicos sin comprometer la privacidad de los pacientes”.
En el sector financiero, “permiten simular fraudes, evaluar riesgos y testear modelos sin usar información confidencial de clientes reales”.
En el sector asegurador, “ayudan a evaluar siniestros, modelar escenarios extremos y personalizar ofertas sin exponer datos sensibles”.
En gaming y entretenimiento, “permiten generar perfiles y escenarios realistas, mejorando el diseño sin comprometer privacidad de usuarios”.
En el sector educativo, “los datos sintéticos mejoran aprendizaje y en transporte, planifican movilidad respetando la privacidad ciudadana”.
En la administración pública, “mejoran la planificación y colaboración interinstitucional sin exponer datos personales protegidos”.
Como vemos, los datos sintéticos sí que pueden ser prometedores como forma de proteger nuestra privacidad, así como para ayudar a emprendedores o pymes a sortear la enorme ventaja que tienen grandes empresas por su acceso a enormes bases de datos, acelerando la innovación. Pero su utilización debería de ir de la mano de un fuerte compromiso ético para garantizar la fiabilidad y la calidad.
Fuentes:




