banner
Hogar / Noticias / La mayoría de los datos de entrenamiento de IA podrían ser sintéticos el próximo año
Noticias

La mayoría de los datos de entrenamiento de IA podrían ser sintéticos el próximo año

Jun 09, 2023Jun 09, 2023

Los datos sintéticos permiten entrenar modelos de IA con un conjunto de datos más grande del que sería posible con datos puramente orgánicos.

Por Ryan Morrison

La mayoría de los datos utilizados para entrenar modelos de aprendizaje automático serán sintéticos y se generarán automáticamente, predice un nuevo informe de Gartner. Solo el 1% de todos los datos de entrenamiento de IA fueron sintéticos en 2021, pero los analistas sugieren que podrían llegar al 60% para fines de 2024. La gobernanza y la vigilancia sobre los sesgos son esenciales para evitar que estos datos sufran los mismos desafíos que los datos orgánicos, dijo un experto a Tech. Monitor.

La IA genera datos sintéticos para llenar los vacíos que faltan en la información del mundo real, como imágenes médicas o información sobre patrones de enfermedades específicas. En una nueva investigación sobre tendencias en ciencia de datos, publicada esta semana, Gartner predice que para 2024 más del 60% de todos los datos de entrenamiento de modelos de IA serán sintéticos, algo que, según afirma, conducirá a mejores sistemas de IA.

Este paso de datos de entrenamiento orgánicos a datos sintéticos es parte de un cambio más amplio hacia una IA centrada en datos, como las que se utilizan para producir grandes modelos de lenguaje y fundamentos. "Las soluciones como la gestión de datos específica de IA, los datos sintéticos y las tecnologías de etiquetado de datos tienen como objetivo resolver muchos desafíos de datos, incluida la accesibilidad, el volumen, la privacidad, la seguridad, la complejidad y el alcance", dice el informe de Gartner.

Un informe reciente de GlobalData encontró que las nuevas empresas de datos sintéticos estaban "redefiniendo el panorama de la generación de datos". Al describirlo como la "llave maestra para el futuro de la IA", Kiran Raj, jefe de práctica de tecnología disruptiva en GlobalData, dijo que las nuevas empresas estaban rompiendo los grilletes de la calidad y la regulación de los datos. "A medida que continúa acelerándose la demanda de datos confiables, rentables, eficientes en el tiempo y que preservan la privacidad, las empresas emergentes visualizan un futuro impulsado por datos sintéticos, marcando el comienzo de una nueva era de progreso en el aprendizaje automático", dijo Raj.

Tiene el potencial de tener impactos positivos en una variedad de sectores. En el sector sanitario, ya se está utilizando para aumentar los datos reales de pacientes con el fin de formar médicos, mejorar el descubrimiento de fármacos y optimizar sistemas. En el sector de servicios financieros, está ayudando a mitigar el riesgo y detectar el fraude. Y en el comercio minorista, está mejorando la previsión de la demanda, el marketing personalizado y la detección de fraude.

Las otras tendencias clave señaladas por Gartner incluyen un cambio hacia el procesamiento de vanguardia para la IA. Según el informe, el procesamiento de datos en el punto de creación ayudará a las organizaciones a obtener información en tiempo real y detectar nuevos patrones. También facilitará el cumplimiento de requisitos de privacidad de datos cada vez más estrictos. La organización predice que más del 55% del análisis de datos mediante redes neuronales se producirá en un sistema de borde para 2025.

Los analistas de Gartner predicen que habrá un mayor énfasis en la IA responsable. Esto incluye garantizar que la tecnología se utilice como una fuerza positiva y no como una amenaza para la sociedad. Incluye garantizar que las empresas tomen decisiones éticas al adoptar una IA que aborde el valor, el riesgo, la confianza, la responsabilidad y la transparencia de la sociedad. Estos son los requisitos básicos que componen muchas de las regulaciones de IA que se están desarrollando en todo el mundo, incluido el Reino Unido.

Los analistas advirtieron que las organizaciones deberían adoptar un “enfoque proporcional al riesgo” para la inversión y el despliegue de IA. Esto incluye tener precaución al aplicar soluciones y modelos, y buscar garantías de los proveedores para asegurarse de que estén gestionando sus propios riesgos y obligaciones de cumplimiento. Esto ayudará a protegerlos de pérdidas financieras y acciones legales.

Algunos modelos de base y organizaciones de IA generativa ofrecen grados de indemnización por estos riesgos. Adobe dice que cubrirá los costos asociados con los reclamos de derechos de autor por el uso de su modelo de imágenes de IA generativa Firefly. Esto se debe a que la empresa confía en que el modelo se entrena únicamente con datos autorizados y con licencia que no producirán resultados sospechosos de derechos de autor.

Peter Krensky, analista director de Gartner, dijo: “A medida que la adopción del aprendizaje automático continúa creciendo rápidamente en todas las industrias, los datos están evolucionando desde centrarse únicamente en modelos predictivos hacia una disciplina más democratizada, dinámica y centrada en los datos. Esto ahora también se ve impulsado por el fervor en torno a la IA generativa. Si bien están surgiendo riesgos potenciales, también están surgiendo muchas nuevas capacidades y casos de uso para los científicos de datos y sus organizaciones”.

Caroline Carruthers, experta en datos y cofundadora de la consultora global de datos Carruthers and Jackson, dijo a Tech Monitor que los datos sintéticos eran una herramienta invaluable para entrenar modelos de IA, particularmente donde no había grandes conjuntos de datos disponibles. "Se ha utilizado con mayor eficacia en el sector sanitario, donde los datos sobre enfermedades raras se han complementado con datos sintéticos para mejorar la modelización de las opciones de tratamiento", afirma.

Carruthers dijo que si bien existe un “claro valor en expandir conjuntos de datos limitados con datos sintéticos, existen una serie de riesgos”, incluida la posibilidad de que los sesgos que son prominentes en conjuntos de datos más pequeños puedan verse amplificados por los datos sintéticos que los utilizan como base. Y añade: "La conclusión es que los datos sintéticos enfrentan los mismos desafíos que los datos orgánicos cuando se trata de la necesidad de gobernanza y de estar atentos a posibles sesgos".