Más de la mitad del contenido digital es creado por IA, lo que disminuye la calidad de las respuestas El reciclaje de información por parte de modelos de IA está generando respuestas menos precisas.
Un estudio publicado en la revista Nature revela que el 57% del contenido digital es generado por inteligencia artificial (IA), lo que ha generado preocupación por la constante vulneración de derechos de autor y la disminución en la calidad y el análisis de las respuestas generadas.
El informe, realizado por investigadores de las universidades de Cambridge y Oxford, destaca que la creciente cantidad de contenido creado por IA podría llevar a una degradación en la calidad de las respuestas producidas por modelos de IA, como los chatbots.
Según Ilia Shumailov, investigador de la Universidad de Oxford, el problema radica en que estos sistemas tienden a reciclar información incorrecta generada previamente por otras IA, lo que podría resultar en un ciclo de retroalimentación negativo.
Relacionado: IA vs. humanidad — por qué los humanos siempre ganarán cuando se trata de generar contenido
"Es sorprendente lo rápido que se produce el colapso del modelo y lo difícil que puede ser identificarlo. Al principio, afecta a los datos minoritarios, aquellos que están subrepresentados. Luego, la diversidad de los resultados se ve comprometida, y la varianza se reduce. Esto podría enmascarar una aparente mejora en los datos mayoritarios, pero en realidad oculta una degradación en la precisión de los datos minoritarios", explicó Shumailov.
El estudio concluye que la calidad de las respuestas de los modelos de IA disminuye con cada generación sucesiva de datos.
Además, se presentó un caso en el que una herramienta de IA, entrenada con una biblioteca de información sobre razas de perros, comenzó a omitir información sobre razas menos comunes después de varias rondas de entrenamiento con datos generados por esta tecnología.
En cuanto a la preocupación por el uso de los derechos de autor, Sam Altman, director ejecutivo de OpenAI, admitió que es imposible desarrollar herramientas como ChatGPT sin utilizar contenido protegido.
No obstante, la ley de derechos de autor no prohíbe explícitamente el uso de dicho contenido para entrenar modelos de IA, lo que ha generado un conflicto continuo entre los editores y las empresas de tecnología.
Relacionado: En contenido "basura" de la IA está por todos lados — Te explicamos cómo las empresas pueden romper este ciclo