Inteligencia artificial
Tácticas de Entrenamiento de IA Cuestionables, una Preocupación Creciente

Las tácticas de entrenamiento de IA continúan bajo escrutinio debido a su falta de supervisión. Es común que los escritores contemporáneos se inspiren e incluso tomen prestados aspectos de historias anteriores. Aunque esta práctica forma parte de la evolución de la escritura, a veces las obras y el estilo de un autor son duplicados sin su consentimiento.
When this situation occurs, modern copyright infringement laws allow the originating content creator to recoup losses. However, the same can’t be said about the growing number of AI systems found to have used illegally acquired works to develop their models. Now, the industry faces a crossroads in terms of training tactics and retribution for those who have experienced losses. Here’s what you need to know.
Tácticas de Entrenamiento de IA Cuestionables
Una avalancha de demandas ahora afirma que OpenAI y META (META ) buscaron deliberadamente soluciones alternativas al adquirir datos de bibliotecas para el entrenamiento de sus modelos. Los demandantes alegan que la empresa estaba al tanto y no le importaba que pudieran estar robando millones a los autores sin compensación, ni siquiera una mención.
Reclamaciones como esta no sorprenden a muchos que creen que la carrera de IA ha llevado a un desprecio básico por las leyes de derechos de autor. Por ello, los autores continúan presionando a los desarrolladores de IA, solicitando mayor transparencia sobre cómo se adquieren y procesan los datos por estos sistemas.
Aunque aún no se han compartido caminos claros con el público, la evidencia ha comenzado a acumularse contra las empresas de IA. Esta evidencia podría resultar en cambios drásticos en las tácticas de entrenamiento utilizadas por los desarrolladores de IA en el futuro.
Tácticas de Entrenamiento Utilizadas por las Empresas para Crear Modelos
Entrenar un sistema de IA es un proceso complejo que puede implicar la recopilación y el procesamiento de enormes cantidades de datos de diversas fuentes. Estos datos son los que el sistema de IA consulta al intentar responder preguntas o resolver nuevos escenarios. En consecuencia, la mayoría de los sistemas de IA funcionan mejor cuando disponen de más datos de referencia.
Creación de IA
La forma principal de crear un modelo de IA implica la recopilación de datos. En el pasado, la recopilación de datos era un proceso que consumía tiempo y requería que los ingenieros buscaran bases de datos ya existentes en lugar de construirlas desde cero. Por ejemplo, los proveedores de salud pueden desarrollar una IA que aproveche las estadísticas de salud nacionales para ofrecer respuestas médicas más relevantes.
A partir de ahí, los desarrolladores deciden qué algoritmo elegir. Las opciones principales son aprendizaje supervisado, no supervisado, semi-supervisado, aprendizaje reforzado, regresión lineal, aprendizaje profundo, bosques aleatorios, Naïve Bayes y redes neuronales. Cada uno de estos algoritmos ofrece ventajas y desventajas únicas, lo que los hace más adecuados para tareas específicas.
Por último, comienza el proceso de entrenamiento iterativo. En esta etapa, se somete al modelo a preguntas y se evalúa su precisión y rendimiento. Este paso permite a los ingenieros afinar y validar el modelo, mejorando sus capacidades. Además, esta fase ayuda a los ingenieros a garantizar que el modelo continúe aprendiendo de los datos de entrenamiento, en lugar de simplemente memorizarlos.

Fuente – Uptech.team
Las Tácticas de Entrenamiento de IA Actuales son Costosas
El proceso de entrenamiento de modelos de IA es lento y costoso y puede dividirse en dos categorías principales: entrenamiento y ejecución. El entrenamiento se refiere al costo único de crear un modelo particular. Por ejemplo, ChatGPT gastó alrededor de $100M en su modelo 4o, según el CEO de la compañía, Sam Altman.
Es notable que estos costos superen con creces los gastos de modelos anteriores. Por ejemplo, entrenar ChatGPT-3 costó aproximadamente $4M. El aumento de los costos de entrenamiento de IA es el resultado directo de mayores requisitos computacionales. Los modelos más recientes funcionan con los últimos chips de NVIDIA, lo que incrementa sus costos.
Además, la IA ha impulsado al alza los precios de la computación en la nube. La mayoría de las aplicaciones de IA no se ejecutan de forma nativa en los PC de los usuarios. En su lugar, dependen de centros de datos de última generación y algoritmos de computación en la nube para soportar los enormes requisitos computacionales. Todos estos factores han hecho que programar IA sea costoso.
Mercados de IA
Un reciente aumento en el número de mercados de entrenamiento de IA indica que ahora hay más desarrollos en el sector que buscan ahorrar costos. Los mercados de IA permiten a desarrolladores, creadores de contenido y quienes buscan integrar IA reunirse. Los desarrolladores pueden encontrar modelos ya construidos que pueden mejorar o afinar según sus necesidades, ahorrando mucho tiempo y fondos en el proceso.
Costo de Ejecución
Los costos de ejecución o inferencia de los sistemas de IA son otro gasto que los desarrolladores deben considerar. El costo de inferencia se refiere a cuánto dinero cuesta cada interacción con la IA. El costo de operar muchos de los sistemas de IA actuales es mayor porque el sistema debe acceder a todos los datos de su modelo para proporcionar una respuesta precisa y útil. Este paso significa que la IA necesitará utilizar mucha potencia de cálculo, de máquinas equipadas de alto rendimiento, con frecuencia. Este requisito añade costos significativos al sistema.
¿Son Éticas las Tácticas de Entrenamiento de IA de Hoy?
Al observar las tácticas y estrategias de entrenamiento empleadas por las enormes empresas de IA de hoy, es fácil ver que existen posturas éticamente y moralmente desafiantes dentro de la industria. Sí, para crear los mejores sistemas de IA, los desarrolladores necesitan proporcionar datos valiosos y precisos al modelo. Sin embargo, algunos desarrolladores argumentan que el costo de obtener la aprobación de derechos de autor para todos los datos utilizados sería astronómico, básicamente sofocando la innovación.
La legislación internacional de derechos de autor protege a los autores del uso no autorizado de sus obras, estilo y semejanza. Los sistemas de IA parecen haber encontrado una laguna legal que les permite utilizar réplicas casi exactas de personas, lugares, información e historias, con poca oposición legal reportada hasta ahora.
Sin embargo, hay una creciente percepción entre los creadores de contenido de que estos sistemas obtuvieron ilegalmente sus obras y luego las usaron para entrenar modelos de IA que duplican el formato, tono y estilo. Evidencias del uso ilegal de libros con derechos de autor dentro de los modelos de entrenamiento de OpenAI han salido a la luz gracias a revelaciones recientes.
Demanda contra OpenAI
En la demanda contra OpenAI, los demandantes alegan que los desarrolladores usaron conscientemente bibliotecas sombra para evitar pagar por grandes colecciones de libros. Las bibliotecas sombra son plataformas en línea que proporcionan acceso gratuito a obras con derechos de autor. Las que se mencionan en la demanda contra OpenAI incluyen LibGen, Bok, Sci-Hub y Bibliotik.
La demanda busca demostrar que OpenAI y META sabían que estaban eludiendo las leyes de derechos de autor. Demuestra cómo las compañías usaron bibliotecas sombra y otras fuentes gratuitas para reducir significativamente sus costos de entrenamiento mientras robaban a los autores sus pagos justos.
En respuesta a las acusaciones, META inicialmente actuó como si desconociera tales acciones. Sin embargo, después de que surgieran correos electrónicos que se cree revelan la comprensión completa de la empresa sobre sus acciones, y explican que torrenteó +81.7 terabytes de datos de bibliotecas sombra, equivalentes a millones de obras.
Correos Electrónicos sin Redactar de META
Irónicamente, fueron correos electrónicos internos los que revelaron que la empresa estaba bien consciente de la naturaleza cuestionable de su decisión de usar bibliotecas sombra. En los correos sin redactar, un ingeniero preocupado llamado Nikolay Bashlykov cuestiona la moralidad del proyecto, antes de bromear sobre la legalidad del plan.
En correos posteriores, el empleado declaró que le preocupaba usar direcciones IP de META para cargar contenido pirata mediante torrents. Reconociendo que esto podría ser un problema, META instruyó a los ingenieros a descargar los datos desde servidores externos que no estaban conectados a Facebook o META.
Órdenes desde la Cúpula
Cuando inicialmente se le preguntó sobre la participación de META en la descarga por torrents, Mark Zuckerberg declaró que no tenía idea del proceso. Los correos sin redactar demostraron lo contrario. Se cree que los correos muestran que la decisión de usar servidores no pertenecientes a FB se tomó solo después de la aprobación directa de Zuckerberg.
¿Están los Desarrolladores de IA Usando Contenido Robado?
Dada la evidencia proporcionada y el repentino aumento en las capacidades de IA, parece evidente que muchos sistemas de IA han recurrido a bibliotecas sombra y otros medios para construir modelos de entrenamiento más efectivos. Estos conjuntos de datos contienen materiales con derechos de autor que nunca recibieron el consentimiento de los autores o editores para su uso en el entrenamiento de modelos de IA.
¿Es Ilegal?
Aunque cada vez es más difícil negar el uso de material pirateado en los modelos de IA más avanzados de hoy, la legalidad de la práctica sigue en cuestión. Ninguna empresa de IA ha sido aún sujeta a leyes de infracción de derechos de autor. Además, la carrera de IA está en pleno apogeo y muchos políticos pueden ver la limitación del acceso local de sus sistemas de IA a datos como un obstáculo para la innovación. Por ello, pueden no mover para hacer que combatir la infracción de derechos de autor de IA sea tan fácil como los robos tradicionales.
Demandas que Lluven
Los reguladores pueden no estar listos para presionar a las empresas de IA, pero los creadores de contenido ya han tenido suficiente. Las demandas continúan llegando de autores desilusionados que afirman que su contenido ha sido adquirido ilegalmente, distribuido y duplicado sin ninguna compensación.
Recientemente, el bufete Joseph Saveri Law presentó demandas colectivas federales en EE. UU. directamente sobre este asunto. La demanda fue presentada en nombre de Sarah Silverman y otros autores contra OpenAI y META, y busca reparaciones por las pérdidas provocadas por la capacidad del producto de duplicar su formato y estilo.
La demanda colectiva alega múltiples violaciones de la Ley de Derechos de Autor del Milenio Digital, negligencia criminal y leyes de competencia desleal. El objetivo de la demanda es obtener una orden judicial permanente sobre estas tácticas de entrenamiento hasta que se pueda establecer una estrategia de compensación y protección justa para los autores.
¿DeepSeek está Entrenado por ChatGPT?
Irónicamente, se ha alegado que ChatGPT es víctima de robo intelectual por parte de un sistema de IA después de que la startup china de IA, DeepSeek envió ondas a través del mercado. DeepSeek provocó una ola de interés después de que la compañía reveló su impresionante rendimiento, bajos costos y capacidades avanzadas al público el mes pasado.
Los desarrolladores de OpenAI acusaron a DeepSeek de usar datos de ChatGPT para programar su modelo, lo que le permitió crear un modelo que supera a la competencia y cuesta mucho menos. En comparación, DeepSeek alcanzó un rendimiento comparable al de ChatGPT por un costo de $6M frente a los +$100M utilizados por ChatGPT.
Además, DeepSeek logra utilizar mucho menos poder de cómputo gracias a su configuración única. Los costos de inferencia de DeepSeek son mucho menores que los de ChatGPT debido al uso de varios modelos especializados en lugar de uno único masivo.
Por lo tanto, DeepSeek solo necesita activar el modelo al referirse a la pregunta, lo que le permite utilizar chips NVIDIA mucho menos costosos y potentes. Específicamente, DeepSeek usa 1/50 del costo de ejecutar el último modelo Claude 3.5 Sonnet, lo que lo convierte en una solución más rentable para las empresas a largo plazo.
Lo Toma Prestado
Curiosamente, DeepSeek no niega el uso de ChatGPT para desarrollar scripts de “pensamiento”. Incluso describe el proceso en el documento técnico original de DeepSeek. Los ingenieros consideraron que este enfoque proporcionaría a DeepSeek información más precisa, lo que aceleró su proceso de destilación.
Además, se aseguró de que los datos utilizados para programar los modelos de IA de los competidores no se usaran para programar DeepSeek. Los resultados son un sistema más eficiente que supera a su predecesor y cuesta solo una fracción de operar. Por supuesto, muchos argumentan que los costos de ChatGPT deberían incluirse en el presupuesto de DeepSeek si aprovecharon el sistema para crear el suyo.
Crisis de Identidad de DeepSeek
En un reciente artículo, un investigador de IA fue a la fuente para ver si DeepSeek había tomado mucho de ChatGPT. Comenzó preguntando al LLM si creía que DeepSeek era más inteligente que Gemini, el competidor de Google. Irónicamente, el LLM respondió que pensaba que “era ChatGPT”. Esta revelación fue vista por muchos como toda la evidencia necesaria para demostrar la enorme cantidad de datos que DeepSeek recopiló de ChatGPT.
¿Deben los Creadores de Contenido Ser Compensados por el Uso de IA?
Existe una creciente preocupación por los creadores de contenido en el mercado. A medida que los sistemas de IA evolucionan, seguramente absorberán aún más materiales con derechos de autor. En el pasado, los ingenieros han visto a compañías desactivar la información de gestión de derechos de autor para reducir el riesgo de que sus acciones sean detectadas. Sin embargo, la marea está cambiando.
En julio de 2023, un grupo de más de 8000 escritores firmó una carta dirigida al CEO de META, Mark Zuckerberg, al CEO de OpenAI, Sam Altman, al CEO de Alphabet, Sundar Pichai, al CEO de Stability AI, Emad Mostaque, al CEO de IBM, Arvind Krishna y al CEO de Microsoft, Satya Nadella. La carta afirma que la IA “imita y regurgita nuestro lenguaje, historias, estilo e ideas”. Exige compensación y reconocimiento.
El Writers Guild of America y el Screen Actors Guild también han sido vocales respecto al uso de sus obras en el sector de IA. Buscan garantizar ciertos derechos y compensación para los escritores siempre que sus obras sean utilizadas para crear modelos de IA.
Emergen Opciones de Tácticas de Entrenamiento
Reconociendo las limitaciones de la configuración actual y cómo carece de una vía legítima real, BookCorpus se propuso ofrecer una mejor solución. La compañía fue fundada en 2015 con el objetivo específico de apoyar a los investigadores de IA en el entrenamiento de LLMs. Como tal, incluye miles de obras y modelos diseñados para mejorar el rendimiento, sin cruzar líneas éticas.
Ya, varios proveedores de servicios centrados en IA están ingresando al mercado. Estas firmas combinan acceso a datos valiosos, modelos y más. Están diseñadas para cumplir con los requisitos computacionales de IA y a menudo vienen acompañadas de alguna forma de opción de computación en la nube como una manera de reducir aún más los costos de desarrollo.
Empresas que Lideran la Revolución de los LLM de IA
El auge de los LLM ha facilitado más que nunca que cualquiera interactúe con estos sistemas. Desde un simple mensaje de chat, puedes realizar investigaciones en profundidad, crear imágenes e historias, y mucho más. En consecuencia, los LLM son vistos como uno de los mayores avances en la tecnología de interacción informática en una vida. Aquí hay una empresa que continúa impulsando la innovación en el mercado de LLM.
Alphabet Inc
Alphabet Inc. (GOOG ) es la empresa matriz de Google y sus numerosas subsidiarias. Es una de las firmas más reconocidas y exitosas del sector de IA. Curiosamente, los ingenieros eligen utilizar el otro modelo de la compañía, Google DeepMind, para crear el LLM Gemini de Google. Gemini es un LLM avanzado que traduce, comprende contenido, responde preguntas y mucho más.
Es notable que Google DeepMind ha estado trabajando arduamente en la creación de LLMs y nuevas funciones para la empresa. Por ejemplo, la nueva función SELF-DISCOVER crea una arquitectura específica para tareas dentro de los modelos, reduciendo el tiempo total necesario para responder preguntas con precisión.












