Los autores afirman que Meta explotó materiales protegidos por derechos de autor para el entrenamiento de IA a pesar de las advertencias de sus propios abogados.
Los autores afirman que Meta utilizó materiales protegidos por derechos de autor para el entrenamiento de IA, sin tener en cuenta las advertencias de su propio asesor legal.

Según una presentación reciente en un caso de infracción de derechos de autor presentado originalmente el verano pasado, el abogado de Meta Platforms (NASDAQ: META ) le advirtió sobre los riesgos legales de utilizar miles de libros pirateados para entrenar sus modelos de IA, pero la empresa lo hizo de todos modos.
La nueva presentación, presentada el lunes por la noche, combina dos demandas presentadas contra el propietario de Facebook e Instagram por la comediante Sarah Silverman, el ganador del Premio Pulitzer Michael Chabon y otros autores destacados, que afirman que Meta utilizó sus obras sin permiso para entrenar a sus seres artificiales. -modelo de lenguaje de inteligencia, Llama.
El mes pasado, un tribunal de California desestimó una parte de la denuncia de Silverman y sugirió que otorgaría a los escritores la libertad de modificar sus acusaciones.
Meta no reaccionó rápidamente a una solicitud de comentarios sobre las acusaciones.
El nuevo caso, presentado el lunes, incluye registros de chat de un investigador afiliado a Meta que discute la adquisición del conjunto de datos en un canal de Discord, una prueba potencialmente clave que indica que Meta era consciente de que su uso de los libros podría no estar cubierto por los derechos de autor de EE. UU. ley.
En los registros de chat citados en la denuncia, el investigador Tim Dettmers explica su ida y vuelta con el departamento legal de Meta sobre si usar los archivos del libro como datos de entrenamiento estaba "legalmente bien".
"En Facebook, hay muchas personas interesadas en trabajar con (L)he (P)ile, incluyéndome a mí, pero en su forma actual, no podemos usarlo por razones legales", escribió Dettmers en 2021, refiriéndose a un conjunto de datos que Meta admitió haber utilizado para entrenar su primera versión de Llama, según la denuncia.
Dettmers escribió un mes antes que los abogados de Meta le habían advertido que "los datos no se pueden utilizar o los modelos no se pueden publicar si están capacitados con esos datos", según la denuncia.
Si bien Dettmers no abordó las preocupaciones de los abogados, sus colegas del chat mencionan "libros con derechos de autor activos" como la fuente más probable de preocupación. Argumentan que la capacitación en datos debería "caer bajo el uso legítimo", un marco legal en los Estados Unidos que cubre ciertos usos sin licencia de material protegido por derechos de autor.
Dettmers, estudiante de doctorado en la Universidad de Washington, dijo a Reuters que no podía comentar sobre las afirmaciones de inmediato.
Este año, las empresas de tecnología se han visto afectadas por una avalancha de demandas de productores de contenidos que las acusan de robar obras protegidas por derechos de autor para construir modelos generativos de IA que se han convertido en una sensación mundial y han provocado un frenesí de inversiones.
Si tienen éxito, los casos podrían frenar el frenesí generativo de la IA al obligar a las empresas de IA a compensar a los artistas, autores y otros productores de contenidos por el uso de sus obras, elevando el costo de construir modelos ávidos de datos.
Al mismo tiempo, nuevas reglas provisionales que rigen la inteligencia artificial en Europa podrían obligar a las corporaciones a revelar los datos que utilizan para entrenar sus modelos, exponiéndolas posiblemente a peligros legales adicionales.
En febrero, Meta dio a conocer la versión inicial de su modelo de lenguaje grande Llama y reveló una lista de conjuntos de datos utilizados para el entrenamiento, que incluía "la sección Books3 de ThePile". Según la denuncia, la persona que compiló el conjunto de datos afirmó en otro lugar que se compone de 196.640 libros.
La compañía no publicó datos de entrenamiento para su versión más reciente del modelo, Llama 2, que estuvo disponible comercialmente este verano.
Para empresas con menos de 700 millones de usuarios activos mensuales, Llama 2 es de uso gratuito. Su introducción fue vista como un potencial cambio de juego en el mercado de software de IA generativa, amenazando el dominio de competidores como OpenAI y Google (NASDAQ: GOOGL ), que cobran por el uso de sus modelos.
- Spreads Escaso
- Comisión Cero
- Apalancamiento Ajustable
- Fiable Protección