Nvidia hizo ‘scraping’ de contenidos de YouTube y Netflix para entrenar sus modelos de IA, según 404 Media

Inteligencia Artificialmodelos de lenguajeNvidia

DPL News Ago 7, 2024

MADRID, (Portaltic/EP). – Nvidia hizo ‘scraping’ de contenidos ofrecidos por plataformas como YouTube y Netflix para entrenar sus modelos de Inteligencia Artificial (IA) con el objetivo de desarrollar distintos proyectos comerciales, según publicado recientemente 404 Media.

El ‘scraping’ o raspado de datos, es una técnica que permite extraer información de sitios web y de contenido en internet a través de programas de ‘software’, para utilizarla posteriormente para otros fines. Este método se utiliza habitualmente para el ‘scraping’ web.

Un avance reciente de 404 Media indicó que Nvidia ha estado utilizando contenido de plataformas como YouTube y Netflix, además de otros conjuntos de datos para entrenar sus modelos de IA y usarlos posteriormente en proyectos comerciales; unas acciones que habría llevado a cabo omitiendo las potenciales violaciones de derechos de autor en las que pueden incurrir al utilizar contenido de dichas plataformas.

Este medio, que ha tenido acceso a conversaciones de chats internos, correos electrónicos y documentos de la compañía, indicó que Nvidia se refiere a esta práctica como un proyecto interno denominado ‘Cosmos’, con el que pretende entrenar varios sistemas de IA. Entre ellos, el generador de mundos 3D Omiverse, sistemas de conducción autónoma de automóviles y proyectos de “humanos digitales”.

Un exempleado de la tecnológica estadunidense ha dicho que Nvidia solicitó a los empleados que “rasparan” vídeos de Netflix, YouTube y otras fuentes -como la plataforma MovieNet, bibliotecas internas de secuencias de videojuegos y conjuntos de datos de vídeos de Github WebVid-, para entrenar sus modelos de IA. Esto, indicando que tenían autorización para utilizar este contenido.

Para ello, utilizaron métodos como un descargador de vídeos de YouTube de código abierto llamado ‘yt-dlp’, combinado con máquinas virtuales que actualizan direcciones IP para evitar ser bloqueados por la plataforma de contenidos que desarrolla Google.

Siguiendo esta línea, 404 Media también habría tenido acceso a conversaciones entre los directores del proyecto, en las que se evaluaba si utilizar 20 o 30 máquinas virtuales en Amazon Web Services para descargar el equivalente a 80 años de vídeos por día.

Así, según expresó el vicepresidente de investigación de Nvidia y líder del proyecto Cosmos, Ming-Yu Liu, en un correo electrónico en mayo, el objetivo del proyecto era construir un modelo de fundación de vídeo de última generación que tuviera los recursos informáticos necesarios para construir una fábrica de datos de vídeo que pueda producir “una experiencia visual de vida humana en datos de entrenamiento por día”.

Los empleados de Nvidia manifestaron en distintas ocasiones sus dudas respecto a las cuestiones legales del proyecto Cosmos. Sin embargo, fueron desestimadas por los directores del proyecto, alegando que tenían autorización para usar ese contenido.

L	M	X	J	V	S	D
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30