Apple y otras empresas usaron videos de YouTube para entrenar su IA

DPL News Jul 17, 2024

Apple y otras empresas tecnológicas usaron videos de YouTube para entrenar su inteligencia artificial. Una investigación encontró que los de Cupertino tomaron datos de subtítulos que habrían sido extraídos sin autorización. Las empresas entrenaron sus modelos de lenguaje con contenido de MrBeast, PewDiePie, MKBHD y otros youtubers famosos.

De acuerdo con una investigación de ProofNews, compañías como Apple, NVIDIA, Anthropic y Salesforce usaron contenido no autorizado para entrenar su IA. Las empresas se apoyaron en un conjunto de datos que incluye subtítulos de 173.536 videos, provenientes de más de 48.000 canales de YouTube. Apple empleó estos datos para entrenar OpenELM, una IA de código abierto capaz de ejecutarse en el iPhone y que recién anunciaron hace unos meses.

Si bien el origen de los datos de entrenamiento siempre ha sido una interrogante con estas empresas, la situación es diferente a lo que hace OpenAI. Según la investigación, los subtítulos extraídos forman parte de un subconjunto de datos llamado YouTube Subtitles, que a su vez integra The Pile, el gigantesco conjunto de datos de código abierto de 825 GB.

Según la descripción de The Pile, YouTube Subtitles es un corpus paralelo de texto recopilado a partir de subtítulos generados por humanos en YouTube. El documento menciona que, además de proporcionar datos multilingües, los subtítulos de YouTube “son una fuente de contenido educativo, cultura popular y diálogo natural”. El único detalle que omite es que el contenido se utiliza sin la autorización de sus autores.

Inteligencia Artificial YouTube

L	M	X	J	V	S	D
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31