Proof Newsの新たな調査で、世界最大手のハイテク企業数社が、17万3000本以上のYouTube動画の書き起こしを許可なく含むデータセットでAIモデルのトレーニングを行っていたことが判明した。非営利団体EleutherAIが作成したこのデータセットには、4万8000以上のチャンネルのYouTube動画の書き起こしが含まれており、Apple、NVIDIA、Anthropicなどの企業で使用されていた。調査の結果は、AIの不快な真実を浮き彫りにした。つまり、この技術は主に、クリエイターから同意や報酬なしに吸い上げたデータの上に成り立っているのだ。データセットにはYouTubeの動画や画像は含まれていないが、Marques BrownleeやMrBeastなど同プラットフォーム最大のクリエイターや、The New York Times、BBC、ABC Newsなどの大手ニュース出版社の動画の書き起こしが含まれている。Engadgetの動画の字幕もデータセットの一部だ。BrownleeはXに、AppleはAIのデータを複数の企業から調達していると投稿した。