Proof News与《连线》(Wired)联合发表的一项调查显示,超过17万个YouTube视频是一个庞大数据集的一部分,该数据集被用于为一些最大的科技公司训练人工智能系统。苹果、Anthropic、英伟达和Salesforce等科技公司都使用了未经许可从视频平台上窃取的“YouTube字幕”数据。训练数据集是取自YouTube超过48,000个频道的视频字幕的集合——它不包括视频中的图像。
来自比斯特和马奎斯·布朗利(Marques Brownlee)等热门创作者的视频,以及来自ABC新闻、BBC和《纽约时报》等新闻媒体的剪辑,都会出现在数据集中。来自The Verge的100多个视频以及来自Vox的许多其他视频都出现在数据集中。
“苹果已经从几家公司获取了他们的人工智能数据,”布朗利(绰号MKBHD)在x上的一篇帖子中写道,“其中一家公司从YouTube视频中抓取了大量数据/文本,包括我的视频。”他补充说:“在很长一段时间内,这将是一个不断演变的问题。”
YouTube没有立即回应The Verge的置评请求。
作为调查的一部分,Proof News还发布了一个交互式查找工具。你可以使用它的搜索功能来查看你的内容——或者你最喜欢的youtube用户的内容——是否出现在数据集中。
字幕数据集是非营利组织EleutherAI的一个更大的数据集的一部分,该数据集名为The Pile,是一个开源的数据集,还包含书籍、维基百科文章等数据集。去年,对一个名为book3的数据集的分析揭示了哪些作者的作品被用于训练人工智能系统,该数据集已被作者引用,用于起诉使用该数据集训练人工智能的公司。
人工智能公司很少愿意对进入其人工智能系统的数据透明;最近几个月,YouTube的内容究竟是如何被使用的一直是一个关键问题。今年3月,当OpenAI推出其强大的视频生成工具Sora时,首席技术官米拉·穆拉蒂(Mira Murati)一再回避有关该系统是否接受过YouTube视频训练的问题。
她当时对《华尔街日报》(the Wall Street Journal)表示:“我不打算详细说明所使用的数据,但这些数据是公开可用的或获得许可的数据。”当《华尔街日报》追问有关YouTube内容的具体问题时,穆拉蒂表示,她“对此不确定”。
在之前的采访中,YouTube首席执行官尼尔·莫汉(Neal Mohan)曾表示,使用视频内容来训练人工智能——包括成绩单——将违反该平台的条款。今年5月,在一期《解码器》节目中,谷歌首席执行官桑达尔·皮查伊同意莫汉的评估,即如果OpenAI真的训练了苍井空学习YouTube内容,就会违反YouTube的条款。
“我们有条款和条件,我们希望人们在开发产品时遵守这些条款和条件,这就是我的感受,”皮查伊说。
本文来自作者[可嘉小姐姐]投稿,不代表立金云立场,如若转载,请注明出处:https://wak.lijinyun.cn/wiki/202505-42.html
评论列表(4条)
我是立金云的签约作者“可嘉小姐姐”!
希望本篇文章《苹果、Anthropic等公司利用YouTube视频进行人工智能训练》能对你有所帮助!
本站[立金云]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览: Proof News与《连线》(Wired)联合发表的一项调查显示,超过17万个YouTube视频是一个庞大数据集的一部分,该数据集被用于为一些最大的科技公司训练人...