
NVIDIA涉嫌网络爬取视频资料引发关注
泄露文件揭示NVIDIA涉嫌大规模爬取互联网视频
据404 Media获得的泄露文件显示,NVIDIA被指控涉嫌在其AI产品开发过程中大规模爬取互联网视频资料,包括电影剪辑和游戏录像。这一行为可能会导致使用相关AI工具的客户无意中侵犯版权。
数据爬取的行为及其影响
像其他AI工具开发商一样,NVIDIA需要大量训练数据用于文本、视频和音频生成器的“学习”。“数据爬取”指的是在未经版权所有者许可的情况下,将现有的视频、文本和音频输入训练模型。
此举意味着YouTube、Netflix等平台上的受版权保护内容被擅自抓取,令人担忧版权侵犯问题。这些内容的未经授权的使用可能违反相关法律法规。
法律法规与公司立场
目前美国和欧盟的监管机构仍在酝酿相关法律,判定数据爬取是否侵犯版权。404 Media的报道强调,许多科技公司在生成式AI方面在版权问题上采取较为宽松的态度,可能会对其他行业例如娱乐和游戏产业造成影响。
公司内部员工曾表达对该行为的担忧,但据 NVIDIA回应,他们的爬取行为“完全符合版权法律的规定”,并声称“合理使用”原则允许在转化性目的(如模型训练)下使用作品。
游戏内容的爬取与未来影响
游戏开发商及其母公司为版权拥有者,而YouTube作为行业重要平台,其内容未经授权即被抓取,严重破坏了行业信任。尤其是NVIDIA利用大型游戏工作室的作品来训练其AI模型,这引发行业巨大的担忧。
内部人员透露的内容
一名员工向媒体透露,为了改善AI模型的训练效果,团队成员被要求收集长视频片段,尤其是游戏录像。这些录像通过NVIDIA的GeForce NOW云端服务来获取。据悉,工程师认为“高质量的游戏录像非常宝贵”,是重要的训练数据。
一位高级研究分析师在Slack沟通中提到,Stream能力可用于捕获和保存视频内容,“这些高质量的游戏录像数据非常实用”。他还表示:“我们将与GeForceNOW及相关工程团队紧密合作,建立实时游戏数据采集、扩展数据流水线并进行训练”。
公司内部对爬取行为的态度与潜在法律风险
然而,部分员工反映被项目管理人员告知,数据爬取是“由高层决定”的“执行决策”,并暗示未来会解决“法律问题”(如违反YouTube的服务条款)。
404 Media的报道披露,许多内部文件和Slack沟通内容显示,NVIDIA极力避免不良公关,其研究副总裁刘明宇强调,公司不发表相关爬取内容的研究不会引发“负面情绪”。
常见问答(FAQ)
Q: 这些爬取行为是否违法?
Q: 这会对游戏行业造成什么影响?关于AI生成内容与数据隐私的争议“我们在这里所做的,将会导致零公开发表,”刘某表示。他和其他工作人员还自行构建了YouTube数据爬取工具和API账户,以协助此过程。
法律灰区中的数据爬取
在监管机构尚未明确界定生成式人工智能在版权方面的界限之前,NVIDIA和其他公司可能会在法律的“灰色地带”运营。MIT的Robert Mahari向404媒体表示,证明数据爬取行为是否侵权“在技术上真的很难”。
公司策略与法律难题
他指出,“在激励机制方面,最好的[公司]政策是不告诉员工他们使用了哪些数据进行训练。”他补充说:“只要你不告诉任何人,就很难证明自己在做什么。”
NVIDIA数据爬取的详细调查报告
关于NVIDIA在数据爬取方面的详细和全面的报道,可以在这里查阅。
常见问答(FAQ)
Q: 使用这些数据爬取工具是否合法?
A: 在目前缺乏明确法律规定的情况下,利用数据爬取工具存在一定的法律风险,尤其是在未经授权收集和使用他人数据时。公司通常会采取隐秘措施减少被追查的可能性。
Q: 未来监管会如何变化?
A: 随着生成式AI技术的发展和社会关注度的提高,相关法规有望逐步明确。监管可能会加强对数据合法性和隐私保护的规定,以防止滥用行为,促进行业健康发展。