飞雪ACG-报告：英伟达AI工具大量采集网络视频资料助力深度学习

NVIDIA涉嫌网络爬取视频资料引发关注

NVIDIA logo and相关图片

据404 Media获得的泄露文件显示，NVIDIA被指控涉嫌在其AI产品开发过程中大规模爬取互联网视频资料，包括电影剪辑和游戏录像。这一行为可能会导致使用相关AI工具的客户无意中侵犯版权。

此举意味着YouTube、Netflix等平台上的受版权保护内容被擅自抓取，令人担忧版权侵犯问题。这些内容的未经授权的使用可能违反相关法律法规。

目前美国和欧盟的监管机构仍在酝酿相关法律，判定数据爬取是否侵犯版权。404 Media的报道强调，许多科技公司在生成式AI方面在版权问题上采取较为宽松的态度，可能会对其他行业例如娱乐和游戏产业造成影响。

公司内部员工曾表达对该行为的担忧，但据 NVIDIA回应，他们的爬取行为“完全符合版权法律的规定”，并声称“合理使用”原则允许在转化性目的（如模型训练）下使用作品。

游戏开发商及其母公司为版权拥有者，而YouTube作为行业重要平台，其内容未经授权即被抓取，严重破坏了行业信任。尤其是NVIDIA利用大型游戏工作室的作品来训练其AI模型，这引发行业巨大的担忧。

一名员工向媒体透露，为了改善AI模型的训练效果，团队成员被要求收集长视频片段，尤其是游戏录像。这些录像通过NVIDIA的GeForce NOW云端服务来获取。据悉，工程师认为“高质量的游戏录像非常宝贵”，是重要的训练数据。

一位高级研究分析师在Slack沟通中提到，Stream能力可用于捕获和保存视频内容，“这些高质量的游戏录像数据非常实用”。他还表示：“我们将与GeForceNOW及相关工程团队紧密合作，建立实时游戏数据采集、扩展数据流水线并进行训练”。

然而，部分员工反映被项目管理人员告知，数据爬取是“由高层决定”的“执行决策”，并暗示未来会解决“法律问题”（如违反YouTube的服务条款）。

404 Media的报道披露，许多内部文件和Slack沟通内容显示，NVIDIA极力避免不良公关，其研究副总裁刘明宇强调，公司不发表相关爬取内容的研究不会引发“负面情绪”。

Q: 这会对游戏行业造成什么影响？关于AI生成内容与数据隐私的争议

“我们在这里所做的，将会导致零公开发表，”刘某表示。他和其他工作人员还自行构建了YouTube数据爬取工具和API账户，以协助此过程。

在监管机构尚未明确界定生成式人工智能在版权方面的界限之前，NVIDIA和其他公司可能会在法律的“灰色地带”运营。MIT的Robert Mahari向404媒体表示，证明数据爬取行为是否侵权“在技术上真的很难”。

他指出，“在激励机制方面，最好的[公司]政策是不告诉员工他们使用了哪些数据进行训练。”他补充说：“只要你不告诉任何人，就很难证明自己在做什么。”

关于NVIDIA在数据爬取方面的详细和全面的报道，可以在这里查阅。

A: 在目前缺乏明确法律规定的情况下，利用数据爬取工具存在一定的法律风险，尤其是在未经授权收集和使用他人数据时。公司通常会采取隐秘措施减少被追查的可能性。

A: 随着生成式AI技术的发展和社会关注度的提高，相关法规有望逐步明确。监管可能会加强对数据合法性和隐私保护的规定，以防止滥用行为，促进行业健康发展。