九江市网站建设_网站建设公司_服务器维护_seo优化
2025/12/24 16:55:10 网站建设 项目流程

全球最大的影子图书馆Anna's Archive在本周末震惊互联网,宣布已"备份Spotify"并开始通过种子文件大规模分发300TB的元数据和音乐文件。这个日益受到AI开发者资助的平台此举引发广泛关注。

据Anna's Archive称,此次数据获取涵盖了Spotify上超过99%的播放内容,形成了"拥有2.56亿首歌曲的最大公开音乐元数据库"。该档案库还声称这是"全球首个完全开放的音乐'保存档案'",包含8600万个音乐文件。

这些音乐文件据称约占2025年7月Spotify可用歌曲的37%。抓取的文件按照受欢迎程度进行了优先排序,Anna's Archive过滤掉了许多从未被播放或质量较差的歌曲,比如AI生成的歌曲。

Spotify在周一告诉Android Authority,正在调查Anna's Archive是否确实如其博客所声称的那样"大规模"抓取了其平台。

"针对未经授权访问的调查发现,第三方抓取了公共元数据,并使用非法手段绕过数字版权管理来访问平台的部分音频文件,"Spotify表示。"我们正在积极调查此事件。"

目前尚不清楚实际抓取了多少Spotify数据,Android Authority指出,也不确定该公司是否可能采取法律行动来删除这些种子文件。当被要求评论时,Spotify发言人告诉Ars,"Spotify已经识别并禁用了参与非法抓取的恶意用户账户。"

对于Anna's Archive来说,在"一段时间前"偶然发现了"大规模抓取Spotify的方法"后,抓取数据的诱惑可能太大了。

"我们看到自己在这里的作用是建立一个主要以保存为目标的音乐档案库,"该档案库表示。抓取Spotify数据是一个"很好的开始",他们说,目标是建立一个"旨在代表所有音乐作品的权威种子列表"。

该档案库表示,这样的列表"在音乐领域并不存在",类似于LibGen——这个被Meta等科技巨头和Anthropic等初创公司恶名昭彰地用来盗版书籍数据集以训练AI的平台。

Anna's Archive表示,12月发布元数据种子是实现这一"保存"使命的第一步。接下来,该档案库将发布音乐文件的种子,首先从最受欢迎的流媒体开始,然后最终发布不太受欢迎歌曲和专辑封面的种子。博客中说,未来"如果有足够的兴趣,我们可以在Anna's Archive中添加单个文件的下载功能"。

Spotify告诉Ars,正在采取措施避免未来的任何抓取行为。

"我们已经为这类反版权攻击实施了新的保障措施,并正在积极监控可疑行为,"Spotify发言人说。"从第一天起,我们就与艺术家社区一起反对盗版,我们正在积极与行业合作伙伴合作,保护创作者并维护他们的权利。"

用户担心数据抓取将毁掉档案库

Anna's Archive声称抓取Spotify数据是为了帮助保存"人类的音乐遗产","永远"保护它免受"自然灾害、战争、预算削减和其他灾难的破坏"。

然而,一些Anna's Archive的粉丝——他们主要使用该搜索引擎查找书籍、学术论文和杂志文章——对Spotify数据被抓取的消息感到震惊。在Hacker News上,一些用户质疑这些数据是否对AI研究人员以外的任何人有用,因为在大量种子中搜索单个歌曲对音乐爱好者来说似乎不切实际。

一位用户指出"已经有工具可以自动定位和流式传输盗版电视和电影内容"——这表明音乐爱好者可能会找到流式传输这些数据的方法。但其他人担心Anna's Archive可能被诱导去抓取Spotify,可能承担了那些倾向于模糊其训练数据来源的AI公司希望避免的法律风险。

"这太疯狂了,"一位热门评论者写道。"绝对想知道这是否是对希望获得这些资料的AI研究人员/公司需求的回应。或者主要唱片公司是否已经廉价地许可其整个目录用于训练目的,所以这真的只是纯粹作为保存努力?"

但Anna's Archive显然在努力支持AI开发者,另一位用户指出,Anna's Archive推广向"企业级"大语言模型数据销售"高速访问",包括"未发布的集合"。该档案库在其网页上建议,任何人都可以捐赠"数万美元"来获得这种访问权限,任何有兴趣的AI研究人员都可以联系讨论"我们如何合作"。

"AI可能不是他们原始/主要的动机,但他们显然支持促进AI实验室的盗版最大化,"第三位评论者建议。

与此同时,在Reddit上,一些人担心Anna's Archive可能因为抓取数据而注定了自己的命运。对他们来说,在看到互联网档案库努力在去年以保密和解结束的唱片公司法律攻击中生存后,档案库似乎"只是让自己成为目标"。

"我对AA把这个目标背在自己身上感到愤怒,"一位Reddit用户在一个宣布"这次Spotify黑客行为只会毁掉真正重要的文学档案库"的帖子上写道。

随着Anna's Archive粉丝的情绪螺旋式下降,甚至有人提出阴谋论,认为该档案库只是"为AI兄弟们做的,他们是在幕后付费支撑档案库运行的人"。

Ars无法立即联系到Anna's Archive就用户的担忧或Spotify的调查发表评论。

在Reddit上,一位用户对档案库"设计为抗打击"的事实感到安慰,这可能防止法律行动真正毁掉档案库。

"域名之类的可以消失,当然,但核心软件和其数据可以一次又一次地重新浮出水面,"该用户解释说。

但并非所有人都相信Anna's Archive能够在如此明目张胆地种子Spotify大量数据后生存下来。

"这就像说泰坦尼克号不会沉没,"该用户警告说,暗示如果Spotify引发的下架不断让下载受挫,Anna's Archive可能会失去捐赠。"当然,理论上数据确实可以一次又一次地重新浮现,但每次这样做都需要金钱和资源,而这些是有限的。在人们放弃之前,他们愿意做多少次呢?"

Q&A

Q1:Anna's Archive是什么?为什么要抓取Spotify数据?

A:Anna's Archive是全球最大的影子图书馆,声称此次抓取Spotify的300TB数据是为了保存"人类的音乐遗产",建立一个包含所有音乐作品的权威档案库,防止这些文化资产因自然灾害、战争等因素而丢失。

Q2:Spotify对数据被抓取有什么回应?

A:Spotify表示正在积极调查此事件,已经识别并禁用了参与非法抓取的恶意用户账户,并实施了新的保障措施来防止此类反版权攻击,同时与行业合作伙伴合作保护创作者权利。

Q3:Anna's Archive的这一行为会带来什么风险?

A:用户担心此举可能让Anna's Archive面临法律风险,就像互联网档案库去年遭受唱片公司法律攻击一样。虽然该档案库设计为抗打击,但持续的法律压力可能导致资金和资源耗尽,最终影响其正常运营。


需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询