人工智能 · 2025年4月4日

维基媒体基金会:人工智能爬虫使维基共享资源的带宽需求增加了50%

维基媒体基金会是维基百科和其他众包知识项目的管理组织,该基金会近日表示,自2024年1月以来,从维基共享资源下载多媒体的带宽消耗激增了50%。

该公司在周二的一篇博客文章中写道,其原因并非源于人类对知识需求的增长,而是源于想要训练人工智能模型的自动化抓取工具。

帖子写道:“我们的基础设施是为了在高关注度事件期间承受来自人类的突然流量激增而建立的,但爬虫机器人产生的流量是前所未有的,并且带来了越来越大的风险和成本。”

维基共享资源是一个可自由访问的图像、视频和音频文件存储库,这些文件可在开放许可下使用或属于公共领域。

深入研究后,维基百科表示,最“昂贵”的流量中,近三分之二(65%)来自机器人。然而,只有35%的整体页面浏览量来自这些机器人。根据维基百科的说法,造成这种差异的原因是,经常访问的内容在其缓存中更靠近用户,而其他不经常访问的内容则存储在更远的“核心数据中心”,从那里提供内容的成本更高。这是机器人通常会寻找的内容类型。

“虽然人类读者倾向于关注特定的(通常是相似的)主题,但爬虫机器人倾向于‘批量阅读’大量页面并访问不太受欢迎的页面,”维基百科写道。“这意味着这些类型的请求更有可能被转发到核心数据中心,这使得我们的资源消耗更加昂贵。”

总而言之,维基媒体基金会的网站可靠性团队不得不花费大量时间和资源来阻止爬虫程序,以避免对普通用户造成干扰,而这一切都是在考虑基金会面临的云成本之前。

事实上,这代表了一种快速增长的趋势,这种趋势正在威胁开放互联网的存在。上个月,软件工程师兼开源倡导者抱怨人工智能爬虫忽略了旨在抵御自动流量的“robots.txt”文件。

尽管开源基础设施尤其处于风口浪尖,但开发人员正在以“智慧和报复”进行反击。一些科技公司也在尽自己的努力解决这个问题——例如,CloudFlare最近推出了AI LabyRinth,它使用人工智能生成的内容来减慢爬虫的速度。

然而,这更像是一场猫捉老鼠的游戏,最终可能迫使许多出版商躲在登录和付费墙的后面。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.