七大财经媒体宣战AI,但法律准备好了吗?

 

近日,《证券时报》、《上海证券报》、《证券日报》、《中国基金报》、《21世纪经济报道》、第一财经集团和《每日经济新闻》七家主流财经媒体同时声明:未经本单位书面许可,不得将本单位原创内容用于机器学习、数据挖掘、大模型训练、文字转音视频等人工智能应用场景。此事说明AI产业与内容产业之间日益利益冲突激烈,但这纸声明真的管用吗?笔者的判断并不乐观。因为声明禁止的是AI抓取公开数据,而目前的法律对此边界尚不明晰。

一、Robots协议为什么防不住AI爬虫?

传统互联网时代,网站抵御爬虫的第一道防线是robots.txt文件,通过声明哪些路径禁止爬取,来约束遵守协议的爬虫程序。然而,笔者随机查阅了此次联署的三家媒体:《证券时报》的robots页面直接返回404错误,意味着网站官方的爬虫指引压根儿不存在;《21世纪经济报道》则采用了最为开放的配置,允许所有搜索引擎爬虫访问网站全部内容;《中国基金报》稍微保守一些,仅禁止爬取以"paper"(纸媒)和"rss"(订阅)开头的路径。

换言之,这三家媒体在发布声明的同时,并未在技术层面做出任何实质性的防护动作。笔者觉得,一种可能是媒体不是技术公司,所以没想到。另一种可能则是,媒体知道robots.txt本就是防君子不防小人的,即便写了禁止AI爬虫,应该也防不住,所以干脆不写了。

即便有robots.txt拦路,技术手段也早已将其架空。AI数据采集常用的绕过方式包括:抓取互联网档案馆(Internet Archive)的历史镜像,那里存有大量网页快照;利用搜索引擎缓存,间接获取已被索引的内容;将爬虫伪装成普通浏览器的User-Agent,让服务器误以为是真实用户在访问;委托第三方爬虫服务代劳,自身不直接出手;通过频繁轮换IP地址规避封锁;或者模拟真实浏览器行为(如鼠标移动、页面滚动)来欺骗反爬虫系统。

其实在百度诉奇虎360案中,北京一中院曾认定robots协议是技术规范,规定该协议的《互联网搜索引擎服务自律公约》是公认商业道德,所以,媒体可以考虑利用robots协议屏蔽AI爬虫。若AI公司违反协议,可依据《反不正当竞争法》的原则条款提起诉讼。

二、联合声明有法律效力吗?

声明发出了,法律能撑腰吗?在法院判例或立法文件明确之前,这样一纸声明未必能赋予媒体机构对抗AI训练的基础性权利。依照现行著作权法的框架,利用内容训练AI是否构成侵权,目前法律并无明确规定。虽然《生成式人工智能服务管理暂行办法》要求服务提供者尊重知识产权,但并未就训练数据的合规路径给出具体指引。国内有多起版权人起诉AI公司训练侵权的案件进入司法程序,笔者就代理了其中两起,但案件审判皆已停滞很久,这可能是司法机关有意为AI产业发展保留空间。

现有判例集中在AI输出端而非训练端,杭州互联网法院和广州互联网法院均有一个涉及奥特曼形象的判决,认定AI输出的奥特曼图片与原作构成实质性相似而构成侵权。但这针对的是AI生成内容对他人版权的直接侵害,而非训练数据的抓取行为本身。对于训练端的法律边界,司法尚未划定。

三、AI抓取数据的用途决定了法律风险的大小

AI对财经内容的利用方式来看,存在两种截然不同的模式,法律风险也大相径庭:

训练模式AI将抓取到的内容用于模型训练,训练完成后,模型生成的内容是其内部知识的再创造,与任何一篇原始文章之间通常不构成实质性相似。这种情况下,被认定侵犯复制权或信息网络传播权的风险相对较低,被认定合理使用的可能性比较大。

实时检索增强生成模式(RAG, Retrieval-Augmented Generation)‍:当用户提出需要最新信息的问题时,比如分析一下今天A股市场的表现,AI模型会实时抓取相关财经网站的最新报道,然后进行总结、归纳并呈现给用户。这种模式下,AI生成的内容与原始文章在信息和表达上高度关联,‍对财经媒体访问的替代性极强,几乎等同于对原作的即时复刻与分发,原作的潜在市场或价值可能被严重侵害,主张合理使用的抗辩空间将大大缩减。

四、目前法律风险的两条红线

另一个关键变量是付费墙。若AI绕过付费订阅机制,如绕过登录验证、利用共享账号、解析接口等,直接读取付费内容,则几乎可以确定构成侵权,因为这不仅涉及复制权,更涉及对技术保护措施的破解,属于直接侵权行为。在纽约时报诉OpenAI的案件中,原告要求对OpenAI两千余万条访问记录进行检查,目的就是证明OpenAI和微软的Browse with Bing(必应浏览)的RAG模式绕过付费墙向用户展示了付费网页摘要。

除了民事风险,刑事风险的可能性也存在,比如AI公司的高频抓取数据导致媒体网站崩溃,理论上可能涉嫌破坏计算机信息系统罪,这七家媒体背后均为国有大型媒体集团,如果报案,公安机关不排除可能会受理。但现在AI产业的明星公司其实也是新质生产力的重要组成部分,同样深受地方政府扶持,所以媒体如果维权动作过于激烈,也不是没有制衡力量。

最后,七家财经媒体的联合声明的最终目的可能不是封杀,而是为了逼AI公司回到谈判桌,探索类似数据授权许可或利益分享的商业模式。但毫无疑问的是,AI浪潮已让传统内容产业感受到切肤之痛,摄影师、摄像师、程序员的失业潮早已显现,如今连财经媒体也在抱团取暖。所以立法机关和法院亟需通过具有里程碑意义的立法或者判决,为AI训练数据的版权问题划定清晰的红线。

本文作者:游云庭,知识产权律师。Email: yytbest@gmail.com,本文仅代表作者观点。

 

 

评论

此博客中的热门博文

如果携程被认定滥用市场支配地位,可能面临哪些整改?

英伟达“付费买盗版”训练AI,中国法律怎么看?

封禁破解版Switch2,任天堂为何雷声大雨点小?