RAG技术冲击内容生态,版权人如何向AI搜索维权?

 

互联网时代,传统媒体围绕用户访问点击建立了广告和直接收费两种商业模式。但人工智能搜索的出现,特别是使用RAGRetrieval-Augmented Generation,检索增强生成)技术的公司能让用户多数时候直达答案省去点击。所以传统媒体开始了对RAG模式的AI服务商的大规模维权,用版权侵权起诉野蛮生长的AI公司,用反垄断起诉没那么野蛮的,总之就是告你没商量。

一、RAG技术破坏的是传统媒体网站生态

作为版权人的传统媒体认为,和传统大模型训练后输出模式相比,AI搜索结果页能直接替代对源网站进行访问,没人访问网站就没有广告点击,也没有了付费订阅,内容真正的创作者就没有了收入来源,所以AI搜索不是在创新,而是在系统性劫持原创内容,破坏创作生态。

而其中的罪魁祸首,就是RAG模式。传统大模型,比如OpenAI的早期模式,是通过海量数据训练,让模型消化知识,输出时模型基于概率生成新文本,绝大多数情况下,不会对训练素材,比如某篇特定文章进行完整复制。而在RAG模式下,AI收到用户提问会在后台实时检索互联网,找到相关内容,然后将这些内容增强进输出内容。此时,如果AI服务商在输出端不做控制的,生成的内容就有可能会和被检索到的文档非常相似,将构成法律意义上的复制。

但即便AI服务商在进行控制,让输出的内容具有更强的转换性,不构成对被检索内容的复制,实际搜索结果页也会对提供原创内容的源网站起到替代作用,用户多数情况下也无需访问源网站,这实际破坏了被抓取内容网站的生态。

二、CNN起诉野蛮人Perplexity

Perplexity是一家印度裔创业者创设的人工智能服务商,可能因为其基础模型能力不够强,所以其RAG模式的运营非常激进,完全不尊重法律和行业传统。20265月,美国CNN公司向纽约南区联邦法院起诉Perplexity,根据诉状,用野蛮生长形容Perplexity毫不为过。

Perplexity首先通过自家爬虫大规模抓取CNN的新闻、图片、视频,建立起一个巨大索引,当用户向Perplexity提问时,系统会根据问题检索CNN的相关文章全文,然后把文章内容直接装进模型上下文并生成答案。这些答案在很大程度上就是对CNN原文的大段复现,甚至逐段复制。

CNN在诉状中提供了大量对比图证据。左栏是CNN原文,右栏是Perplexity的输出,大面积标红的文字表明两者高度一致。例如,当用户询问“卢比奥放弃了哪个职务”的问题时,Perplexity的付费Pro版直接输出了CNN文章的大量逐字内容,也就是说,用户向Perplexity支付费用即可获取CNN的版权内容,但CNN本身分文未得。PerplexityComet浏览器甚至能绕过CNN的付费墙,将付费订阅文章的全文逐字输出给未订阅用户。

 

CNN还在诉状里指明了Perplexity的两类恶意技术行为:Perplexity的爬虫公然无视网站的robots协议中设置的禁止抓取规则,爬取本不允许被机器访问的内容,这其中包括一部分付费墙后的新闻。其爬虫还被Cloudflare抓到,如遇拦截,会伪装成普通浏览器,比如假装成Mac电脑上的Chrome浏览器用户,并通过未公开的IP段发起请求。

三、文明人谷歌也被告了

相比Perplexity,谷歌要文明的多,其早期的理念是帮助用户离开搜索引擎,并建立了一个相对良性的生态,搜索结果仅提供两三行提示性的摘要片段,用户若想获取实质性内容,必须点击访问来源网站。这样媒体网站就可以通过谷歌导流来的用户实现广告和直接收费的模式。

但到了AI时代,谷歌也变质了,其正蜕变为让用户留下来的答案引擎。近年来谷歌力推的AI搜索模式让用户查询后可以直接获得AI生成的答案。AI搜索在搜索结果置顶会大大减少搜索推荐的流量,不但头部搜索结果的点击率下滑严重,大量搜索还以零点击告终。

不过即便如此,谷歌提供的AI搜索也比Perplexity有节操:尊重robots协议,网站如果在robots文件中禁止抓取,谷歌会直接不索引这些内容,也不会对网站生成AI摘要。谷歌的AI搜索对RAG模式进行了改进,输出内容是从多个来源抽取片段,拼在一起,并在每个段落边上标明来源链接,其体验也尽量保持引用并链接这一搜索引擎的传统框架。而且谷歌不会在AI摘要中直接给出付费墙后全文的核心内容,而是仍然引导用户前往原站订阅或登录。

但谷歌原本建立的搜索生态,还是被AI摘要打破,传统媒体网站访问量不可避免的大幅下滑。蛋糕变小总有人要承担责任,20259月,旗下拥有BillboardRolling StoneVarietyThe Hollywood Reporter等标志性媒体品牌的Penske媒体集团在华盛顿特区联邦法院起诉了谷歌,但选择的武器不是版权法,而是反垄断法。

Penske诉状的核心逻辑是:媒体原本允许谷歌抓取网站内容,是为了获得搜索流量;但谷歌改变规则,把网站内容进一步用于谷歌的AI搜索产品。虽然谷歌也提供了退出机制,网站使用nosnippet等标签,就可以停止谷歌对内容摘要展示,但问题在于,谷歌很霸道,此时不但AI搜索不显示摘要,正常谷歌搜索也不会显示网站摘要,导致网站彻底失去了谷歌的搜索曝光与推荐,彻底退出谷歌搜索生态,但退出谷歌搜索,对媒体网站而言会失去绝大部分访问流量,几乎等于死亡。

这种状态,也正是反垄断法中的经典问题:垄断者利用市场支配地位迫使交易相对人接受不公平条件。所以Penske不得不祭起反垄断诉讼这个利器。根据诉状,本案相关市场大致可以分为:第一,通用搜索市场,这是谷歌在其他案件中已经被美国法院认定具有垄断地位的市场。第二,在线数字出版流量分发市场,媒体依赖谷歌导流。第三,AI搜索市场,谷歌试图将原有搜索优势延伸到AI时代。

Penske认为谷歌滥用了其在搜索市场的支配地位,通过将搜索索引与AI内容授权捆绑的捆绑交易,以及在搜索结果页优先展示自家的AI摘要而非原网站链接的自我优待,人为制造了竞争对手无法逾越的壁垒,破坏了原本健康的互联网内容生态。

最后,每一次科技进步都会伴随着效率的大幅提升,AI搜索的RAG模式虽然看似也提升了效率,让访问者减少点击网页即可直达结果,但其行为却打破了原有内容创作的生态,不合理的损害了内容原创者的利益,长此以往,会导致原创内容萎缩。所以,通过诉讼对该模式,或者说对中立技术背后的利益分配机制进行反思是必要的。

这里不得不说一下我国的遗憾,美国的诉讼先聚焦的是未经许可的训练行为是不是构成侵权,然后再推进到对RAG模式的法律定性,而我国司法机关目前似乎为了保护新生的人工智能产业,对训练问题的审判都非常审慎克制,所以笔者这样的中国知识产权律师只能将视线投向大洋彼岸,研究美国的案例了。

本文作者:游云庭,知识产权律师。Email: yytbest@gmail.com,本文仅代表作者观点。

 

评论

此博客中的热门博文

苹果iCloud云存储被诉垄断宰客,我国消费者可以起诉吗?

如果携程被认定滥用市场支配地位,可能面临哪些整改?

《阴阳师》能打赢《王者荣耀》的抄袭官司吗?