RAG技术冲击内容生态,版权人如何向AI搜索维权?
互联网时代,传统媒体围绕用户访问点击建立了广告和直接收费两种商业模式。但人工智能搜索的出现,特别是使用 RAG ( Retrieval-Augmented Generation ,检索增强生成)技术的公司能让用户多数时候直达答案省去点击。所以传统媒体开始了对 RAG 模式的 AI 服务商的大规模维权,用版权侵权起诉野蛮生长的 AI 公司,用反垄断起诉没那么野蛮的,总之就是告你没商量。 一、 RAG 技术破坏的是传统媒体网站生态 作为版权人的传统媒体认为,和传统大模型训练后输出模式相比, AI 搜索结果页能直接替代对源网站进行访问,没人访问网站就没有广告点击,也没有了付费订阅,内容真正的创作者就没有了收入来源,所以 AI 搜索不是在创新,而是在系统性劫持原创内容,破坏创作生态。 而其中的罪魁祸首,就是 RAG 模式。传统大模型,比如 OpenAI 的早期模式,是通过海量数据训练,让模型消化知识,输出时模型基于概率生成新文本,绝大多数情况下,不会对训练素材,比如某篇特定文章进行完整复制。而在 RAG 模式下, AI 收到用户提问会在后台实时检索互联网,找到相关内容,然后将这些内容增强进输出内容。此时,如果 AI 服务商在输出端不做控制的,生成的内容就有可能会和被检索到的文档非常相似,将构成法律意义上的复制。 但即便 AI 服务商在进行控制,让输出的内容具有更强的转换性,不构成对被检索内容的复制,实际搜索结果页也会对提供原创内容的源网站起到替代作用,用户多数情况下也无需访问源网站,这实际破坏了被抓取内容网站的生态。 二、 CNN 起诉野蛮人 Perplexity Perplexity 是一家印度裔创业者创设的人工智能服务商,可能因为其基础模型能力不够强,所以其 RAG 模式的运营非常激进,完全不尊重法律和行业传统。 2026 年 5 月,美国 CNN 公司向纽约南区联邦法院起诉 Perplexity ,根据诉状,用野蛮生长形容 Perplexity 毫不为过。 Perplexity 首先通过自家爬虫大规模抓取 CNN 的新闻、图片、视频,建立起一个巨大索引,当用户向 Perplexity 提问时,系统会根据问题检索 CNN 的相关文章全文,然后把文章内容直接装进模型上下文并生成答案。这些答案在很大程度上就是对 CNN 原文的大段...