社交媒体平台Reddit近日对人工智能公司Perplexity及其他相关企业提起诉讼,指控其未经授权抓取网站数据用于人工智能模型训练。这起案件凸显了当前AI行业在训练数据获取方式上存在的法律争议。

根据向纽约联邦法院提交的诉状,Reddit将Perplexity AI、Oxylabs UAB、AWMProxy以及SerpApi四家公司列为被告。诉状指出,这些公司通过技术手段绕过网站防护措施,擅自获取Reddit平台上的用户评论和对话内容。Reddit在声明中强调,其平台作为全球规模最大、内容最活跃的人类对话数据库之一,已成为数据抓取行为的主要目标。
被告方对相关指控予以否认。Perplexity在回应中表示,其数据处理方式始终秉持原则且具有社会责任感,致力于通过人工智能技术为用户提供真实准确的信息服务。该公司强调将坚决维护公众自由获取公共知识的权利。与此同时,Oxylabs则提出异议,认为任何企业都不应对公共数据形成垄断,暗示部分企业可能通过控制数据资源谋取不当利益。
值得关注的是,Reddit在诉讼文件中将数据抓取行为形象比喻为“无法进入金库,转而抢劫运输车队”。据悉,部分涉事公司通过规避谷歌安全防护并利用搜索引擎记录的方式实施数据抓取。与此形成对比的是,谷歌和OpenAI已与Reddit达成正式数据使用协议,其中谷歌每年需支付6000万美元获取数据访问权限。这一巨额费用也让业界关注到合法数据获取的成本门槛。
需要指出的是,这已是Reddit今年内第二次就类似事由提起诉讼。今年6月,该平台曾对人工智能公司Anthropic提起过相关诉讼。这一系列法律行动反映出内容平台与AI技术公司在数据使用权方面的矛盾正日益凸显。





























浙公网安备 33010502007447号