专业文章 | 数据爬取行为中侵权与创新冲突的法律分析

数据爬取行为中侵权与创新冲突的法律分析

在数字信息如洪水般奔涌的时代，数据爬取技术如同一把双刃剑，既能挖掘信息金矿，也可能侵犯他人权益。想象一下，你开发了一个能自动收集全网比价信息的程序，帮消费者省下真金白银，这无疑是创新；但如果你的程序“暴力”访问电商网站，导致对方服务器瘫痪，这就是侵权。这种既有侵权又有创新的数据爬取行为，在法律上该如何认定？本文将通过多个真实案例分析，探讨这一数字经济时代的核心法律问题。

一、数据爬取的法律边界：三个核心问题

在讨论具体案例前，我们先明确三个基本问题：什么是数据爬取？它可能侵犯哪些权益？创新性使用又如何界定？

数据爬取（Web Scraping）是通过自动化程序从网站提取数据的技术。它可能触及的法律红线包括：著作权侵权（复制受保护内容）、不正当竞争（破坏商业模式）、侵犯计算机信息系统安全（突破技术防护）、侵犯个人信息权益（获取非公开个人信息）等。

而创新性则体现在：数据用途的转换性（将原始数据用于全新场景）、社会价值创造（促进信息流通与公众福祉）、技术创新本身（开发更高效的采集技术）。

二、侵权爬取：五个警示性案例

1.大众点评诉百度地图案（(2016)沪73民终242号）

百度地图曾直接从大众点评抓取用户评价信息，展示在自己的平台上。法院认为，大众点评投入大量成本收集、整理的餐厅评价信息具有商业价值，百度直接“搬运”这些实质性内容，既替代了大众点评的部分服务功能，又未付出相应成本，构成不正当竞争。

这个案例有趣的点在于：百度并非直接复制全部网页，而是通过技术手段提取核心评价内容。可以将其比喻为“摘取他人花园中开得最艳的花朵，装饰自己的庭院”，虽然美观，但侵害了园丁的辛勤劳动。

2.新浪微博诉脉脉案（(2016)京73民终588号）

职场社交平台脉脉曾通过授权登录方式获取新浪微博用户信息后，在未获用户明确同意情况下，将这些信息用于自己的平台，甚至包括非脉脉用户的信息。法院指出，脉脉的行为突破了“用户授权+平台授权+用户授权”的三重授权原则，构成不正当竞争。

本案创造性地确立了互联网数据获取的“三重授权”规则，成为后来类似案件的重要参考。好比你去朋友家做客，朋友同意你看他家的照片（第一重授权），但你不能未经朋友允许就把这些照片复制一份带回家（第二重授权缺失），更不能把照片中出现的其他人也一并“带走”（第三重授权缺失）。

3.酷米客诉车来了案（(2017)粤03民初822号）

“酷米客”和“车来了”都是实时公交查询软件。车来了通过技术手段破解酷米客的加密措施，直接获取其实时公交数据。法院认为，这种突破技术防护措施获取非公开数据的行为，不仅侵犯了著作权（针对数据汇编的独创性表达），还构成不正当竞争。

这个案例的特殊性在于，公交数据本身具有公共属性，但法院区分了原始数据和经过加工、具有独创性的数据呈现方式。好比公共道路谁都可以走，但有人专门绘制了一份标注了所有捷径、拥堵点的地图，这份地图的呈现方式就受法律保护。

4.腾讯诉字节跳动案（(2021)粤03民初1128号）

字节跳动旗下平台未经许可直播腾讯游戏的画面。虽然本案主要涉及著作权，但其中数据抓取技术用于获取游戏实时画面。法院认为，游戏运行过程中形成的连续画面具有独创性，构成类电作品，未经许可的直播构成侵权。

这个案例延伸出一个有趣问题：当爬取的对象是动态生成的、具有创作性的内容时，侵权认定更加复杂。就像你不能未经允许转播别人正在进行的舞台表演，即使表演使用的是公共领域的剧本。

5.HiQ诉LinkedIn案（美国案例，No. 17-16783）

虽然这是美国案例，但对全球数据爬取规则影响深远。HiQ公司抓取LinkedIn上公开的个人资料数据，用于分析员工离职风险。LinkedIn采取技术措施阻止。法院初步支持HiQ，认为对公开数据的访问本身具有公共利益，平台不能随意阻止。

本案的启示在于：数据的公开状态影响爬取的合法性认定。就像公园里公开摆放的雕塑，公众可以观看、拍照，但不能将其搬回家或用于商业展览而不注明出处。

三、创新性爬取：当技术遇见善意

1.学术研究中的爬取：全球新冠疫情数据收集

疫情期间，约翰·霍普金斯大学等机构通过爬取各国卫生部门公开数据，建立全球疫情地图。这类爬取目的具有明确的公共利益，数据来源为公开信息，且通常遵循“robots.txt”协议（网站表明爬虫访问规则的文本文件），属于创新性使用的典范。

2.价格透明化工具：爬取促进市场竞争

一些比价网站通过合规方式爬取电商平台公开价格信息，帮助消费者做出明智选择。这类使用增强了市场透明度，促进了竞争，通常被认为是创新性使用，只要不造成对方服务器过载或规避明确的技术防护措施。

四、侵权与创新的交织：四个关键认定标准

通过对上述案例的分析，我们可以总结出区分侵权性爬取与创新性爬取的四个关键标准：

1.数据性质：公开vs非公开

爬取公开数据（如公开网页信息）的合法性空间较大，尤其是当用于公共利益目的时。而突破技术防护获取非公开数据，则很可能构成侵权。例如，LinkedIn案中，法院特别强调HiQ爬取的是公开资料。

2.爬取手段：“温柔”vs“暴力”

遵守robots.txt协议、设置合理访问间隔、不规避技术措施的爬取行为，更可能被认定为合规。反之，“暴力爬取”（高频访问导致服务器瘫痪）或“规避爬取”（突破登录限制、破解加密）则构成侵权。车来了案中，被告正是因为破解加密措施而败诉。

3.使用目的与效果：转换性使用vs替代性使用

转换性使用（将数据用于与原场景不同的新用途，创造新价值）可能构成合理使用或创新行为。替代性使用（直接与原服务竞争，分流用户）则易构成不正当竞争。大众点评案中，百度直接使用评价信息提供类似服务，就是典型的替代性使用。

4.行业惯例与商业道德：是否违反“公认商业道德”

我国反不正当竞争法要求遵守“公认商业道德”。在数据领域，这包括尊重其他经营者的技术措施、遵循三重授权原则（针对用户信息）、不实质性替代他人服务等。脉脉案确立的“三重授权原则”就是商业道德的具体化。

五、平衡之道：建立数据流动与权益保护的“交通规则”

如何在保护数据权益与促进数据利用之间找到平衡？这需要一套精细的“交通规则”：

1.建立分级分类保护体系

对不同类型数据采取不同保护强度：个人信息（最强保护，需明确同意）、商业数据（中等保护，禁止不正当获取与使用）、公共数据（较弱保护，鼓励合规利用）。

2.推广“合规爬取”最佳实践

包括：检查robots.txt、设置合理爬取频率（如每秒请求数限制）、避免爬取个人信息或受版权保护的核心内容、对抓取数据进行创新性使用而非简单复制。

3.探索数据授权与共享机制

通过API接口等标准化方式，在可控范围内促进数据共享。这就像在花园边开设一个正规的鲜花摊位，既让路人能够欣赏鲜花，又保障了园丁的利益。

六、未来展望：当人工智能遇见数据爬取

随着人工智能发展，数据需求呈爆炸式增长。未来的法律挑战将更加复杂。比如：

1.训练数据的版权问题：AI模型训练需要海量数据，爬取行为是否构成合理使用？

2.自动化爬取与动态防护：AI驱动的爬虫与AI驱动的反爬虫技术之间的对抗如何规范？

3.生成式AI的输出与溯源：当AI基于爬取数据生成新内容，如何确保源头数据的合法使用？

这些问题尚无定论，但可以预见的是，目的正当性、手段合理性、结果无害性仍将是判断数据爬取行为合法性的核心准则。

中国司法实践正在逐步明确数据爬取的规则边界：既不一刀切地禁止爬取，扼杀创新；也不放任无序爬取，损害权益。

对于企业而言，合规爬取的建议是：公开数据温柔取，个人数据授权取，商业数据谨慎取，创新使用用心做。对于立法与司法而言，则需要继续在具体案例中细化规则，既保障数据来源者的合法权益，又为技术创新留下足够空间。

理想的数据生态应当是“流动而不失序，共享而不掠夺”的平衡状态。在这个生态中，数据爬取技术将成为连接信息孤岛的桥梁，而非破坏花园围墙的梯子。

而法律的角色，就是确保每座桥梁都有牢固的桥墩，每条道路都有清晰的红绿灯。

Article Author

文章作者

联系我们

地址

律师服务能力是一种地区竞争力

专业文章｜公序良俗的理解适用

专业文章｜论民法典第146条中表面行为与隐藏行为效力的独立判断——兼论避免二者不当牵连的路径

专业文章｜需行政审批的股权转让协议签署后至审批前的权利义务分析

检索报告：关于“走私柴油”案件（福建地区）

终身寿险合同的架构选择

我国保险金信托的监管

专业文章 | 醉酒后开“自动驾驶”坐副驾睡觉，法院判了：危险驾驶罪！

专业文章 | 平台用户协议法律属性及其困境与出路

专业文章 | 破局之道：从司法裁判视角审视建设工程承包商索赔困局与应对策略