拳交扩张数据爬取行径的正大性畛域及合规要点 - 集佳常识产权官网

发布日期：2024-10-12 00:45 点击次数：169

　　拳交扩张文/北京市集佳讼师事务所周丹丹崔梦嘉曹阳拳交扩张

　　跟着东说念主工智能期间的到来，高质料进修数据已成为大模子发展的基础，如何正当合规得到并构建高质料数据集成为业界越来越热心的问题。进修数据一般起原于采集爬取、企业径直采集、开源数据集、营业路线购买等渠说念，采集爬取数据系其中最垂死的组成部分。数据爬取行径的正大性偏激畛域问题，在比年来数据手脚垂死分娩要素的配景下，一直广为商讨。但由于当今数据保护专门立法仍在探索中，在民事法律层面，我国主要通过《反不正大竞争法》对数据爬取行径给以规制。本文将结合现存数据爬取司法案例，从数据爬取的内容、行径技巧、爬取后果等角度，结合利益均衡原则，分析现时司法实务所规矩的数据爬取行径正大性畛域，梳理转头企业数据爬取行径的合规要点。

　　一、采集爬虫本事的世俗应用

　　在涉数据爬取案件中，均会提到一个名词即“爬虫”。此“爬虫”是一种智力剧本，是互联网上爬取各网站、平台数据信息内容的智力剧本的统称，因其英文称号“Crawler”“Spider”等而获华文称号“爬虫”。

　　行径模式上，爬虫按照其使用者编写好的限定，自动为使用者爬取互联网上的数据信息内容。它们频频使用自动化数据握取本事来自动打听网站，并采集、领略和存储网站上的信息。这些信息不错是结构化或非结构化数据。在已往20多年，爬虫本事已世俗应用于多个限制，如搜索引擎、内容团聚、电子商务比价或商场研究、搪塞媒体舆情监测、竞争谍报分析等等。

　　二、数据爬取行径的正大性畛域判断

　　在涉数据爬取类不正大竞争纠纷案件中，法院频频从以下四个方面临数据爬取行径的正大性进行判断：一是判断数据持有者和数据得到者之间是否具有竞争接洽；二是判断数据持有者是否享有受法律保护的竞争性数据权柄；三是判断数据得到或使用行径是否具有不正大性；四是判断数据得到或使用行径是否挫伤盘算者权柄、徒然者权柄和商场竞争规律。本文主要从数据得到及使用行径的行径要件和扫尾要件上，转头当今司法推行中行径正大性判断考量身分及裁判要旨。

　　（一）数据爬取行径不得阻抑或绕开本事措施

　　常见的阻抑、绕开本事措履行径包括：阻抑数据持有者加密系统；阻抑数据持有者开荒的身份认证系统、用户登录系统；伪装成用户登录或模拟用户行径，诳骗数据持有者的身份认证系统；阻抑、绕开反爬虫本事措施，如阻抑、绕开封禁措施、IP打听截至等。

　　在谷米公司诉元光公司“车来了”案【1】中，就元光公司使用爬虫通过更换IP地址、破解加密算法等本事格局爬取谷米公司的公交及时数据，日均300万至400万条的行径，法院认定元光公司未经谷米公司许可，利用采集爬虫本事参加谷米公司工作器后台的格局违法得到数据的行径，具有违法占用他东说念主无形财产权柄，阻抑他东说念主商场竞争上风，并为我方谋取竞争上风的主不雅特意，违犯了老诚信用原则，滋扰了竞争规律，组成不正大竞争。

　　在新浪微博诉超等星饭团案【2】中，法院认定云智联公司握取新浪微博非公开数据的行径波及利用本事技巧阻抑或绕开微梦公司设定的打听权限，具有不正大性。

　　（二）数据爬取行径应谨守Robots协议

　　Robots协议系通过在网站域名根目次下以文本文档robots.txt之神情，向爬虫教训网站统共者对于其网站内的内容允许抑或辞谢爬取的道理暗意。该顺次于90年代由采集工程师们发起，赶快形成了搜索引擎限制内深广认同、深广谨守的本事顺次。中国互联网协会于2012年11月发布的《互联网搜索引擎自律契约》第七条中即明确商定了“革职海外通行的行业老例与营业限定，谨守机器东说念主协议（Robots协议）”，第八条章程“互联网站统共者开荒机器东说念主协议应革职公说念、盛开和促进信息目田流动的原则，截至搜索引擎握取应有行业公认合理的正大根由，不利用机器东说念主协议进行不正大竞争行径，积极营造饱读舞翻新、公说念平允的良性竞争环境。”

　　在我国现存的多个涉数据爬取案件中，对于爬虫使用者违犯Robots协议的行径是否组成不正大竞争，法院总体上齐需要结合利益均衡原则进行轮廓判断。主要的司法不雅点如下：

　　1.Robots协议是搜索引擎行业深广谨守的本事顺次，不错手脚公认营业说念德的参考

　　2.违犯Robots协议的爬取行径，频频会合计具有不正大性

　　在百度诉奇虎“360搜索引擎”案【3】中拳交扩张，北京市第一中级东说念主民法院认定360搜索引擎推出时违犯Robots协议爬取百度平台数据内容的行径组成不正大竞争。

　　在新浪微博诉超等星饭团案中，法院认定“凭据微梦公司提交的新浪微博Robots协议，以及两边均认同Robots协议不错拘谨包括采集爬虫在内的机器东说念主之事实，云智联公司在明知微梦公司截至除白名单之外的机器东说念主握取涉案数据的情况下仍然实施握取涉案数据中的公开数据，显著亦具有昭着的主不雅坏心”，并结合其他身分，最终认定云智联公司握取新浪微博公开数据的行径具有不正大性。

　　3.开荒Robots协议自己具有不正大性，也可能影响违犯Robots协议爬取数据行径的正大性判断

　　从Robots协议开荒的道理而言，Robots协议开荒是否具有正大、合理根由，不宜手脚数据爬取者是否革职该Robots协议的前提条件，也不应成为数据爬取者违犯Robots协议爬取数据行径正大性判断需要考量的身分。但在司法推行中，法院频频也会对网站盘算者所开荒之Robots协议是否正大、合理进行判断。

　　百度诉奇虎“360搜索引擎”案中，法院合计，百度在奇虎发出修改百度Robots协议的要求后应在合理期限内书面见告拒却修改的合理根由，在百度未明确提倡合理根由的情况下，奇虎在《自律契约》强项后实施的爬取行径不组成不正大竞争。

　　诚然在奇虎诉百度开荒Robots协议辞谢360搜索引擎爬取案【4】中，法院合计百度于《自律契约》强项后仍在Robots协议中专门针对360爬虫进行截至的行径属于厌烦性措施，不具有合理、正大的根由，最终认定百度在Robots协议中针对360爬虫进行厌烦性开荒的行径组成不正大竞争，但Robots协议中的针对性开荒并非天然具有不正大性。在字节高出诉新浪微博案【5】中，法院认定“Robots协议在某种意旨上一经成为维系企业中枢竞争力，维系商场有序竞争的一种技巧。尽管Robots协议客不雅上可能形成对某个或某些盘算者的‘厌烦’，但在不挫伤徒然者利益、不挫伤全球利益、不挫伤竞争规律的情况下，应当允许网站盘算者通过Robots协议对其他采集机器东说念主的握取进行截至，这是网站盘算者盘算自主权的一种体现。”

　　（三）从数据爬取的后果上，不得妨碍、阻抑系统的平日运转，不得产生骨子性替代

　　即使数据爬取行径不具有任何不正大性，也并不虞味着数据爬取者不错对所爬取的数据苟且使用。若从爬取后果的角度，存在妨碍、阻抑被爬取的系统的平日运转，或后续的数据使用行径对于数据持有者的家具产生骨子性替代，或挫伤全球利益、商场竞争规律，也可能被法院认定为具有不正大性。

　　对于数据使用行径的正大性，有两个眉目：若数据起原自己不正大，则后续的数据使用行径也难谓正大；若数据起原自己不存在不正大性，也不虞味着不错苟且使用所爬取的数据，而仍应合理戒指数据使用范围和格局，不得对数据持有者家具产生骨子性替代后果。

　　在大家点评诉百度案【6】中，法院认定百度公司通过搜索本事握取并大批全文展示来自大家点评网的信息一经高出必要的限制，组成对大家点评网的骨子性替代，具有不正大性。

　　从现存司法案例不错看出，数据使用应当革职“最少、必要”的原则，即遴选对数据持有者挫伤最小的措施，如超出必要限制使用数据，形成对数据持有者的骨子性替代，则组成不正大竞争。而在对是否超出必要限制进行考量时，可能被法院考虑的身分包括：

　　1.使用格局：对数据是否径直搬运使用、基本莫得翻新性使用；

　　2.替代经由：是否导致徒然者无需使用数据持有者家具，而产生了“替代”；

　　3.最小挫伤：是否存在昭着挫伤格局更小的数据使用格局而未遴选；

　　4.商场后果：是否具有提高徒然者福利、促进商场竞争的正向作用。

　　（四）利益均衡原则在行径正大性司法判断上的诓骗

　　就数据爬取行径的规制，法院主要适用《反不正大竞争法》互联网专条兜底要求或第二条一般性要求给以规制。而岂论适用哪一条，均会波及到利益均衡原则的诓骗。凭据《反不正大竞争法司法施展》第三条第二款，“东说念主民法院应当结合案件具体情况，轮廓考虑行业限定概况营业老例、盘算者的主不雅状况、往返相对东说念主的遴选意愿、抵徒然者权柄、商场竞争规律、社会全球利益的影响等身分，照章判断盘算者是否违犯营业说念德。”

　　有论者提供了数据爬取中权柄衡量的分析框架，【7】对于细巧化臆测数据爬取各方权柄具有参考作用。当今虽尚未发现法院罗致如斯细巧量化之格局，但法院利益均衡原则一直以来齐是数据爬取行径正大性评论的要点。

　　在笔者所代理的某搜索引擎违犯Robots协议爬取数据案中，法院即轮廓考虑了被诉搜索引擎违犯Robots协议爬取数据手脚搜索引擎工作内容给以提供，对搜索扫尾开荒团聚家具给以主动推选，同期考虑了被诉行径对其他盘算者正当权柄的挫伤，抵徒然者利益的挫伤，及对商场竞争规律的影响进行判断。

　　在新浪微博诉超等星饭团案中，法院认定，采集平台对他东说念主握取其公开数据应负有一定经由上的容忍义务，即对于平台中的公开数据，基于采集环境中数据的可集成、可交互之特色，平台盘算者应当在一定经由上容忍他东说念主正当采集或利用其平台中已公开的数据，不然将可能致力以公益研究或其他故意用途为主张的数据诓骗，有违互联网互联互通之精神。

　　三．企业数据爬取的合规要点

　　凭据如上对现存司法案例的分析，本文转头索要企业数据爬取行径的如下合规要点：

　　1.弗成破碎、绕开本事措施爬取数据，包括模拟用户身份或行径进行系统登录；

　　2.谨守Robots协议；

　　3.幸免爬取个东说念主信息、他东说念主享有文章权的作品、营业精巧等；

　　4.幸免大批、高频地爬取数据，珍重阻抑网站平日盘算；

　　5.使用数据革职“最小必要原则”，幸免产生对数据持有者的骨子性替代；

　　6.爬取并使用开源数据集，需要谨守开源许可证。

　　醒目：

　　【1】（2017）粤03民初822号民事判决书。

　　【2】（2017)京0108民初24512号民事判决书。

　　【3】（2013）一中民初字第2668号民事判决书。

　　【4】（2017）京民终487号民事判决书。

　　【5】（2021）京民终281号民事判决书。

　　【6】（2016）沪73民终242号民事判决书。

　　【7】许可，《数据爬取的正大性偏激畛域》，载《中法令学》2021年第2期。

拳交 扩张 数据爬取行径的正大性畛域及合规要点 - 集佳常识产权官网

拳交扩张数据爬取行径的正大性畛域及合规要点 - 集佳常识产权官网