跳转到主要内容

文章分类

摘要

GDPR要求数据控制员和数据保护官(DPO)维护处理活动登记簿(ROPA),作为监督组织合规流程的一部分。ROPA必须包括来自不同来源的信息,例如具有不同IT系统的(内部)部门和(外部)数据处理器。目前的实践使用的电子表格或专有系统缺乏机器可读性和互操作性,给自动化带来了障碍。我们建议将数据处理目录(DPCat)作为机器可读和可互操作的目录,用于表示、收集和传输ROPA信息。DPCat基于数据目录词汇(DCAT)及其欧洲数据门户的扩展DCAT应用概要(DCAT-AP)数据隐私词汇(DPV)。它代表了根据GDPR的文章开发的综合语义模型,以及对来自欧盟数据保护局(DPA)的17个ROPA模板的分析。为了证明DPCat的实用性和可行性,我们使用DPCat提交了欧洲数据保护主管(EDPS)的ROPA文件,并与SHACL进行了验证,以确保基于法律和上下文要求的信息的正确性,并使用SPARQL基于DPA模板生成报告和ROPA文件。DPCat支持数据处理合规性的数据治理流程,以协调来自不同来源的输入,生成动态文档,以适应DPA监管方法的差异,并减轻有效执法的调查负担。

介绍

许多组织是复杂的实体,对不同的个人数据进行异构处理,通常使用多个组织单位或外包处理合作伙伴组织,有时受多个数据保护机构(DPA)管辖。根据欧盟《通用数据保护条例》(GDPR),作为“数据控制者”的组织有义务创建和维护“处理活动登记簿(ROPA)”,作为其负责的个人数据处理活动的综合记录(GDPR第30条),是组织实践的时间快照,是发起关于合规性(如DPA)的沟通或调查的点。因此,它是与确保和记录其合规性相关的组织流程的重要组成部分。

在实践中,组织努力保持准确和最新的ROPA[1]。他们通常无法将处理活动登记簿的维护和管理纳入日常运营[1]。这可能导致GDPR问责原则(GDPR第5.2条)的崩溃因为ROPA更新的对象、方式和时间不够明确。为了协助组织履行与ROPA相关的职责,DPA提供了指导和模板,旨在通过常用的格式和环境(如电子表格[2]、[3])简化理解要求和协调文档的任务。在提供这些模板时,DPA指出了在ROPA中应记录哪些信息的“良好做法”。然而,尽管基于共同的法律义务(GDPR第30条),但DPA提供的模板存在差异,也鼓励记录其他字段(GDPR中没有)[2]。因此,在多个司法管辖区运营的组织的任务是将每个DPA的不同要求合并为一组不同的ROPA文件或一个单独的合并文件。

此外,收集创建ROPA所需的信息并非一次性活动[4],因为内部(例如,部门)[5]和外部(例如,数据处理者)[5]、[6]可能有多个数据源。因此,创建ROPA需要这些不同单位之间的通信,以将从“异构源”汇集的信息整理到单个位置,从而生成ROPA。这就需要对与文档相关的任务进行某种形式的信息管理过程,例如阅读或查看、编写文档的全部或部分内容、在相关利益相关者之间交换文档,并确保其正确性和可用性(例如备份或版本控制)。

为了满足这些要求,市场供应商为ROPA管理提供专用解决方案,通常作为GDPR合规工具套件的一部分[7]。这与越来越多的组织采用监管技术(RegTech)[8]、[9]来协助法律合规和要求的趋势一致。鉴于ROPA在GDPR合规流程中的重要性,ROPA的使用将成为一项重要的关键功能。

然而,这些RegTech解决方案主要是集中的和专有的,它们强调在供应商定义的用例之外无法使用的定制流程。特别地,尽管需要共享业务和监管分类,以促进利益相关者之间的语义互操作性[10],从而为数据保护和隐私法规确定可行且合规的软件解决方案[11],[12],但学术界和商业产品对内部和外部利益相关者间交换的信息研究甚少(见第2节)。

学术研究中缺乏与ROPA相关的探索,现有工作仅限于涉及企业架构模型[13]或数据[14]的早期工作。对于关注GDPR是否符合非专有技术的明确要求并关注互操作性(如语义网)的大型项目,尽管与相同的信息要求存在重叠,但仍明显缺乏针对ROPA相关任务的研究。就正在进行的工作而言,ONTOROPA项目[12]建议构建基于语义的ROPA,并提供基于区块链的信任保证。

我们提出了一种解决这些挑战的方法,从而确定完成ROPA所需的数据、ROPA利益相关者是谁、他们如何利用ROPA以及需要ROPA的互操作性和机器可读性的信息流。为了解决已确定的挑战及其解决方案,我们基于以下研究目标介绍了我们的工作:

  • 根据GDPR和欧盟DPA指南和模板,从利益相关者的角度确定与ROPA相关的信息和信息流;
  • 制定机器可读规范,以互操作方式表示和交换ROPA相关信息;
  • 根据识别的ROPA相关信息流,指定使用开发的机器可读格式聚合、查询、验证和导出信息的机制。

我们之前在这个主题上的工作包括创建ROPA的语义模型[5]。在这方面,我们评估了GDPR和六个DPA模板和指南,以确定表示ROPA相关信息所需的一组概念,并将其表述为表示整个欧盟通用性的“通用语义模型”。我们使用了W3C数据隐私词汇和控制社区小组(DPVCG)开发的数据隐私词汇(DPV)[15],作为表示已识别概念的词汇(注:H.J.Pandit是DPVCG主席,也是DPV的编辑https://www.w3.org/community/dpvcg/截至2022年5月5日)。我们发现并向DPVCG报告了缺失的概念,DPVCG随后通过我们的贡献扩展了DPV。我们进一步将我们的通用语义模型发展为建立“数据处理目录”(DPCat)[16]的提案,该目录利用数据目录词汇(DCAT)[17]及其扩展,欧洲数据门户的DCAT应用概要(DCAT-AP)[18],以“数据集”和“目录”的形式表示ROPA相关信息,并始终如一地分享。

本文扩展了我们之前的工作,为建立一个通用的机器可读和可互操作的ROPA通用表示机制提供了一个更完整和可行的解决方案。我们扩展了通用语义模型,以纳入来自所有欧盟DPA的ROPA模板(31个DPA中有17个已发布模板),并更新了DPCat规范和DPV,以支持表示此信息。为了证明其实际应用和有用性,我们将DPCat规范应用于欧洲数据保护主管(EDPS)发布的ROPA文件中的每个已识别用例(见第6节)。最后,我们通过创建支持信息表示(RDF)、查询(SPARQL)、验证(SHACL)和交换(DCAT+DPV)的“合规相关规范”,展示了我们的解决方案在实现欧盟“数据空间”愿景方面的潜力,从而超越了现有技术。

本文的主要贡献总结如下:

  1. 探索ROPA数据治理和利益相关者(RO1)的用例;
  2. 表示来自欧盟DPA(RO2)的信息需求的ROPA通用语义模型(CSM-ROPA);
  3. 用于表示和交换ROPA相关信息和出处(RO2)的数据处理目录(DPCat)规范;
  4. 使用DPCat和语义web技术演示ROPA相关信息的表示、查询、验证和交换(RO3);
  5. 讨论DPCat作为交换合规信息的“通用机制”的实用性和应用。

文件、分析、代码和可执行人工制品中的所有相关数据都可以在以下开放许可证下获得:https://w3id.org/dpcat/repo.

本文的其余部分结构如下:第2节讨论了最新技术和相关工作,第3节描述了ROPA开发通用语义模型(CSM-ROPA)的开发。在第4节中,我们讨论了ROPA的信息流和数据治理要求。第5节描述了DPCat数据处理目录,以实现ROPA信息共享、聚合和ROPA利益相关者互操作性查询。第6节提供了一个应用用例,以演示DPCat的实用性和可行性。本文的其余部分讨论了我们的方法对真实世界用例的影响,基于实现更好的自动化和工具,以实现法规遵从性,并对当局减轻调查负担以实现有效执法至关重要,我们为未来的工作提供了结论和建议。

最新技术和相关工作

本节概述了与ROPA建模、创建和维护相关的工作,与GDPR相关的机器可读和互操作信息管理和合规流程密切相关。

ROPA的信息管理解决方案

国际隐私专业人士协会(IAPP)是全球最大的隐私和数据保护专业人士团体,据报告,65%的组织依靠电子表格或完全手动的解决方案来维护其ROPA[20]。另一份IAPP报告发现,2020年有169家供应商提供ROPA相关信息管理服务和软件[21]。这种做法可以被视为反映了在“手动工具”(如电子表格)中维护法规遵从性相关信息而不使用对其进行操作的技术解决方案的普遍性。相反,这些解决方案的例外是由One Trust、Data Grail和Transcend等供应商提供的专有解决方案。这些隐私供应商看到了提供工具以实现与解决方案集成的重要性;然而,这些集成链接到其锁定的生态系统中,而组织无法控制其数据或将其转移到其他技术提供商。作为对现有常见做法的回应,DPA还提供电子表格模板,鼓励使用手动或特定于供应商的解决方案。

组织在ROPA方面的主要失误之一是将其维护工作移交给其数据保护官(DPO),而没有积极参与其维护[1]。ROPA的最佳实践建议利益相关者完全参与ROPA的持续维护[4],以向DPO提供该组织进行的个人数据处理的准确和最新视图[22],[23]。这意味着我们需要帮助DPO并使利益相关者参与ROPA维护和审查的流程[14]。由此,我们得出结论,通过技术解决方案存在对自动化的需求,市场正在通过商业产品来满足这些需求。

此外,未来隐私论坛(FPF)[24]报告称,隐私和数据保护技术提供商也面临着缺乏共同术语的重大障碍[25]。因此,对自动化和技术的需求应该伴随着对通用机制和术语的要求,这些机制和术语可以跨流程和利益相关者运行,并在生态系统中建立标准化机制。我们可以将目光投向制造业和金融业,通过通用性和标准化实现的协调改善了监管和价值链[10]。

作为回应,我们根据GDPR和DPA指南和模板(RO1)确定与ROPA治理相关的信息和信息流,并提供代表ROPA的通用术语,以克服缺乏通用术语(RO2)的问题。

使用机器可读元数据的GDPR合规方法

与市场反应相反,尽管有证据表明,解决GDPR合规问题的方法种类繁多,但作为一个主题的ROPA在学术界和研究界几乎没有受到关注。Rozenthal等人[26]提出“企业架构”是代表组织中处理活动和技术的理想来源。这得到了Burmeister等人的支持,他们还研究了企业架构如何为DPO提供有关GDPR合规性的组织数据处理活动的见解[27]。企业架构在下一小节中进一步探讨了ROPA相关信息的来源。

ONTOROPA项目[12]建议使用语义网络本体和知识图来表示ROPA相关信息,并使用区块链来证明其完整性和真实性。为了应对这些挑战,已经开展了使用语义web词汇表和本体来生成通用术语的研究[15],[28]。其他方法利用这些词汇构建“法律知识库”,并将其用于合规性评估和监控,这有助于协调和促进法律部门和其他利益相关者之间的联合方法,以确定围绕数据保护和隐私法规的可行合规解决方案[11]。

几个基于语义的项目提供了本体、词汇和策略语言,可用于表示GDPR概念。这些主要关注GDPR权利和义务中引用的条款。大多数项目侧重于法律合规性评估,而不是部署和互操作性。他们不考虑所需信息如何在组织内部/由组织、利益相关者和参与此过程的信息流维护或生成的关键方面。这方面的一些值得注意的输出是:BPR4GDPR的IMO[29]、GDPRov[30]、GConsent[31]、DPV[15]、GDPRtEXT[28]、SPECIAL的本体[32]和PrOnto[33]。最近的一项调查(2022年)提供了关于本体论和基于GDPR表示信息流的策略语言的进一步概述和详细信息[34]。

BPR4GDPR(GDPR合规的业务流程重新设计和功能工具包)[29],[35]是一种用于规定和评估流程的基于本体的相关合规方法。它基于从It系统的事件日志中进行的高级流程挖掘,以发现、监控和改进流程,而无需在挖掘之前对流程进行预建模。因此,BPR4GDPR创建了一个新的过程监控体系结构,该体系结构具有一致性检查的约束和过程的自动演化,以满足规则。在传统组织中广泛应用此类先进技术之前,还需要大量的试验和开发。

GDPRov[30]、GConsent[31]和SPECIAL[32]提供了表达GDPR相关概念的本体论,但不包含ROPA要求。GDPRtEXT[28]提供了GDPR概念的词汇表,其中一些与ROPA相关(GDPR第30条)。PrOnto[33]提供了有关数据类型、文档、代理和角色、目的、法律基础(以及更多)的概念,但它不可重复使用。DPV[15]还提供了有关数据类别、用途、法律基础(以及更多)的概念,代表了社区共识,并可供重用。

在专注于与软件开发方法和基础设施集成的工作中,两项值得注意的工作是TIRA(REST架构的OpenAPI扩展[36])和TILT(为实用隐私工程提供代码内的概念集成[37])。德国DPA通过“标准数据保护模型(SDM)”识别领域和需求的工作也与此相关,因为其重点是信息系统[38]。

这些现有的努力,特别是DCAT-AP和DPV,为我们开发机器可读规范提供了基础,以便以可互操作的方式(RO2)表示和促进ROPA相关信息的交换,以及使用语义web技术(RO3)基于识别的ROPA相关信息流导出信息。

ROPA的通用语义模型(CSM-ROPA)

尽管ROPA仅基于GDPR第30条规定的要求,但我们之前的工作发现,六个DPA提供的ROPA模板在需要记录哪些信息方面存在差异。其他领域与DPA认为的最佳实践相关,以帮助组织从其各种业务流程中收集和表示信息。我们协调了不同模板的需求,以构建ROPA(CSM-ROPA)的“通用语义模型”,从而能够表示所有DPA指定的ROPA信息[2]。然后,我们通过数据隐私词汇表(DPV)[15]中的概念来表示这些信息需求,以提供一个可互操作的机器可读词汇表,该词汇表可以作为利益相关者和在ROPA上运行的工具以及相关合规流程之间的中介机制。在本节中,我们展示了我们扩展工作的结果,我们分析并合并了所有欧盟DPA中的ROPA模板,为ROPA创建了一个单一的(真正的)“通用语义模型”,并使用DPV表示它,为表示ROPA及其相关信息提供了一致的、可互操作的规范。

DPA ROPA模板分析

GDPR有代表欧盟和EFTA EEA国家和成员国的31个DPA(注:根据EDPB成员资格,这包括来自27个欧盟成员国、EDPS和3个其他成员国的DPA;德国区域DPA被视为德国国家DPA的一部分)。每个DPA都根据GDPR第30条的基础提供了有关ROPA的指导,一些DPA还提供了模板,以帮助组织维护其ROPA文件。在我们之前分析六个DPA模板[2]的工作中,我们发现DPA ROPA模板超出了GDPR第30条的要求,与其他DPA模板不一致,并且在“集体理解”维护ROPA所需的信息方面存在挑战。

在这项工作中,我们将分析扩展到了所有31个DPA,发现17个DPA提供了不同语言和内容的ROPA模板(注:在17个DPA模板中,5个使用英语。我们使用谷歌翻译将其余部分转换为英语,并手动确保模板之间关于所用术语的翻译一致性)。在这17个模板上,我们进行了术语提取、语义分析、术语频率枚举、重复数据消除和反义词/同音异义词识别。信息最少的模板限制了其内容,以符合GDPR第30条的要求。一些模板,如比利时和希腊DPA提供的模板,在GDPR或其他DPA建议的范围之外的领域非常广泛。

该演习在2020-2022年期间进行,产生了47个独特的概念,代表要记录在ROPA中的信息。其中,18个概念与GDPR第30条中定义的要求相关,其余(29个概念)是对这些概念的补充或由DPA添加。附录9概述了这项工作,其中显示了已识别的概念及其与所分析的每个DPA模板的相关性。(注:我们无法辨别DPA添加的概念的法律来源或依据(欧盟或国家))

使用DPV开发ROPA语义模型

在我们之前的工作[2]、[3]中,我们使用DPV来表示从ROPA模板中识别的术语,作为机器可读和可互操作的概念,用于信息管理和基于法规遵从性的方法。通过这一点,我们提出了一个“ROPA通用语义模型”(CSM-ROPA)。在本节中,我们将描述我们在扩展CSM-ROPA方面的工作,以涵盖从DPA ROPA模板分析中确定的额外需求和概念,并将对DPV的更新纳入其中。

DPV提供了一个语义词汇,包括与GDPR相关的概念的分层分类,如个人数据、目的、处理操作、技术和组织措施、法律基础和实体。我们选择DPV是因为它为我们的目的提供了最全面的词汇,是开放和可访问的,具有持续的开发和提交投稿的机制,并且作者很熟悉。

使用DPV表示已识别概念的过程使用了方法[39],其中对于每个术语,我们构建了一个能力问题来识别相关的DPV概念。例如,“目的”一词的措辞是:“处理的目的是什么?”?然后,我们确定DPV是否包含我们称之为“精确匹配”的(语义上)精确概念,否则,我们寻找最接近的相关术语,该术语可用作称为“部分匹配”的替代物,如果任何现有术语不能表示该术语,我们将其视为向DPVCG提出的“新术语”,以纳入DPV。在通过ROPA模板分析发现的47个独特概念中,我们发现44个完全匹配,一个部分匹配,以及提出并添加到DPV中的两个新术语。附录9和10概述了这一结果。

其结果是CSM-ROPA,由47个概念组成,涵盖了GDPR和DPA模板中的信息需求,用于表示ROPA。CSM-ROPA通过使用DPV概念,提供了将ROPA表示为机器可读和可互操作的“图表”的能力,可用于技术解决方案,以实现与ROPA和GDPR合规性相关的自动化流程。CSM-ROPA数据和分析可在线访问https://w3id.org/dpcat/csm-ropa.

文章链接

标签