大规模自动化数据保护 Part2
摘要
在本系列文章的第一篇中,我们介绍了数据保护平台(Data Protection Platform,以下简称 DPP),是一个使我们能符合国际法律和安全需求的数据保护平台。我们强调了解我们的数据是保护数据的必要组成部分,可以通过跟踪个人和敏感数据在我们生态系统中的存储位置来实现。在本篇文章中,我们将讨论公司在查找个人和敏感数据的确切位置时经常面临的挑战。许多公司依靠工程师手动追踪个人数据和敏感数据在内部系统如何流转以及流向何处,但依靠手动数据分类会带来不少挑战:
- 数据在不断迭代。这使工程师很难全面了解数据,及数据如何在公司的基础设施中流动。数据还会复制并存到不同的数据存储中,此外,随着产品的变化和新产品的出现,也会有新类型的数据产生。
- 手动分类更容易出错。工程师可能会忘记该数据资产是否包含个人数据,或者有些数据是用户自由输入,工程师并不知道里面会包含什么。
- 安全和个人隐私数据不断增加。对于新隐私法规和安全合规要求的新增数据元素,工程师须再次进行手动数据分类,造成了公司的高成本和低效率。
- 在代码库和各种数据存储中可能会泄漏密钥。工程师常用密钥包括生产环境API 密钥、供应商密钥和数据库登录凭证等。代码库中泄漏密钥是一个常见的问题,通常由于工程师意外或无意识地提交代码且没有被审批人发现。密钥一旦检入(check in)生产环境,想要找到它们就变成大海捞针,不容易被发现。
为了应对这些挑战,我们构建了数据分类工具来检测数据存储、日志和源代码中的个人和敏感数据。一起来看下我们的数据分类工具架构。具体来说,我们将深入研究 Inspekt 的技术组件,即数据存储和日志数据分类系统,以及 Angmar -- Github 企业版上的代码库的密钥检测和防护系统。
欢迎在评论区写下你对这篇文章的看法。