一、数据保护的重要性
01数据泄漏事件频发
近年来,全球范围内的数据泄漏事件频繁发生,给企业和个人带来严重损失,凸显数据隐私保护的紧迫性。
02法律法规严格要求
各国政府纷纷加强数据安全法律法规的制定和执行,对数据保护提出了严格的要求,违反者将面临严厉的法律后果。
03公众意识提高
随着人们对个人信息安全的专注度不断提高,公众对数据隐私保护的意识也逐渐增强,要求企业和政府机构加强数据保护工作。
二、非结构化数据脱敏的定义
数据脱敏是一种保护隐私的技术手段,通过对敏感数据的变形、掩盖、替换等方式,确保数据在使用过程中不会泄露隐私信息。在企业进行非结构化数据全生命周期管理的过程中,对非结构化数据进行检测、识别,识别敏感信息后,通过对敏感信息分类、遮蔽以及访问控制等手段,并遵守相关法律法规和标准,实现对非结构化敏感数据的加密、脱敏,保障隐私安全。
三、非结构化数据脱敏技术架构
通过系统内置机器学习引擎,使用目标检测技术、目标分类技术及自然语义识别技术,对非结构化数据进行分析,建立学习样本,实现敏感数据标签的动态学习,解决使用人工梳理分类繁冗效率低下的问题。
四、非结构化数据脱敏类型
01 视频、图片数据脱敏
军事禁区、军事设施脱敏:服务于军事目的的各种军事设施、军事禁区、军事管理区等数据,
军用样式数据脱敏:服务于军事目的的军用样式设备、军人等数据
民用重要设施信息脱敏:道路、桥梁、背景的重要属性数据,例如桥梁限高、限宽、限重等
公共安全和民用设施信息脱敏:涉及国家经济命脉、对人民生产生活有重大影响的民用设施、与公共安全相关指引及场所,例如:水库,发电厂、高压电等
个人隐私数据脱敏:人脸信息脱敏,个人生物特征数据属于敏感信息;
车辆信息数据脱敏:车辆信息结合GPS坐标和时间信息之后,会变成敏感的轨迹信息,例如:车牌信息,位置信息,时间信息等
视频焦点追踪:对于视频中非关注区域进行脱敏处理,保证局部数据清晰的同时,对非关注区域进行有效保护。
敏感区域屏蔽:对于视频中涉及重要设备、仪器仪表、关键性指标的区域进行模糊屏蔽。
02文档表格数据脱敏
文本格式分析:支持多种文件格式识别,包括各种办公文档、纯文本、图片中的文本、视频中的文本等
OCR图像字符识别:检测文本中敏感信息,预设敏感信息检测模板,包括个人信息、GDPR合规、源代码、项目等
表格分析:提取视频图片中的表格数据,对表格和对应文本进行分析处理;
表单结构化:通过对表格线和文本识别,构建出结构化数据,例如,excel格式,用于通过匹配脱敏数据实现脱敏。
03水印脱敏标记与溯源
明文水印
脱敏标记:支持非结构化数据静态水印策略,静态水印可以设置为固定内容,如已脱敏,用于脱敏标记;
水印溯源:支持非结构化数据动态水印策略,动态水印可以设置为用户名+实时时间组合确保文件流转的溯源。
盲水印添加与提取
隐藏式的水印是以数字数据的方式加入音频、图片或影片中,但在一般的状况下无法被看见。隐藏式水印的保护数据不被篡改。
五、非结构化数据脱敏样式
马赛克填充:马赛克填充适用于局部敏感数据的场景,如桥梁限高、限宽等
局部遮挡:局部遮挡适用于局部高敏感区域数据处理的场景,如人脸信息、车牌信息等
图像删除:图像删除适用于高敏感区域的场景如军事设施、军事目标等
内容替换:内容替换适用于文本、表单内容识别后,对于敏感词汇进行处理的场景