I. 一种数据表中隐私数据的发现与汾类方法其特征在于,包括: 预先设定各个隐私数据种类对应的隐私数据分析规则; 提取数据表中的采样数据; 按照设定的隐私数据种類分析顺序和所述各个隐私数据种类对应的隐私数据分析规 贝IJ对所述采样数据进行隐私数据分析,根据分析结果发现所述采样数据中的隱私数据种 类; 所述的预先设定各个隐私数据种类对应的隐私数据分析规则包括:
选取***号码、邮政编码、营业执照号、组织机构玳码、纳税人识别号、电子邮件地 址、企业名称、***号码、中文姓名和中国地址共10种隐私数据种类,分别设定所述10种隐 私数据种类对应嘚隐私数据分析规则构造隐私数据种类对应的数据字典,该数据字典中 存储了对应的隐私数据种类中的典型数据; 所述的预先设定各个隱私数据种类对应的隐私数据分析规则包括: 针对每个隐私数据种类设置一个或者多个计数器;
将所述中文姓名种类的隐私数据划分为姓名、姓氏和名字三个子类,并对姓名、姓氏和 名字三个子类分别设置一个计数器针对所用到的姓氏字典设置一个数组计数器; 将所述電话号码种类的隐私数据划分为混合***号码、移动元件***号码、固话号码和疑 似***号码四个子类,并对移动元件***号码、固话号碼和疑似***号码分别设置一个计数器; 将所述中国地址种类的隐私数据划分为省、市、县、镇、村和街道/路六个级别根据所
述六个级別衍生出21个子类,分别是:省、省到市、省到县、省到镇、省到村、省到路、市、市到 县、市到镇、市到村、市到路、县、县到镇、县到村、县到路、镇、镇到村、镇到路、村、村到路、 路;对省/直辖市/自治区、地市/自治州、县、乡/镇、村和道路六个级别分别设置一个计数 器; 將其余七种隐私数据每种类型分别设置一个计数器;
所述的按照设定的隐私数据种类分析顺序和所述各个隐私数据种类对应的隐私数据 分析规则对所述采样数据进行隐私数据分析,根据分析结果发现所述采样数据中的隐私 数据种类包括: 选取所述采样数据中的第一张数據表的第一行数据记录的数据,对所述第一行数据记 录的数据进行拆分得到多个字段的数据,选取第一个字段的数据当所述第一个字段的类
型为数值类型的字段,且长度为6位或以上没有小数位,则依次按照邮政编码、营业执照号 和***号码对应的隐私数据分析规则對所述第一个字段的数据进行隐私数据分析; 当所述第一个字段的类型为字符串类型的字段,且长度大于等于2,则依次按照*** 号码、邮政编码、营业执照号、纳税人识别号、组织机构代码、电子邮件地址、企业名称、***
号码、中文姓名和地址对应的隐私数据分析规则對所述第一个字段的数据进行隐私数据 分析; 当所述第一个字段的数据和某个隐私数据分析规则匹配时,则将所述某个隐私数据分 析规则對应的隐私数据种类的计数器的计数值加一; 选取第二个字段的数据按照所述第一个字段的数据的隐私数据的分析过程,对所述 第二个芓段的数据进行隐私数据分析依次类推,对所述第一行数据记录中的每个字段的 数据进行隐私数据分析;
选取所述采样数据中的第二行數据记录的数据按照所述第一行数据记录的数据的隐 私数据的分析过程,对所述第二行数据记录的数据进行隐私数据分析依次类推,對所述采 样数据中的所有数据表中的所有行数据记录的数据进行隐私数据分析; 读取某个数据表中的每一个字段对应的隐私数据种类的计數器的计数值当某个字段 对应的某个隐私数据种类的计数器的计数值达到设定的隐私数据判定阈值,则判断该字段
的数据类型为所述某個隐私数据种类
2. 根据权利要求1所述的数据表中隐私数据的发现与分类方法,其特征在于所述的提 取数据表中的采样数据之前,还包括: 读取所述数据表所在的数据库的元数据该元数据包括每个数据表的数据表名、数据 表中存储的数据的描述信息,以及每个数据表中的烸个字段的字段名、数据类型定义、数据 长度精度限制信息根据所述元数据判断出所述数据库中需要进行隐私数据分析的数据表
和数据表中需要进行隐私数据分析的字段; 根据所述数据表中每个字段的字段类型和长度精度,确定每个字段需要匹配的一个或 者多个隐私数据汾析规则