当前位置:首页 >> 免费论文 >> 其他论文
浅谈电子数据质量问题及解决方法[3]
作者: 李斐 审计署 发布时间:2010-01-26 点击数:7252  正文:【 放大 】【 缩小
简介:  随着社会信息化程度的提高,许多的单位和组织都建立了与之相适应的计算机信息系统,并且系统功能不断完善,存储了大量电子数据。由于被审计单位软硬件平台的异构性以及人为隐瞒信息等原因,造成审计部门与被审计单位之间的信息不对称,审计人员所获取的电子数据存在不同程度的 ...

  (2)使用一个固定的值填充缺失值:所有空缺的值用一个常量代替。这种方法虽然简单,但只适合缺失值不多的情况。

  (3)使用属性的平均值填充缺失值:对同一个属性的所有缺失值都用该属性的平均值代替,使替代值更接近缺失值,以降低误差。

  (4)使用推导值代替缺失值:若某属性的取值只有少量几种,就可以计算这几种属性值在该属性中所占的比例,并对该属性中的缺失值同比例随机赋值。这种方法较适合缺失属性为逻辑型的情况。

  (5)使用最可能的值代替缺失值:可以利用回归分析、决策树或贝叶斯形式化推导方法等建立一个预测模型,然后按照这个模型的预测值填充缺失值。这种方法相对比较复杂,但却最大程度地利用了现存数据所包含的信息来预测空缺值,具有很好的效果。

  4.属性异常通常在数据的迁移过程中不易被发现,往往是审计人员在对电子数据进行分析时取值失真才意识到问题的存在,有些是该属性字段下的所有数据格式都发生变化,有些是部分数据格式异常,对于这两种情况都可以将该属性字段下的所有数值格式全部选取进行格式转换,避免寻找个别数据元进行操作的复杂性。

  5.对于冗余记录的处理,一般要经过以下两个步骤: (1) 通过实例匹配找出表示现实世界同一实体的相似记录。(2) 将相似的记录合并到包含所有相关属性并没有冗余属性的记录中。对于同一实体中冗余属性的处理,可以通过属性间的相关分析来删除冗余属性。最常用的相关分析方法是计算属性间的相关系数。如果属性A和属性B的相关系数大于设定的阈值,则表明A和B具有较强的相关性,A(或B)可以作为冗余而去掉。同时还可以运用技术手段删除冗余属性,如运用判定树归纳方法选择属性子集,由源数据构造判定树,不出现在树中的所有属性被认为是冗余的,出现在树中的所有属性形成归约后的属性子集。

  6.所谓数据值异常,就是远离或者超出某列分布规律的数据,主要表现为孤立点的存在,所以对于数据值异常处理的主要任务就是检测出孤立点。由于孤立点可能是数据质量问题导致的,但也可能反映了事物背后某种异常现象的发展变化,在面向数据的计算机审计中,孤立点可能预示着某种审计线索。所以在检测出孤立点后必须再由人工判断检测出的孤立点是否为事实上的孤立点。若为事实上的孤立点,则可将孤立点视为干扰数据而丢弃,或者运用数据平滑技术按数据分布特征修正源数据。对于孤立点的检测,若数据量较小,可以人工进行检测,但当数据量很大时,就需要运用计算机技术和统计学相关原理进行检测,例如使用Benford法则对企业的大量费用支出情况进行检测发现的孤立点。

  7.数据模式冲突、数据语义冲突以等问题,在分析时常常涉及到对各数据源中的原始表及其有关属性进行模式重构工作,审计人员可以利用AO现场审计实施系统的强大分析功能,对被审计单位的电子数据的某些属性进行分解、合并、展开等工作,以达到各个数据文件形成一致集成模式的目的

Total:3123

责任编辑:

参与评论

验证码: 看不清楚么?点我刷新认证码 用户名