数据质量(数据质量管理)
电话:18514096078
本文目录一览:
- 1、数据质量与数据质量八个维度指标
- 2、如何提高数据质量
- 3、数据质量包括什么方面
- 4、数据质量有哪些内容?
- 5、数据的质量体现在哪里
数据质量与数据质量八个维度指标
数据质量与数据质量八个维度指标
数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策;错误的数据还不如没有数据,因为没有数据时,我们还会基于经验和基于常识的判断来做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此数据质量是企业经营管理数据治理的关键所在。
数据的质量可以从八个方面进行衡量,每个维度都从一个侧面来反映数据的品相。八个维度分别是:准确性、真实性、完整性、全面性、及时性、即时性、精确性和关联性。
我们在比较两个数据集的品相的时候往往采用这种图形表示。比如说,常规来讲内部数据采集的准确性、真实性、完整性高,而全面性、及时性、即时性、精确性和关联性方面取决于企业内部对数据的重视程度以及采用的技术手段的先进性有关;外部数据集,比如说微博数据、互联网媒体数据等,其全面性、及时性和即时性都可以通过技术手段,如网络爬虫等得到提高,但在准确性、真实性、精确性上难以保证,也难以控制,在关联性方面取决于数据采集和挖掘的相关技术。
我们也可以用这个模型来衡量公司内部各个职能部门数据的品相。下图是个示意,通过数据质量8大指标的评价,我们可以对企业内部数据治理有针对性地采取措施去提高企业的数据质量。
数据的准确性
数据的准确性(Accuracy)是指数据采集值或者观测值和真实值之间的接近程度,也叫做误差值,误差越大,准确度越低。数据的准确性由数据的采集方法决定的。
数据的精确性
数据的精确性(Precision)是指对同一对象的观测数据在重复测量时所得到不同数据间的接近程度。精确性,也可以叫精准性。精确性与我们数据采集的精度有关系。精度高,要求数据采集的粒度越细,误差的容忍程度越低。
测量人的身高,我们可以精确到厘米,多次测量差异只会在厘米级别;测量北京到上海的距离,我们精确到公里,多次测量结果间的差异会在公里级别;采用游标卡尺测量一个零件的厚度,可以精确到1/50毫米,多次测量的结果间的误差也只会在1/50毫米间。采用的测量方法和手段直接影响着数据的精确性。
数据的真实性
数据的真实性,也叫数据的正确性(Rightness)。数据的正确性取决于数据采集过程的可控程度,可控程度高,可追溯情况好,数据的真实性容易得到保障,而可控程度低或者无法追溯,数据造假后无法追溯,则真实性难以保证。
为了提高数据的真实性,采用无人进行过程干涉的智能终端直接采集数据,能够更好地保证所采集数据的真实性,减少人为干预,减少数据造假,从而让数据更加正确地反应客观事物。
数据的及时性
数据的及时性(In-time)就是数据能否在需要的时候得到保证。我们月初会对上个月的经营和管理数据进行统计汇总,这些数据能否及时处理完成,财务能否在月度关账后及时核算。数据的及时性是我们数据分析和挖掘及时性的保障。如果公司的财务核算复杂,核算速度缓慢,上个月的数据在月中才能统计汇总完成,等需要调整财务策略的时候,已经到了月底了,一个月已经快过完了。特别是公司做大了之后,业务覆盖多个市场、多个国家,数据不能及时汇总,会影响到高层决策的及时程度。
数据的及时性与企业数据处理的速度和效率有直接的关系,为了提高数据的及时性,越来越多的公司采用管理信息系统,并在管理信息系统中附加各种自动数据处理功能,能够在数据上传系统之后自动完成绝大部分报表,从而保证数据处理的效率。计算机自动处理中间层数据是提高企业数据处理效率的有效手段。
除了保证数据采集的及时性和数据处理的效率问题外,还需要从制度和流程上保证数据传输的及时性。数据报表完成了,要及时或者在要求的时间范围内发送到指定的部门,或者上传到指定的存储空间。
数据的即时性
数据的即时性是指数据采集时间节点和数据传输的时间节点,一个数据在数据源头采集后立即存储,并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据即时性就稍差。
微博的数据采集,当用户发布了微博,数据立即能够被抓取和加工,会生成即时微博数据报告,并随着时间推移,数据不断变化,我们可以称作是即时采集和处理的。一个生产设备的仪表即时反应着设备的温度、电压、电流、气压等数据,这些数据生成数据流,随时监控设备的运行状况,这个数据可以看作是即时数据。而当设备的即时运行数据存储下来,用来分析设备运行状况与设备寿命的关系,这些数据就成为历史数据。
数据的完整性
数据的完整性是从数据采集到的程度来衡量的,是应采集和实际采集到数据之间的比例。一条信息采集12个数据点,如我们采集员工信息数据的时候,要求填写姓名、出生日期、性别、民族、籍贯、身高、血型、婚姻状况、最高学历、最高学历专业、最高学历毕业院校、最高学历毕业时间等12项信息,而某一员工仅仅填写了部分信息,如只填写了其中的5项,则该员工所填写数据的完整性只有一半。
一个公司数据的完整性体现着这个公司对数据的重视程度。要求采集数据而实际上并未完整采集,只采集了一部分,这就是不完整的,往往是公司对数据采集质量要求不到位导致的。公司要求每个人都填写完整的个人信息表,而有部分员工拒绝填写,公司2000员工,只有1200人填写了完整的个人信息表,则这个数据集就是不完整的。
另外,对于动态数据,我们可以从时间轴上去衡量数据采集的完整性。比如,我们要求每小时采集一次数据,每天会形成24个数据点,记录为24条数据,但是员工渎职,只记录了20次,那么这个数据集也是不完整的。
数据的全面性
数据的全面性和完整性不同,完整性衡量的是应采集和实际采集的差异。而全面性指的是数据采集点的遗漏情况。比如说,我们要采集员工行为数据,我们只采集了员工上班打卡和下班打卡的数据,上班时间的员工行为数据并未采集,或者没有找到合适的方法来采集。那么,这个数据集就是不全面的。
我们描述一个产品的包装,仅仅描述了产品包装的正面和背面,没有记录产品包装的侧面,则就是不全面的。我们记录一个客户的交易数据,我们只采集了客户订单中的产品、订单中产品的价格和数量,而没有采集客户送货地址、采购时间,这个数据采集就是不全面的。
腾讯QQ和微信的用户数据记录了客户交流沟通的数据;阿里和京东的用户数据记录了用户的购买交易数据;百度地图记录了用户出行的数据;大众点评和美团记录了客户餐饮娱乐的数据。对于全面描述一个人的生活的衣食住行各方面,这些公司的数据都是不全面的,而如果把他们的数据整合起来,则会形成更加全面的数据。所以说,数据的全面性说一个相对的概念。过度追求数据的全面性说不现实的。
数据的关联性
数据的关联性是指各个数据集之间的关联关系。比如员工工资数据和员工绩效考核数据是通过员工这个资源关联在一起来的,而且绩效数据直接关系到工资的多少。采购订单数据与生产订单数据之间通过物料的追溯机制进行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信息数据关联起来。
其实,我们本书探讨的企业大数据,每个数据集都是相关关联的,有些是直接关联的,比如员工工资数据和员工绩效数据,有些是间接关联的,比如说物料采购订单数据与员工工资数据。这些数据的关联关系是由公司的资源,包括人、财、物和信息等,连接起来的。如果有任何的数据集不能连接到其他的数据集,就会存在数据割裂或者数据孤岛。数据割裂和数据孤岛是企业数据关联性不足导致的。而数据的关联性直接影响到企业数据集的价值。
如何提高数据质量
如何提高数据质量
大数据时代带来了海量、多样、非结构化的数据,我们得以进行更加广泛且深入的分析,但这必须建立在高质量的数据上才有意义。本期以企业级的视角,介绍数据质量的评价、提升与监控。
大数据的时代,数据资产及其价值利用能力逐渐成为构成企业核心竞争力的关键要素;然而,大数据应用必须建立在质量可靠的数据之上才有意义,建立在低质量甚至错误数据之上的应用有可能与其初心南辕北辙背道而驰。因此,数据质量正是企业应用数据的瓶颈,高质量的数据可以决定数据应用的上限,而低质量的数据则必然拉低数据应用的下限。
数据质量一般指数据能够真实、完整反映经营管理实际情况的程度,通常可在以下几个方面衡量和评价:
准确性:数据在系统中的值与真实值相比的符合情况,数据应符合业务规则和统计口径。常见数据准确性问题如:
与实际情况不符:数据来源存在错误,难以通过规范进行判断与约束;
与业务规范不符:在数据的采集、使用、管理、维护过程中,业务规范缺乏或执行不力,导致数据缺乏准确性。
完整性:数据的完备程度。常见数据完整性问题如:
系统已设定字段,但在实际业务操作中并未完整采集该字段数据,导致数据缺失或不完整;
系统未设定字段:存在数据需求,但未在系统中设定对应的取数字段。
一致性:系统内外部数据源之间的数据一致程度,数据是否遵循了统一的规范,数据集合是否保持了统一的格式。常见一致性问题如:
缺乏系统联动或联动出错:系统间应该相同的数据却不一致,缺乏必要的联动和核对。
及时性:数据在采集、传送、处理等环节快速支持应用的程度,考察数据的时间特性对应用的满足程度。及时性关系到系统能否在规定的时间内获取到系统需要的特定时间产生的数据,以完成系统功能。常见及时性问题如:
缺乏时效性:未按照规定的数据更新时间要求对数据进行更新。
可用性:用来衡量数据项整合和应用的可用程度。常见可用性问题如:
缺乏应用功能,没有相关的数据处理、加工规则或数据模型的应用功能,获取目标数据;
缺乏整合共享,数据分散,不易有效整合和共享。
其他衡量标准再如有效性可考虑对数据格式、类型、标准的遵从程度,合理性可考虑数据符合逻辑约束的程度。此前一项对某企业数据质量问题进行的调研显示常见数据质量问题中准确性问题占33%,完整性问题占28%,可用性问题占24%,一致性问题占8%,在一定程度上代表了国内企业面临的数据问题。
提高数据质量的首要任务是定义一套标准化的数据规范,对具体数据项的定义、口径、格式、取值、单位等进行规范说明,形成对该数据项的具体质量要求。依托这套规范作为衡量和提高数据质量的标尺,可在数据采集、加工和应用的各环节对关键数据项进行预防性或监测性的核检。广义的企业级数据字典可以作为数据标准化规范的载体,对企业运营过程中涉及的数据项名称、业务定义和规则等要素进行收录、规范和编制,对数据项描述信息进行标准化处理,统一定义对安全性和数据质量的要求,进而为业务运营提供可靠的数据服务、提高整体数据质量奠定基础。理想情况下广义的企业级数据字典是完备的,企业各系统全部数据项都被数据字典收录,不存在同名不同义或同义不同名的情况。与此相对,狭义的数据字典通常是针对单一系统的技术属性标准,为单一系统的开发和应用服务。
企业级数据字典通常分为三层:数据项、值域和域取值。数据项层面的规范主要包括名称、业务规则定义、数据安全要求和数据质量要求等。
数据项名称:包括数据项的中文名称、英文名称和英文简称,含义不同的数据项名称不同,物理数据库应沿用数据字典定义的全局唯一的英文简称对字段命名
业务规则定义:包括数据的业务含义、转换规则、加工规则等安全元数据:包含数据来源、所有者和访问权限等安全要求的定义
数据质量要求:在数据规范定义基础之上,提出满足业务需要的数据长度、格式、取值、数据处理、勾稽关系等要求,以此作为数据质量管理的落脚点
值域可细分为代码域、编码域、文本域、金额域、数值域、时间域等。例如“出生地”数据项对应值域为“行政区划”代码域,引用国家标准GB-T2260-2016《中华人民共和国行政区划代码》,对应的域取值为该国标定义的代码表。再如“借记卡号”数据项对应值域为“19位卡号”编码域,定义16位卡号和19位卡号两种编码方式,不需列举对应具体的域取值。
数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等一系列管理活动,提高数据质量以满足业务要求。数据质量管理工作遵循业务引领的原则,确定重点质量管控范围,并动态调整阶段性管控重点,持续优化。可按照“谁创建、谁负责;谁加工、谁负责;谁提供、谁负责”的原则界定数据质量管理责任,由数据流转环节的各责任方对管辖范围内的数据质量负责。对数据质量规则优先采取系统程序的自动化控制措施,并尽可能前移管控点,从源头上控制数据质量。
数据质量监控点通常针对关键数据项设置实施,定义数据质量监控规则,生成监控报警,按严重性等级分级报告,由相应层级进行处理和响应。关键数据项根据经验判断,一般影响较广如涉及多业务条线,或应用于关键业务环节如合约签订、会计核算、绩效分析、产品定价、资金收付等,或应用于内部经营管理、对外信息披露和行业监管要求,例如财务报告数据和新资本协议实施中明确提出的重要指标项。
数据质量监控点的控制手段分为预防型和监测型:
预防性控制防止错误数据的产生,一般部署在数据采集点,用于控制手工输入的源数据,以及批量导入的源数据校验:
数据输入校验:例如贷款利率的输入校验;
数据阈值:例如数据非空,数据取值超出值域定义合理范围,数据格式不符合标准等;
质量控制方式:系统自动校验/双人手工复核;
系统校验方式:强制,如不符合规则无法通过。
监测型控制监测错误数据,发现数据质量问题进行报警。一般部署在数据加工和应用环节,验证数据完整性、一致性和准确性等:
数据输出校验:例如贷款余额总分核对
数据一致性:例如交易头寸与总帐系统记录的交易头寸一致
质量控制方式:系统自动校验
系统校验方式:非强制,错误及差异提示
对选定的关键数据项,需定义数据质量规则以及数据质量等级。数据质量等级可利用“阈值”和“容忍度”进行分级:
良好:数据项质量评分高于“阈值”
可容忍:数据项质量评分低于“阈值”,但高于“容忍度”
报警:数据项质量评分低于“容忍度”
严重报警:数据项的质量问题将带来非常严重的影响,人工经验判断
关键数据项监控点的详细信息应在企业级数据字典中维护更新,与其开发、实施和测试情况保持同步。
在进行数据质量分等级报告及响应纠错时应遵守如下原则:
及时性。对导致数据质量等级进入“可容忍”、“报警”和“严重报警”状态的数据质量事件能够及时发现、报告和处理;
规范性:针对分级别的数据质量问题,汇报至利益相关方,配置相应资源;
高效性:数据质量问题,在分级别规定时间内被解决。应按照“可容忍”、“报警”和“严重报警”酌情规定响应时间;
有序性。在开展数据质量分等级报告工作时,应有序上报、统一领导、分级负责。
部署在UDP层面的数据质量监控程序实时或定期监测关键数据项的质量,对其数据质量进行评分,通过比较该监控点的“阈值”和“容忍度”,将数据质量进行分级,对于非“良好”的评价结果,数据质量监控程序将发送报警消息通知数据质量管理人员。报警消息内容包括问题定位头文件和具体描述。数据质量管理人员根据报警信息调查问题数据项,验证报警内容,生成预警信息通知下游用户,同时填制纠错工单通知相关责任人员。相关责任人员依据纠错通知提示的具体内容,开展数据质量问题调查,提出数据质量改进需求和解决方案,由实施运维团队在数据应用层面修正,或在数据采集和集成层面修正。若纠错告警问题由数据质量要求过于严苛或控制规则错误引起,应修改关键数据项清单及其相关监控规则,并由实施运维团队修改或取消已部署的对应监控点。
数据质量包括什么方面
数据质量包括数据质量控制和数据治理。
数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项目,业务部门与 IT 部门的相关人员将各自具有明确角色和责任,配备正确的技术和工具,以应对数据质量控制的挑战。
扩展资料:
控制方法:
1、探查数据内容、结构和异常
第一步是探查数据以发现和评估数据的内容、结构和异常。通过探查,可以识别数据的优势和弱势,帮助企业确定项目计划。一个关键目标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。
2、建立数据质量度量并明确目标
Informatica的数据质量解决方案为业务人员和IT人员提供了一个共同的平台建立和完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送URL来与相关人员随时进行共享。
3、设计和实施数据质量业务规则
明确企业的数据质量规则,即,可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和IT部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。
4、将数据质量规则构建到数据集成过程中
Informatica Data Quality支持普遍深入的数据质量控制,使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、在一个基于服务的架构中作为一项服务来执行业务规则。
数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。
5、检查异常并完善规则
在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可避免,仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。Informatica Data Quality可捕获和突显数据质量异常和异常值,以便更进一步的探查和分析。
5、对照目标,监测数据质量
数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。
Informatica Data Quality包括一个记分卡工具,而仪表板和报告选项则具备更为广泛的功能,可进行动态报告以及以更具可视化的方式呈现。
参考资料来源:百度百科——数据质量
数据质量有哪些内容?
数据质量包括:准确性,即一个记录值与它的真实值之间的接近程度;精度,即对现象描述的详细程度;空间分辨率,即两个可测量数值之间最小的可辨识的差异;比例尺,即地图上一个记录的距离和它所表现的真实距离之间的一个比值;误差,即一个所记录的测量和它的事实之间的差异;不确定性,包括空间位置的不确定性、属性不确定性和数据不完整性等。法律依据《建设工程质量管理条例》。
数据的质量体现在哪里
数据质量主要包括:统计数据的内容质量、表述质量、约束标准三大方面。
统计数据的内容质量是统计数据最基本的特征,它包括相关性、准确性与及时性。一旦缺少了其中任何一个,统计数据就失去了转化为信息的性质和基本作用。因此,这三个特征也可称为统计数据质量的主要特征。
数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。



电话:18514096078
蒙ICP备2023003510号-2