苏州市网站建设_网站建设公司_改版升级_seo优化
2025/12/17 16:16:50 网站建设 项目流程

第6章 数据工程
一、数据采集和预处理
1、数据采集
采集的数据类型:结构化数据(关系型数据库表管理的数据)、半结构化数据(非关系模型的、有固定模式,日志文件、XML文档、E-mail)、非结构化数据(没有固定模式的数据,办公文档、文本、图片、HTML、各类报表、图像、视频和音频信息等)
采集的方法:传感器采集、系统日志采集、网络采集、其他数据采集
2、数据预处理(采用数据清洗的方法来实现)
去除重复记录,发现并纠正数据错误,并将数据转换成符合标准的过程,使数据实现准确性、完整性、一致性、唯一性、适时性、有效性
数据预处理主要包括:
数据分析:从数据中发现控制数据的一般规则,定义数据清理的规则
数据检测:根据数据清理的规则,检测数据是否正确
数据修正:手工或自动修改检测到的错误数据或重复记录
进行预处理的数据包括:数据缺失、数据异常、数据不一致、数据重复、数据格式不符
方法:
(1)缺失数据的预处理:环境或人为因素
删除缺失值、均值填补法、热卡填补法(相似对象的值进行填充)、其他方法
(2)异常数据的预处理:
分箱法:通过考察数据的“近邻”来平滑处理有序的数据值,宽度越大,处理的效果越好
回归法:一个函数拟合数据来光滑数据,消除噪声
(3)不一致数据的预处理
逻辑错误或数据类型不一致,可以人工修改,也可以借助工具找到违反限制的数据,大部分的不一致情况都需要进行数据变换
(4)重复数据的预处理
Excel、VBA(Visual Basic宏语言)、Python等工具处理
(5)格式不符的数据预处理
将不同类型的数据内容清洗成统一类型的文件和统一格式,TXT、CSV、Excel、HTML
二、数据存储与管理
1、数据存储
存储介质:根据不同的环境选择合适的介质
文件存储:文件级或基于文件的存储,组织与存储数据分层存储的方法
块存储:块级存储,数据存储成块,块作为单独的部分存储,每个部分都有唯一标识,快速、高效
对象存储:处理大量非结构化的数据
2、存储管理
资源调度管理:添加、删除、修改存储节点的信息
存储资源管理:一类应用程序,监控存储系统的状况,可用性、性能以及配置情况,患有容量、配置管理、事件报警等
负载均衡管理:避免存储资源由于资源类型,服务器访问频率和时间不均衡造成浪费或形成系统瓶颈而平衡负载的技术
安全管理:防止恶意用户攻击系统或窃取数据,攻击有两类:一类是扰乱服务器正常工作为目的,另一类是入侵或破坏服务器为目的
3、数据归档
可逆的,归档策略需要业务策略和分区策略保持一致,在业务低峰期执行,数据归档后,会删除生产数据库的数据,造成数据空洞,若数据归档影响了上线业务,要及时止损
4、数据备份
(1)DAS备份:将备份设备直接连接到备份服务器上,适合数据量不大,操作类型单一,服务器数量有限
(2)基于LAN的备份:C/S模型,服务器或客户端通过局域网共享备份系统,小型的网络环境中较为常见,
优点:通过LAN共享备份
缺点:占用网络资源
(3)LAN-FREE备份:备份数据流(SAN进行传输)和业务数据流分开(通过业务网络进行传输)
缺点:备份数据流要经过应用服务器,会影响服务器提供正常服务
(4)SERVER-FREE备份:不依赖服务器,第三方代理直接将数据从应用服务器的存储设备传送到备份设备上
备份策略:
完全备份(全备份),会占用较多的服务器网络资源,对备份介质资源的消耗也大
差分备份:相对上一次完全备份之后发生变化的数据,时间短,节省了存储空间,数据恢复方便,只需两份备份数据
增量备份:相对上一次备份之后发生变化的数据,没有重复备份数据,缩短了备份时间,数据恢复时比较复杂,有一个增量备份数据出现问题,后面的数据也就无法恢复,最差的备份

5、数据容灾
数据备份是数据容灾的基础
两个指标:RPO、RTO
RPO(恢复点目标):当灾难发生时允许丢失的数据量
PTO(恢复时间目标):系统恢复的时间
关键技术:远程镜像技术、快照技术
远程镜像技术:远程复制技术,按照主从镜像的位置分为本地镜像和远程镜像
快照技术:数据集合的一个完全可用复制,该复制是相应数据在某个时间点(复制开始的时间点)的映像
三、数据治理和建模
1、数据治理:开展数据价值化活动的基础
(1)元数据:数据的数据
(2)数据标准化:元数据标准化、数据元标准化、数据模式标准化、数据分类与编码标准化
过程:确定数据需求、制定数据标准、批准数据标准、实施数据标准
2、数据质量
完整性、规范性、一致性、准确性、唯一性、及时性
是数据产品满足指标、状态和要求能力的特征总和
(1)数据质量描述:数据质量定量元素、数据质量非定量元素
(2)数据质量的评价方法:
直接评价法:将数据与内部或外部的参照信息进行对比
间接评价法:利用数据相关信息推断或评估数据质量
(3)数据质量控制:
前期控制:数据录入前、录入过程中
后期控制:录入完成后
3、数据模型
概念模型:信息模型,不依赖计算机系统和不对应某个具体的DBMS
逻辑模型:确定模型的数据结构,层次模型、网状模型、关系模型、面向对象模型、对象关系模型
物理模型:数据库体系结构设计,真正实现数据在数据库中的存放
4、数据建模
数据需求分析(数据建模的起点)、概念模型设计(确定实体和数据及其关联)、逻辑模型设计(将实体、属性这些转换为关系模型中的关系模式)、物理模型设计(对具体的DBMS进行物理模型设计,使数据模型走向数据存储应用环节)
三、数据仓库和数据资产
1、数据仓库:面向主题的、集成的、包含汇总和明细的、随时间变化的、稳定的历史数据集合
由数据源、数据存储与管理、OLAP服务器、前端工具组成

2、主题库
主题库建设是数据仓库的一部分,
体系结构:
数据源层:各种管理表和各类数据表
构件层:基础构件和组合构件
主题库层:形成具体统一访问接口的主题库
3、数据资产管理
数据资源化和数据资产化
数据资源化:将原始数据转变为数据资源,数据治理为工作重点
数据资产化:将数据资源转变为数据资产
在数据资产化后,将关注数据资产的流通,数据资产的运营、数据价值评估
数据资产流通:通过数据共享、数据开放、数据交易等流通模式,推动数据资产在组织内部的价值实现
数据价值评估:数据资产管理的关键环节,是数据资产化的价值基线
四、数据分析及应用
1、数据集成
将驻留在不同的数据源中的数据进行整合,向用户提供统一的数据视图,使用户以透明的方式访问
(1)方法:
模式集成:虚拟视图方法,最早采用的数据集成方法,也是其他数据集成方法的基础,供用户透明的访问各数据源的数据
复制集成:将数据源中的数据复制到相关的其他数据源上,可以是整个也可以是部分
混合集成:中间件,保留虚拟数据模式视图为用户所用
(2)数据访问接口
ODBC:用于数据库访问的应用程序编程接口,由应用程序接口、驱动程序管理器、驱动程序和数据源4个组件组成
JDBC:为Java程序提供标准的数据库访问类接口
OLE DB:能提供对所有类型数据的操作,离线情况下存取数据
ADO:使用简单、易于学习,常用的实现数据访问的手段之一
(3)Web Services技术
面向访问的分布式计算模型,本质:一种标准化方式实现不同服务系统之间的互调或集成,语言:WSDL,UDDI用于服务注册,SOAP:消息传递的服务
(4)数据网络技术
用于大型数据集的分布式管理与分析的体系结构

2、数据挖掘
目的:服务于决策
数据挖掘的结果:经过决策人员的许可,才能实际运用
五、数据脱敏和分类分级
1、数据密级划分:5级
L1:公开
L2:保密
L3:机密
L4:绝密
L5:私密
2、数据脱敏的方式
可恢复:加解密算法规则
不可恢复:替换算法和生成算法
3、数据脱敏的原则


4、数据分级

内存:数据会在断电后丢失所有数据
Web Service
WSDL:语言
UDDI:注册服务
SOAP:消息传递服务
数据服务:数据目录服务、数据查询以及浏览器下载服务、数据分发服务

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询