av 女同 数据处置圭臬方法(文档)

发布日期:2024-10-23 09:33    点击次数:56

av 女同 数据处置圭臬方法(文档)

注:里面贵寓,低调使用,限时删除,仅供学习交流。柔柔咱们,星标置顶,可以过资源与福利。

文末取得原文档

1 序文

1.1

概述

免除数据圭臬方法条件,结合名堂内容情况,制定稳当名堂数据特

征及大数据期骗条件的料理及颐养体系,确保大数据的纯真可用性,稳当改日数

据扩展、海量数据增长及大数据发展的趋势,为名堂数据资源的连通、分享、交

互打好基础。本文是名堂数据模子的定名,联想和料理方法。

1.2

文档标的

 先容主题模子定名方法

 先容主题模子数据类型界说方法

少妇白洁全集

 先容主题模子布局方法

 先容主题模子顾惜及版块料理方法

1.3

适用读者

名堂的参与成员,包括名堂参与东说念主员、客户参与东说念主员、配结伴伴等但愿了解

本名堂主题模子的东说念主员可以参考本文档。

2 术语和界说

 STG:stage,数据缓冲区。

 ODS:operational data store,数据圭臬化层。

 DWD:data warehouse detail,数据仓库明细层。

 DWS:data warehouse subject,数据仓库主题层。

 ADM:analysis data market,数据专题层。

3 联想标的

3.1

业务标的

将基础数据行为一个内行就业,为用户提供内行数据就业撑持,匡助数据应

用进步取得数据的成果,裁汰数据加工的深度和复杂度;进步各个居品和期骗间

数据的一致性。主要包括以下几方面的内容:

 将业务系统数据同步参加到 ODPS,成就斡旋、一致、独一的 ODS 数据

 完结通用模子层(DWD、DWS)逻辑的加工和转念。

3.2

时候标的

在险恶业务标的的同期,在数据模子联想上,要点柔柔以下标的:

1、资本:模子联想者必须均衡性能和资自己分对数据模子的影响,尤其是

海量数据情况下,在保险业务和性能的前提下,应该使用合理的数据模子有辩论和

存储策略,尽量摒除不必要的数据复制和冗余。

2、性能:模子联想者需要兼顾模子刷新性能支拨、产出时候和探望性能。

3、数据一致性和数据互通:各个数据模子不详数据表之间保险数据输出的

一致性,相通粒度的相通数据项(见识、维度)具有相通的字段称号和业务描摹,

不同算法的业务见识应显性化区分。

4、数据质料:数据模子需要屏蔽源泉垃圾数据源,一方面要保险数据自己

的高质料,减少数据缺失、失误、很是等情况发生;另一方面需要保险其对应的

业务元数据的高质料,数据有明确的业务含义,为数据使用者提供正确的提醒。

5、易用:在保险以上标的的前提下,数据用户能从业务角度启程快速找到

所需的数据;能较快的掌持模子的适用场景和使用方法;能相对绵薄取得数据。

然而,在标的出现碎裂时,在通用数据模子并不十足承载用户使用数据的易用性

标的条件,数据耗尽居品和数据期骗可以进步数据使用的易用性。

4 联想原则

 内行处理逻辑下千里及单一:越是底层公用的处理逻辑更应该在数据调度

依赖的底层进行封装与完结,不要让内行的处理逻辑浮现给期骗层完结,

不要让内行逻辑在多处同期存在。

 数据可纪念性:处理逻辑不变,在不同时间屡次运行数据收场笃定不变。

 一致性:相通的字段在不同表字段名相通。

 定名显着可清爽:表定名方法需显着、一致,表名需易于下流清爽和使

用。

 资本与性能均衡:合乎的数据冗余换取查询和刷新性能,不宜过度冗余

与数据复制。

5 数据分层

数据分为 5 层,每层的作用如下:

DWD 层(整合数据资源库):DWD 层按业务过程和业务对象整合数据,

并把数据表按一定如东说念主口、法东说念主、办件、战术等数据域进行分类存放。

 ADM 层(期骗资源库)

:将数据按照分析的专题组织成多为宽表的神志存

放,数据主要着手于 DWD 和 DWS 层

6 模子联想方法

6.1

STG 层模子联想方法

6.1.1表定名方法

STG 层表定名方法:stg_{业务库名}_{业务库原始表名}。

6.1.2数据存储及生命周期料理方法

数据表类型

增量表

存储样式

按日分区av 女同

最长保存策略

100 天6.1.3字段集定名方法

字段默许使用源系统字段称号,字段名与 maxcompute 舛错字碎裂时处理章程:

加一个”_col”后缀,即:源字段名_col。

6.2

ODS 层模子联想方法

6.2.1 表联想方法

ODS 层数据对 STG 层数据进行数据全/增量合并以及数据清洗和圭臬化动作,

ODS 层有两类数据表:

1、保持原始神志的全量数据表,主如果用于溯源,按照业务主键对 STG 表

数据与前一天 ODS 清洗全量数据进行合并去重。

2、清洗和代码圭臬化,代码称号字段扩张后的圭臬基础数据表,圭臬化动

作:

 圭臬代码转念,按行业代码界说圭臬,对源系统代码进行转念,源系统

代码字段及圭臬代码字段均保留,不行转念成圭臬代码的代码值在圭臬

代码项内保存成未知值。

 代码值扩展,对常用代码,将代码对应的称号字段扩展到表内。

 字符神志转念,进行全半角转念,null/none/空字符串斡旋溜换为 null,

字段中部分特定字段的计帐。

时候圭臬化,扩张按 datatime 类型的时候字段。

 身份证神志圭臬化,斡旋神志化为 18 位长度的身份证。

如果部份表的转念或清洗动作较多,为能溯源,可单独保留和 STG 表一致

的原始表模子。

6.2.2 表定名方法

圭臬表:ods_{业务库简写符号}_{业务库原始表名}[_分区符号]。

原始表:ods_{单元简称}_{业务库简写符号 }_{业务库原始表名 } [_分区标

识][_ys]。针对溯源场景使用。

6.2.3 数据存储及生命周期料理方法

数据表类型

全量表

增量表

存储样式

按日分区

按日分区

最长保存策略

100/30/15 天

永远/7200 天

左证存储资本及数据价值的需要动态颐养生命周期。运转阶段保险数据的溯

源排错,使用较长的生命周期存储策略,进修阶段和融会阶段就可以使用较短的

生命周期存储策略。

6.2.4 字段集定名方法

1、字段默许使用源系统字段称号,即 stg 层字段定名。

2、有进行代码转念的字段,新增圭臬代码字段在原代码字段基础上增多 c_

前缀。

3、扩展增多的代码称号属性字段在原数据项称号的基础上加上 mc 后缀。

4、圭臬神志化后扩张的日历字段,在原字段基础上加上_dt 后缀。

6.3

DWD 层模子联想方法

6.3.1 表联想方法

(一)数据准入

政府数据着手于多个渠说念,各渠说念提供的数据中,有许多雷同性的数据存在,

举例民政局的东说念主口基本信息、社保局的东说念主口基本信息、卫计委的东说念主口基本信息等。

这些雷同的数据会带来使用资本,因为每个使用者王人需要处理两份数据,况兼对

于这两份数据处理的逻辑也会存在互异。数据整合的见识,是为了更好的成就统

一的数据视角来描摹统一个事实,方便下流数据使用。

政府数据具有丰富性的特色,如东说念主的基本信息、评释信息、社保信息、犯法

信息、健康信息;企业的注册信息、辩论信息、征税信息、变更信息、处罚信息。

这些信息王人洒落在各个部门,把这些信息汇注起来,提供斡旋的数据视图,准确

客不雅的描摹城市料理中的各个主体,亦然本层需要达到的标的。数据准入原则如下:

1) 基于 ODS 层,明确哪些数据行为主数据,哪些数据行为补凑数据,并建

立主数据与补凑数据的关系。

2) 去除关于莫得明确属性阐明的信息表。

3) 去除数据质料差,数据缺失严重,无东说念主颐养的死数据。

(二)表结构联想

按照免除事实,同期兼顾中性分享和纯真可扩展的原则,对数据进行分类合

并。

1) 成就 DWD 结构时,详尽筹商需要合并的数据表,摄取具有业务含义和业

务用途的属性,放入 DWD 中。

2) 使用代理键行为数据纪录的独一符号。

3) 纪录中保留数据着手系统和数据着手表信息,方便溯源。

(三)数据更新

1) 关于总体在千万级数据量的数据,所零碎据每天生成一个全量分区。

2) 关于大于千万级数据量的数据,逐日增量按照业务日历放入一个新的分

区。

3) 按照业务日历作念数据分区

4) 关于源泉提供的历史数据,需要左证业务日历索求所触及的分区,然后

把联系分区数据和历史数据合并,重新左证业务日历成就动态分区,覆

盖原有分区。

5) delta 表保留:关于需要平直同步到 ADM 的增量数据,在 DWD 层数据处

理中,需要联想成永远表来保留增量数据,挑升用于同步增量数据到 ADM,

减少同步资本。

6.3.2 表定名方法

dwd_{数据域}_<数据子域>[_数据描摹][_分区符号]

数据域结合行业教化如按照东说念主口、法东说念主、信用、战术、地舆空间等等辩别数

据域,将数据按所属业务类别进行模子构建,数据子域是按对象及业务过程对数

据域进行进一步细分。举例:dwd_rk_jy_xsxjxx_df

 dwd:代表数据模子头绪

 rkxx:代表东说念主口信息域

 jy: 代表 评释 子域

 xsxjxx:业务描摹,示例示意:学生学籍信息

 df:代表逐日全量分区

6.3.3 数据存储及生命周期料理方法

数据表类型

全量表

增量表

delta 表

存储样式

按日分区

按日分区

按日分区

最长保存策略

100/30/15 天

永远/7200 天

100 天

左证存储资本及数据价值的需要动态颐养生命周期。运转阶段保险数据的溯

源排错,使用较长的生命周期存储策略,进修阶段和融会阶段就可以使用较短的

生命周期存储策略。

6.3.4 字段集定名方法

字段定名摄取汉字拼音首字母定名。示举例下:姓名:xm;性别:xb,如遇

到碎裂情况时,举例杭州:hz,护照:hz,分别取碎裂字段的前两个字母,杭州:

haz,护照:huz。

6.3.5 例外处理方法

关于数据中出现的很是业务日历,举例 2086-9-28 日,会影响泛泛的分区,

需要在数据处理过程中,把这类信息调目田入到 19000101 分区中。数据质料检

查的功课需要逐日分析出现的失误数据,并需要东说念主工柔柔和审核。

6.4

DWS 层模子联想方法

6.4.1 表联想方法

DWS 层在 DWD 层的基础上进行对象的交融及汇算策划,主要包含三种类型的

数据表:

1. 全局抽象的业求实体及汇总型事实表.

DWS 全局抽象的业求实体是整合 DWD 中统统业务数据中存在的同类数据

对象信息,是统统对象实例的一个全集,变成维度实体数据的主数据信

息。如公安行业 DWS 层中东说念主的实体,需要整合户籍登记过程中产生的东说念主,

也需要整合来自于出行行为中登记的东说念主。变成一个全量的东说念主的信息。

汇总型事实表是对事实进行抽象分类,把统一分类下的千般明细事实进

行合并,提练通用的属性和见识,如东说念主的行动数据,会提练代表东说念主的证

件类型,证件号码,行动发生的时候,所在,行动性质等属性。

2. 面向主题的通用业务见识统计表。

通用业务见识表是面向主题业务策划需求,按维度或维度组合对一些度

量及见识进行统计策划,如东说念主的通迅勾通表统计两个东说念主的接洽次数,联

系时长等。

关系主题

行动主题

轨迹主题

3. 业务标签表

业务标签表是结合业务需求,按设定例则或通过算法进行策划,从千般基础

数据中归纳出一些对象或事实的滋生属性/见识。如东说念主的金钱现象,是否昼伏夜

出等。

6.4.2 表定名方法

dws_{主题域}_<主题分类>[_数据及业务描摹]_[分区符号]

表定名中包括主题域,主题分类,数据及业务描摹,分区符号等各部份的缩

略词,如

dws_jy_jyss_xxfb_df

dws:代表数据模子头绪

jy: 代表 评释 主题域

jyss:代表 评释要津 主题分类

xsxjxx:业务描摹,示例示意:学校分散

df:day_full,代表逐日全量分区

6.4.3 数据存储及生命周期料理方法

数据表类型

全量表

增量表

delta 表

存储样式

按日分区

按日分区

按日分区

最长保存策略

100/30/15 天

永远/7200 天

100 天

左证存储资本及数据价值的需要动态颐养生命周期。运转阶段保险数据的溯

源排错,使用较长的生命周期存储策略,进修阶段和融会阶段就可以使用较短的

生命周期存储策略。

6.4.4 字段集定名方法

 字段默许使用 DWD 层模子字段称号。

 字段使用 ODS 层时,字段定名摄取汉字拼音首字母定名。字段定名碎裂

时,取碎裂字段的前两个字母。

6.5

ADM 层模子联想方法

6.5.1 表联想方法

在 DWD/DWS 基础数据的上进行加工汇总变成的见识数据存储分析型和加工汇

总型数据。着手于圭臬化的各源系统的汇总、报表数据,是基础数据经过加工按

一定维度汇总的见识,或分析数据。加工汇总层的数据需求着手于期骗的一些共

同性见识,可以是一些中间数据,这些见识的存在,可以大大提高期骗系统的处

理成果。6.5.2 表定名方法

表定名章程:adm_{专题域}_[_专题分类] <期骗数据描摹 >[_自界说业务标

签]_[分区符号]。

表定名中包括专题域,期骗数据描摹及自界说业务描摹,分区符号等各部份

的缩略词,如

adm_fr_qy_qcyj_df

adm:代表数据模子头绪

fr: 代表 法东说念主 专题域

qy:代表 企业 专题分类

qcyj:业务描摹,迁出预警

df:day_full,代表逐日全量分区

6.5.3 数据存储及生命周期料理方法

数据表类型

全量表

增量表

存储样式

按日分区

按日分区

最长保存策略

100/30/15 天

永远/7200 天

左证存储资本及数据价值的需要动态颐养生命周期。运转阶段保险数据的溯

源排错,使用较长的生命周期存储策略,进修阶段和融会阶段就可以使用较短的

生命周期存储策略。

6.5.4 字段集定名方法

 字段默许使用 DWD/DWS 层模子字段称号。

 字段使用 ODS 层时,字段定名摄取汉字拼音首字母定名。字段定名碎裂

时,取碎裂字段的前两个字母。

6.6

其他通用方法

6.6.1 域定名方法

左证不同业业领域模子的定名策略,域定名可为数据域称号的中语拼音首字

母拼音或英文单词缩写。

6.6.2 数据类型方法

ODS 层的数据类型基于源系统数据类型转念,转念章程如下:

表 1 Mysql 与 Odps 数据类型映射

Mysql 数据类型

TINYINT/SMALLINT/ MEDIUMINT/ INTEGER / BIGINT

FLOAT/ DOUBLE/ DECIMAL

LONGTEXT/TEXT/VARCHAR/ CHAR

DATE/ DATETIME

ODPS 数据类型

Bigint

Double

String

String

表 2 Oracle 与 Odps 数据类型映射

Oracle 数据类型

numeric

默许使用 bigint。

VARCHAR2/VARCHAR

DATE

CLOB

String

String

String

ODPS 数据类型

ID 转念为 bigint,左证内容数据,如果是浮点数则使用 double,

表 3 Sqlserver 与 Odps 数据类型映射

sqlserver 数据类型

INT/TINYINT/SMALLINT/INTEGER / BIGINT

REAL/FLOAT / DOUBLE / DECIMAL /NUMERIC

TEXT/VARCHAR/ CHAR

SMALLDATE/ DATETIME /TIMESTAMP

ODPS 数据类型

Bigint

Double

String

String

DWD 层如果是援用 ODS 层数据,默许使用 ODS 层字段数据类型。滋生加工数据字段类型按以下圭臬执行:

 字符类数据:string

 符号类和策划乞降类:bigint/double

时候类型数据:datetime

6.6.3 内行字段

内行字段方法:

sjly 数据着手,填写着手表信息,多个以逗号分隔。

 yxzt 数据状态,默许为灵验写入“I”,删除“D”,更新“U”。

 dw_rksj 处理时候,神志为 14 位的时候 STRING 类型。

6.6.4 独一纪录符号

DWD 及 DWS 摄取独一纪录符号,ODS 不需要

 斡旋对 dwd、dws 增多“独一纪录符号”字段,使用 MD5 对业务主键创

建独一 ID。

独一纪录符号斡旋定名方法:dwd 表 dwd_zjid,dws 表 dws_zjid。

 用途:数据去重。

6.6.5 分区定名方法

 分区字段:统统头绪数据表常用时候分区为日分区,字段均定名为 dt,

神志为 yyyymmdd。

 其他时候类型分区符号如下表,时候类型神志为字符串:

分区符号

不分区

增量处理表

小时增量

小时全量

日增量

日全量

定名方法

all

delta

hi

hf

di

df

神志类型

/

yyyymmdd

yyyymmddhh

yyyymmddhh

yyyymmdd

yyyymmdd周增量

周至量

月增量

月全量

季增量

季全量

年增量

年全量

wi

wf

mi

mf

qi

qf

yi

yf

yyyymm[01-04]

yyyymm[01-04]

yyyymm

yyyymm

yyyy[01-04]

yyyy[01-04]

yyyy

yyyy

其他非时候类型的分区字段定名为 fq_[分区字段描摹],字符法例在 5

个以内。

6.6.6 时候修饰方法

中语名

最近 1 天

最近 3 天

最近 7 天

最近 14 天

最近 30 天

最近 60 天

最近 90 天

最近 180 天

180 天往日

当然周

当然月

当然季度

时候维度全称

1day

3day

1week

2week

1month

2month

3month

6month

before 6month

calendar week

calendar month

calendar

quar

ter

当然年

历史为止当日

当然年头为止当日

calendar year

start to day

year to day

_cy

_std

_ytd

当然年

历史为止当日

当然年头为止当

时候维度缩写

_1d

_3d

_1w

_2w

_1m

_2m

_3m

_6m

_b6m

_cw

_cm

_cq

描摹

最近 1 天

最近 3 天

最近 7 天

最近 14 天

最近 30 天

最近 60 天

最近 90 天

最近 180 天

180 天往日

当然周

当然月

当然季过活

当然季度初为止当

当然月初为止当日

month to day

_mtd

quarter to day

_qtd

当然季度初为止

当日

当然月初为止当

当然周初为止当日

week to day

_wtd

当然周初为止当

6.6.7 代码表

1.表定名方法 dim_{业务系统}_{业务描摹}

2.斡旋不作念分区,只保留一份永远数据

3.对下流同步使用时,删除原有的数据,保留一份最新数据

4.联想维表时,免除易用的原则,如联想有父子关系的表结构时,使用宽

表联想。

5.代码表的更新章程是全量更新,不与上一个周期的数据作念合并

6.6.8 临时表测试表定名方法

关于测试类的表斡旋在名堂下创建文献名为姓名首字母的文献夹,并不才面

创建测试文献夹,临时表定名方法如下:

1.中间表定名章程:mid_表名_账期(可选)

2.临时表定名章程:tmp_名字全拼_表名_账期(可选)

3.测试表定名章程:test_姓名全拼_表名

4.测试业务经由定名章程:test_姓名全拼_业务经由称号

5.测试节点定名章程:test_姓名全拼_节点称号

6.无须的测试表、临时表、业务经由和节点实时删除

图片

......

完好版请加入星球领取

部分贵寓仅对星球会员 盛开

扫码加入星球🪐,统统贵寓平直自便下载⏬

图片

图片

星球贵寓下载

图片

图片

图片

图片

扫码加入 大数据资源库 常识星球🪐,搜索“数据处置”、“数据方法”,统统贵寓王人可以平直自便下载⏬⏬限时优惠

常识星球已上传联系贵寓部分概览:

图片

图片

图片

图片

长按扫码加入 大数据贵寓库(矿藏库)常识星球,统统贵寓平直自便下载⏬⏬日更!

博主留言:需要什么资源、贵寓,加入社群VIP常识星球,您言语av 女同,微信ID:bat6188。IOS用户因苹果手续费问题,可私我领取10元优惠券。

本站仅提供存储就业,统统内容均由用户发布,如发现存害或侵权内容,请点击举报。