注:里面贵寓,低调使用,限时删除,仅供学习交流。柔柔咱们,星标置顶,可以过资源与福利。
文末取得原文档
1 序文
1.1
概述
免除数据圭臬方法条件,结合名堂内容情况,制定稳当名堂数据特
征及大数据期骗条件的料理及颐养体系,确保大数据的纯真可用性,稳当改日数
据扩展、海量数据增长及大数据发展的趋势,为名堂数据资源的连通、分享、交
互打好基础。本文是名堂数据模子的定名,联想和料理方法。
1.2
文档标的
先容主题模子定名方法
先容主题模子数据类型界说方法
少妇白洁全集 先容主题模子布局方法
先容主题模子顾惜及版块料理方法
1.3
适用读者
名堂的参与成员,包括名堂参与东说念主员、客户参与东说念主员、配结伴伴等但愿了解
本名堂主题模子的东说念主员可以参考本文档。
2 术语和界说
STG:stage,数据缓冲区。
ODS:operational data store,数据圭臬化层。
DWD:data warehouse detail,数据仓库明细层。
DWS:data warehouse subject,数据仓库主题层。
ADM:analysis data market,数据专题层。
3 联想标的
3.1
业务标的
将基础数据行为一个内行就业,为用户提供内行数据就业撑持,匡助数据应
用进步取得数据的成果,裁汰数据加工的深度和复杂度;进步各个居品和期骗间
数据的一致性。主要包括以下几方面的内容:
将业务系统数据同步参加到 ODPS,成就斡旋、一致、独一的 ODS 数据
层
完结通用模子层(DWD、DWS)逻辑的加工和转念。
3.2
时候标的
在险恶业务标的的同期,在数据模子联想上,要点柔柔以下标的:
1、资本:模子联想者必须均衡性能和资自己分对数据模子的影响,尤其是
海量数据情况下,在保险业务和性能的前提下,应该使用合理的数据模子有辩论和
存储策略,尽量摒除不必要的数据复制和冗余。
2、性能:模子联想者需要兼顾模子刷新性能支拨、产出时候和探望性能。
3、数据一致性和数据互通:各个数据模子不详数据表之间保险数据输出的
一致性,相通粒度的相通数据项(见识、维度)具有相通的字段称号和业务描摹,
不同算法的业务见识应显性化区分。
4、数据质料:数据模子需要屏蔽源泉垃圾数据源,一方面要保险数据自己
的高质料,减少数据缺失、失误、很是等情况发生;另一方面需要保险其对应的
业务元数据的高质料,数据有明确的业务含义,为数据使用者提供正确的提醒。
5、易用:在保险以上标的的前提下,数据用户能从业务角度启程快速找到
所需的数据;能较快的掌持模子的适用场景和使用方法;能相对绵薄取得数据。
然而,在标的出现碎裂时,在通用数据模子并不十足承载用户使用数据的易用性
标的条件,数据耗尽居品和数据期骗可以进步数据使用的易用性。
4 联想原则
内行处理逻辑下千里及单一:越是底层公用的处理逻辑更应该在数据调度
依赖的底层进行封装与完结,不要让内行的处理逻辑浮现给期骗层完结,
不要让内行逻辑在多处同期存在。
数据可纪念性:处理逻辑不变,在不同时间屡次运行数据收场笃定不变。
一致性:相通的字段在不同表字段名相通。
定名显着可清爽:表定名方法需显着、一致,表名需易于下流清爽和使
用。
资本与性能均衡:合乎的数据冗余换取查询和刷新性能,不宜过度冗余
与数据复制。
5 数据分层
数据分为 5 层,每层的作用如下:
DWD 层(整合数据资源库):DWD 层按业务过程和业务对象整合数据,
并把数据表按一定如东说念主口、法东说念主、办件、战术等数据域进行分类存放。
ADM 层(期骗资源库)
:将数据按照分析的专题组织成多为宽表的神志存
放,数据主要着手于 DWD 和 DWS 层
6 模子联想方法
6.1
STG 层模子联想方法
6.1.1表定名方法
STG 层表定名方法:stg_{业务库名}_{业务库原始表名}。
6.1.2数据存储及生命周期料理方法
数据表类型
增量表
存储样式
按日分区av 女同
最长保存策略
100 天6.1.3字段集定名方法
字段默许使用源系统字段称号,字段名与 maxcompute 舛错字碎裂时处理章程:
加一个”_col”后缀,即:源字段名_col。
6.2
ODS 层模子联想方法
6.2.1 表联想方法
ODS 层数据对 STG 层数据进行数据全/增量合并以及数据清洗和圭臬化动作,
ODS 层有两类数据表:
1、保持原始神志的全量数据表,主如果用于溯源,按照业务主键对 STG 表
数据与前一天 ODS 清洗全量数据进行合并去重。
2、清洗和代码圭臬化,代码称号字段扩张后的圭臬基础数据表,圭臬化动
作:
圭臬代码转念,按行业代码界说圭臬,对源系统代码进行转念,源系统
代码字段及圭臬代码字段均保留,不行转念成圭臬代码的代码值在圭臬
代码项内保存成未知值。
代码值扩展,对常用代码,将代码对应的称号字段扩展到表内。
字符神志转念,进行全半角转念,null/none/空字符串斡旋溜换为 null,
字段中部分特定字段的计帐。
时候圭臬化,扩张按 datatime 类型的时候字段。
身份证神志圭臬化,斡旋神志化为 18 位长度的身份证。
如果部份表的转念或清洗动作较多,为能溯源,可单独保留和 STG 表一致
的原始表模子。
6.2.2 表定名方法
圭臬表:ods_{业务库简写符号}_{业务库原始表名}[_分区符号]。
原始表:ods_{单元简称}_{业务库简写符号 }_{业务库原始表名 } [_分区标
识][_ys]。针对溯源场景使用。
6.2.3 数据存储及生命周期料理方法
数据表类型
全量表
增量表
存储样式
按日分区
按日分区
最长保存策略
100/30/15 天
永远/7200 天
左证存储资本及数据价值的需要动态颐养生命周期。运转阶段保险数据的溯
源排错,使用较长的生命周期存储策略,进修阶段和融会阶段就可以使用较短的
生命周期存储策略。
6.2.4 字段集定名方法
1、字段默许使用源系统字段称号,即 stg 层字段定名。
2、有进行代码转念的字段,新增圭臬代码字段在原代码字段基础上增多 c_
前缀。
3、扩展增多的代码称号属性字段在原数据项称号的基础上加上 mc 后缀。
4、圭臬神志化后扩张的日历字段,在原字段基础上加上_dt 后缀。
6.3
DWD 层模子联想方法
6.3.1 表联想方法
(一)数据准入
政府数据着手于多个渠说念,各渠说念提供的数据中,有许多雷同性的数据存在,
举例民政局的东说念主口基本信息、社保局的东说念主口基本信息、卫计委的东说念主口基本信息等。
这些雷同的数据会带来使用资本,因为每个使用者王人需要处理两份数据,况兼对
于这两份数据处理的逻辑也会存在互异。数据整合的见识,是为了更好的成就统
一的数据视角来描摹统一个事实,方便下流数据使用。
政府数据具有丰富性的特色,如东说念主的基本信息、评释信息、社保信息、犯法
信息、健康信息;企业的注册信息、辩论信息、征税信息、变更信息、处罚信息。
这些信息王人洒落在各个部门,把这些信息汇注起来,提供斡旋的数据视图,准确
客不雅的描摹城市料理中的各个主体,亦然本层需要达到的标的。数据准入原则如下:
1) 基于 ODS 层,明确哪些数据行为主数据,哪些数据行为补凑数据,并建
立主数据与补凑数据的关系。
2) 去除关于莫得明确属性阐明的信息表。
3) 去除数据质料差,数据缺失严重,无东说念主颐养的死数据。
(二)表结构联想
按照免除事实,同期兼顾中性分享和纯真可扩展的原则,对数据进行分类合
并。
1) 成就 DWD 结构时,详尽筹商需要合并的数据表,摄取具有业务含义和业
务用途的属性,放入 DWD 中。
2) 使用代理键行为数据纪录的独一符号。
3) 纪录中保留数据着手系统和数据着手表信息,方便溯源。
(三)数据更新
1) 关于总体在千万级数据量的数据,所零碎据每天生成一个全量分区。
2) 关于大于千万级数据量的数据,逐日增量按照业务日历放入一个新的分
区。
3) 按照业务日历作念数据分区
4) 关于源泉提供的历史数据,需要左证业务日历索求所触及的分区,然后
把联系分区数据和历史数据合并,重新左证业务日历成就动态分区,覆
盖原有分区。
5) delta 表保留:关于需要平直同步到 ADM 的增量数据,在 DWD 层数据处
理中,需要联想成永远表来保留增量数据,挑升用于同步增量数据到 ADM,
减少同步资本。
6.3.2 表定名方法
dwd_{数据域}_<数据子域>[_数据描摹][_分区符号]
数据域结合行业教化如按照东说念主口、法东说念主、信用、战术、地舆空间等等辩别数
据域,将数据按所属业务类别进行模子构建,数据子域是按对象及业务过程对数
据域进行进一步细分。举例:dwd_rk_jy_xsxjxx_df
dwd:代表数据模子头绪
rkxx:代表东说念主口信息域
jy: 代表 评释 子域
xsxjxx:业务描摹,示例示意:学生学籍信息
df:代表逐日全量分区
6.3.3 数据存储及生命周期料理方法
数据表类型
全量表
增量表
delta 表
存储样式
按日分区
按日分区
按日分区
最长保存策略
100/30/15 天
永远/7200 天
100 天
左证存储资本及数据价值的需要动态颐养生命周期。运转阶段保险数据的溯
源排错,使用较长的生命周期存储策略,进修阶段和融会阶段就可以使用较短的
生命周期存储策略。
6.3.4 字段集定名方法
字段定名摄取汉字拼音首字母定名。示举例下:姓名:xm;性别:xb,如遇
到碎裂情况时,举例杭州:hz,护照:hz,分别取碎裂字段的前两个字母,杭州:
haz,护照:huz。
6.3.5 例外处理方法
关于数据中出现的很是业务日历,举例 2086-9-28 日,会影响泛泛的分区,
需要在数据处理过程中,把这类信息调目田入到 19000101 分区中。数据质料检
查的功课需要逐日分析出现的失误数据,并需要东说念主工柔柔和审核。
6.4
DWS 层模子联想方法
6.4.1 表联想方法
DWS 层在 DWD 层的基础上进行对象的交融及汇算策划,主要包含三种类型的
数据表:
1. 全局抽象的业求实体及汇总型事实表.
DWS 全局抽象的业求实体是整合 DWD 中统统业务数据中存在的同类数据
对象信息,是统统对象实例的一个全集,变成维度实体数据的主数据信
息。如公安行业 DWS 层中东说念主的实体,需要整合户籍登记过程中产生的东说念主,
也需要整合来自于出行行为中登记的东说念主。变成一个全量的东说念主的信息。
汇总型事实表是对事实进行抽象分类,把统一分类下的千般明细事实进
行合并,提练通用的属性和见识,如东说念主的行动数据,会提练代表东说念主的证
件类型,证件号码,行动发生的时候,所在,行动性质等属性。
2. 面向主题的通用业务见识统计表。
通用业务见识表是面向主题业务策划需求,按维度或维度组合对一些度
量及见识进行统计策划,如东说念主的通迅勾通表统计两个东说念主的接洽次数,联
系时长等。
关系主题
行动主题
轨迹主题
3. 业务标签表
业务标签表是结合业务需求,按设定例则或通过算法进行策划,从千般基础
数据中归纳出一些对象或事实的滋生属性/见识。如东说念主的金钱现象,是否昼伏夜
出等。
6.4.2 表定名方法
dws_{主题域}_<主题分类>[_数据及业务描摹]_[分区符号]
表定名中包括主题域,主题分类,数据及业务描摹,分区符号等各部份的缩
略词,如
dws_jy_jyss_xxfb_df
dws:代表数据模子头绪
jy: 代表 评释 主题域
jyss:代表 评释要津 主题分类
xsxjxx:业务描摹,示例示意:学校分散
df:day_full,代表逐日全量分区
6.4.3 数据存储及生命周期料理方法
数据表类型
全量表
增量表
delta 表
存储样式
按日分区
按日分区
按日分区
最长保存策略
100/30/15 天
永远/7200 天
100 天
左证存储资本及数据价值的需要动态颐养生命周期。运转阶段保险数据的溯
源排错,使用较长的生命周期存储策略,进修阶段和融会阶段就可以使用较短的
生命周期存储策略。
6.4.4 字段集定名方法
字段默许使用 DWD 层模子字段称号。
字段使用 ODS 层时,字段定名摄取汉字拼音首字母定名。字段定名碎裂
时,取碎裂字段的前两个字母。
6.5
ADM 层模子联想方法
6.5.1 表联想方法
在 DWD/DWS 基础数据的上进行加工汇总变成的见识数据存储分析型和加工汇
总型数据。着手于圭臬化的各源系统的汇总、报表数据,是基础数据经过加工按
一定维度汇总的见识,或分析数据。加工汇总层的数据需求着手于期骗的一些共
同性见识,可以是一些中间数据,这些见识的存在,可以大大提高期骗系统的处
理成果。6.5.2 表定名方法
表定名章程:adm_{专题域}_[_专题分类] <期骗数据描摹 >[_自界说业务标
签]_[分区符号]。
表定名中包括专题域,期骗数据描摹及自界说业务描摹,分区符号等各部份
的缩略词,如
adm_fr_qy_qcyj_df
adm:代表数据模子头绪
fr: 代表 法东说念主 专题域
qy:代表 企业 专题分类
qcyj:业务描摹,迁出预警
df:day_full,代表逐日全量分区
6.5.3 数据存储及生命周期料理方法
数据表类型
全量表
增量表
存储样式
按日分区
按日分区
最长保存策略
100/30/15 天
永远/7200 天
左证存储资本及数据价值的需要动态颐养生命周期。运转阶段保险数据的溯
源排错,使用较长的生命周期存储策略,进修阶段和融会阶段就可以使用较短的
生命周期存储策略。
6.5.4 字段集定名方法
字段默许使用 DWD/DWS 层模子字段称号。
字段使用 ODS 层时,字段定名摄取汉字拼音首字母定名。字段定名碎裂
时,取碎裂字段的前两个字母。
6.6
其他通用方法
6.6.1 域定名方法
左证不同业业领域模子的定名策略,域定名可为数据域称号的中语拼音首字
母拼音或英文单词缩写。
6.6.2 数据类型方法
ODS 层的数据类型基于源系统数据类型转念,转念章程如下:
表 1 Mysql 与 Odps 数据类型映射
Mysql 数据类型
TINYINT/SMALLINT/ MEDIUMINT/ INTEGER / BIGINT
FLOAT/ DOUBLE/ DECIMAL
LONGTEXT/TEXT/VARCHAR/ CHAR
DATE/ DATETIME
ODPS 数据类型
Bigint
Double
String
String
表 2 Oracle 与 Odps 数据类型映射
Oracle 数据类型
numeric
默许使用 bigint。
VARCHAR2/VARCHAR
DATE
CLOB
String
String
String
ODPS 数据类型
ID 转念为 bigint,左证内容数据,如果是浮点数则使用 double,
表 3 Sqlserver 与 Odps 数据类型映射
sqlserver 数据类型
INT/TINYINT/SMALLINT/INTEGER / BIGINT
REAL/FLOAT / DOUBLE / DECIMAL /NUMERIC
TEXT/VARCHAR/ CHAR
SMALLDATE/ DATETIME /TIMESTAMP
ODPS 数据类型
Bigint
Double
String
String
DWD 层如果是援用 ODS 层数据,默许使用 ODS 层字段数据类型。滋生加工数据字段类型按以下圭臬执行:
字符类数据:string
符号类和策划乞降类:bigint/double
时候类型数据:datetime
6.6.3 内行字段
内行字段方法:
sjly 数据着手,填写着手表信息,多个以逗号分隔。
yxzt 数据状态,默许为灵验写入“I”,删除“D”,更新“U”。
dw_rksj 处理时候,神志为 14 位的时候 STRING 类型。
6.6.4 独一纪录符号
DWD 及 DWS 摄取独一纪录符号,ODS 不需要
斡旋对 dwd、dws 增多“独一纪录符号”字段,使用 MD5 对业务主键创
建独一 ID。
独一纪录符号斡旋定名方法:dwd 表 dwd_zjid,dws 表 dws_zjid。
用途:数据去重。
6.6.5 分区定名方法
分区字段:统统头绪数据表常用时候分区为日分区,字段均定名为 dt,
神志为 yyyymmdd。
其他时候类型分区符号如下表,时候类型神志为字符串:
分区符号
不分区
增量处理表
小时增量
小时全量
日增量
日全量
定名方法
all
delta
hi
hf
di
df
神志类型
/
yyyymmdd
yyyymmddhh
yyyymmddhh
yyyymmdd
yyyymmdd周增量
周至量
月增量
月全量
季增量
季全量
年增量
年全量
wi
wf
mi
mf
qi
qf
yi
yf
yyyymm[01-04]
yyyymm[01-04]
yyyymm
yyyymm
yyyy[01-04]
yyyy[01-04]
yyyy
yyyy
其他非时候类型的分区字段定名为 fq_[分区字段描摹],字符法例在 5
个以内。
6.6.6 时候修饰方法
中语名
最近 1 天
最近 3 天
最近 7 天
最近 14 天
最近 30 天
最近 60 天
最近 90 天
最近 180 天
180 天往日
当然周
当然月
当然季度
时候维度全称
1day
3day
1week
2week
1month
2month
3month
6month
before 6month
calendar week
calendar month
calendar
quar
ter
当然年
历史为止当日
当然年头为止当日
calendar year
start to day
year to day
_cy
_std
_ytd
当然年
历史为止当日
当然年头为止当
时候维度缩写
_1d
_3d
_1w
_2w
_1m
_2m
_3m
_6m
_b6m
_cw
_cm
_cq
描摹
最近 1 天
最近 3 天
最近 7 天
最近 14 天
最近 30 天
最近 60 天
最近 90 天
最近 180 天
180 天往日
当然周
当然月
当然季过活
当然季度初为止当
日
当然月初为止当日
month to day
_mtd
quarter to day
_qtd
当然季度初为止
当日
当然月初为止当
日
当然周初为止当日
week to day
_wtd
当然周初为止当
日
6.6.7 代码表
1.表定名方法 dim_{业务系统}_{业务描摹}
2.斡旋不作念分区,只保留一份永远数据
3.对下流同步使用时,删除原有的数据,保留一份最新数据
4.联想维表时,免除易用的原则,如联想有父子关系的表结构时,使用宽
表联想。
5.代码表的更新章程是全量更新,不与上一个周期的数据作念合并
6.6.8 临时表测试表定名方法
关于测试类的表斡旋在名堂下创建文献名为姓名首字母的文献夹,并不才面
创建测试文献夹,临时表定名方法如下:
1.中间表定名章程:mid_表名_账期(可选)
2.临时表定名章程:tmp_名字全拼_表名_账期(可选)
3.测试表定名章程:test_姓名全拼_表名
4.测试业务经由定名章程:test_姓名全拼_业务经由称号
5.测试节点定名章程:test_姓名全拼_节点称号
6.无须的测试表、临时表、业务经由和节点实时删除
图片
......
完好版请加入星球领取资
料
下
载
部分贵寓仅对星球会员 盛开
扫码加入星球🪐,统统贵寓平直自便下载⏬
图片
图片
星球贵寓下载
图片
图片
图片
图片
扫码加入 大数据资源库 常识星球🪐,搜索“数据处置”、“数据方法”,统统贵寓王人可以平直自便下载⏬⏬限时优惠
常识星球已上传联系贵寓部分概览:
图片
图片
图片
图片
长按扫码加入 大数据贵寓库(矿藏库)常识星球,统统贵寓平直自便下载⏬⏬日更!
博主留言:需要什么资源、贵寓,加入社群VIP常识星球,您言语av 女同,微信ID:bat6188。IOS用户因苹果手续费问题,可私我领取10元优惠券。
本站仅提供存储就业,统统内容均由用户发布,如发现存害或侵权内容,请点击举报。