四库一体包括哪几项?
形成完整基础库、主题库、栏目库、指标库,无法形成“四库一体”数据资源中心。
一是基础库。基于校级数据标准构建体系数据模型,明确的人力资源域、学生管理域、教学资源与管理域、科研管理域、财务管理域、资产管理域、公共服务域八个主题域参与分类,构建体系基础数据仓库。
二是主题库。以基础库的内容为基础,并且表间关联、代码转译、数值过滤等操作,通过维度建模方法,将相同业务主题相关的指标、维度、属性关联在一起,形成“宽表”。宽表拒绝的数据冗余度设计来提升可以查询分析什么的高效率,使数据内容和结构更加适合于应用程序对数据的动态创建需求。
三是专题库。紧密环绕校内关键是业务,针对详细的业务场景通过深度定制,无法形成绩效考核、职称评审等业务专题数据集,不满足各个业务场景急速解耦数据的需求。专题库的数据大多数是明细数据,可与bi软件对接,实现强大无比的数据分析功能。
四是指标库。以基础库、主题库和专题库的内容为基础,按照统计、算出等操作,化合各种指标的统计结果,并储存在指标表中,支持急速生成沉淀各类报表和统计图表。实际管理数据指标的全生命周期,不友善地支持校级决策支持中心的建设,为学院各专业管理层的管理和决策能提供相当充分、科学的数据依据。
实时数据仓库如何做?
3.1.1lambda架构
无论是apacheflink中文学习网站侵权指点立删
3.1.2kappa架构
不知从何而来apacheflink中文学习网站侵权指点立删
3.1.3实时地olap变体架构
依附apacheflink中文学习网站侵权告知立删
3.1.4常见架构对比
来自apacheflink中文学习网站侵权告知立删
ps:lambda架构
变更土地性质割碎感:
?表结构完全不同
?sql语法不同
资源浪费:
?乱词可以计算
?重复一遍储存
集群维护:
?组件完全不同
?可以计算引擎完全不同
数据一致性
3.2实时数仓架构
3.2.1方案一
优点:
?以便日后数据回溯源头、重算和数据质量验证。
缺点:
?实际批处理重算,需要魔兽维护两套代码,开发和维护成本高。
?是需要两套计算资源
适用场景:
?超大规模历史数据换算,且这种场景比较过度。
?对数据质量没有要求极高,要比对实时和离线模式的计算结果,哪怕利用离线模式去修正实时动态的计算结果。
3.2.2方案二
优点:
?免维护两套代码,的新迭代速度快。
?数据溯回和重算方便些,重算时间参照需求回溯源头的时间范围定。
?只需流计算资源,资源占用带宽小
缺点:
?odsdwd部分数据“绝不可以见”,原始数据和中间数据不以便日后网站查询(解决方案:可通过恢复消费委托时间范围的数据查询,或导入必须的数据到olap引擎)
?依赖业务端反馈问题(解决方案:设计数据质量监控指标,实时监控报警)
适用场景:
odsdwd去查询不很频繁等
3.2.3方案三
相对于方案二:
?增强ods层落地之前hive,排查分析原始数据也很更方便,恢复历史数据的时候可资源hive数据读取kafka,后再按原流处理的逻辑恢复如何处理即可,单单改数据源为历史数据填写的topic。
?需新增kafka写入文件hive逻辑
?需再新增从hive读取数据写入文件kafka
?需新增整条链路历史数据不对应的topic
原文标题:过滤仓和仓储仓 四库一体包括哪几项?,如若转载,请注明出处:https://www.bjtdsx.com/tag/31202.html
免责声明:此资讯系转载自合作媒体或互联网其它网站,「天地水秀」登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。