原创于2007年01月08日,2009年10月15日迁移至此。
在数据仓库中通常会存储双重粒度级别的数据来满足不同的需要,轻度综合数据和原始数据,在原始数据层面上可以访问细节数据,而在分析层面则访问轻度综合数据。
原始数据因为存储了基本上原封不动的数据,导致系统存储压力增大,同时也造成查询使系统性能的下降;而轻度综合数据由于数据进行压缩更为简洁,通常情况下对数据仓库的访问
95%以上都是通过轻度综合数据访问来进行的。
数据增量聚合的实现和增量抽取类似,都是尽量以时间戳的方式,尽量减少每次事务的开销。
下面开始对基于时间戳的数据增量聚合进行系统设计:
1、
首先需要定义一张数据字典表,定义需要进行处理的任务,其中主要包括任务名称,任务描述,本次聚合开始时间、结束时间、当前时间、执行的系统时间,状态,最大时限等等。
序号
|
字段名称
|
字段描述
|
字段类型
|
备注
|
1
|
factProcName
|
任务名称
|
Varchar(40)
|
|
2
|
factDesc
|
任务描述
|
Varchar(100)
|
|
3
|
factType
|
任务类型
|
INT
|
|
4
|
LastLogTime
|
当前处理时间
|
Datetime
|
|
5
|
BeginTime
|
本次任务开始时间
|
Datetime
|
|
6
|
EndTime
|
本次任务结束时间
|
Datetime
|
|
7
|
Status
|
本次任务执行情况
|
Varchar(20)
|
FINSHED
RUNNING
EXCEPTION
|
8
|
LogLimit
|
本次任务处理最大时限
|
Int
|
|
9
|
Step
|
本次任务处理距离当前时间最大间隔
|
Int
|
|
10
|
CancelFlag
|
取消标志
|
Int
|
1,取消
0,正常
|
11
|
CurTime
|
本次任务执行的系统时间
|
Datetime
|
|
2、
有了这张字典表就可以开始进行工作了,为了方便表达,暂时处理成伪代码形式,同时只以一个表的处理为例。
1、获取上次处理的恶最后时间,状态和取消情况
2、如果取消状态,则直接退出
3、判断是否存在该任务
4、如果没有,则新增,如果存在更新当前状态为运行
5、获取本次任务开始时间和结束时间
6、并根据系统表中的最大处理时限和时间间隔进行截取时间
7、根据控制事务处理大小的粒度,进行循环抽取
8、
INSERT INTO t_fact_table(TargetFieldList)
SELECT SourceFieldList
FROM t_org_table
WHERE logdate> BeginDate
AND logdate<
BeginDate+粒度
9、并同步进行时间和状态的更新
分享到:
相关推荐
6、通过双击透视表中汇总数据单元格,可以在一个新表中得到该汇总数据的明细数据,对其可以进行格式化、排序或过滤等等常规编辑处理;决不会影响透视表和源数据表本身; 7、以上第6点对源数据是外部数据库的情况尤其...
TCGA-STAD数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-OV数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
全国自学考试数据结构02331 试卷汇总(2004——2015全)。
TCGA-KIRC数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
EXCEL本身就是一个表,但主要的功能还只是一个“格”,一此涉及数据处理的场合,还是显得不够方便,把已有的数据选中(包含标题),按Ctrl+T(插入——表),即可以将原有的内容转换为区域,区域中的列会被自动添加...
Sartaj Sahni《数据结构算法与应用——C++语言描述、Java语言描述》全集,包含中英文图书、代码、习题答案、演示动画、考试题,都是我亲自从此书的官方网站下载并汇总的,绝对权威,请在这里下载:download.csdn.net...
TCGA-LAML数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-BRCA数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-READ数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-ESCA数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-GBM数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
本书首先介绍了数据透视表的基础,然后逐步介绍创建数据透视表、自定义透视表、查看视图数据、在透视表内进行计算、使用数据透视图等可视化工具、分析数据源、共享数据表、使用和分析OLAP数据、在透视表中使用宏和...
TCGA-COAD数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
本书首先介绍了数据透视表的基础,然后逐步介绍创建数据透视表、自定义透视表、查看视图数据、在透视表内进行计算、使用数据透视图等可视化工具、分析数据源、共享数据表、使用和分析OLAP数据、在透视表中使用宏和...
TCGA-PRAD数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用LCPM格式分析数据,当然也有部分使用log2...
TCGA-LUAD数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-BLCA数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据