多源异构数据融合方法

爵士的舞 1个月前 已收到2个回答 举报

飛瀦蓅 1星

共回答了195个问题采纳率:99.2% 评论

多源异构数据的融合方法:

1、数据采集过程中,针对原始数据进行准确、实时的采集,为数据集成阶段提供原始数据源,对原始数据源进行数据描述,并建立对应的多种协议解析引擎。

2、依据多种不同类的数据源使用hbase和nosql数据库对来自各个子系统的数据进行分布式存储。

3、通过加载hibernate ogm并基于其上建立统一的hbase和nosql 数据库访问模型,使两个数据库按照统一的规则并在同一个框架下进行读写完成整体的数据接入。

4、利用同类均值插补方式对于错误数据,首先利用统计分析的标准差方法
对预估出现的错误值识别,并对识别后的错误数据进行清除,完成对数据进行筛选。

5、对数据清理后,其数据通过extract-transform-load,进行筛选加工转换,然后加载到一个数据仓库模型中去存储。

6、通过采用fp-growth并行算法针对数据仓库模型中的数据进行提取分析并标记出关联信息,将关联信息导入相应的建模算法即可。

13小时前

21

奢侈的幸福 4星

共回答了495个问题 评论

多源异构数据融合系统,用于航空业的多源异构数据融合,包括:

数据源层,所述数据源层用于获取各异构数据源的集合,其获取的数据源包括结构化数据、非结构化数据及实时流数据;

计算层,所述计算层用于对所述数据源的收集、清洗、存储及计算,其包括内存计算框架、流计算框架、数据仓库、数据挖掘引擎、分布式计算框架及文件系统;

所述内存计算框架用于实现基于内存的数据计算,所述流计算框架用于对于航空PNR数据的实时接收以及计算,所述数据仓库用于存储结构化后的网站浏览相关数据,所述数据挖掘引擎用于用户的模型建立和计算,用于对于整个大数据平台的资源管理,所述文件系统用于整个平台底层的数据文件存储;

数据层,所述数据层用于实现存储数据访问,其包括SQL系统、NoSQL系统及缓存系统;所述SQL系统用于实现关系型数据库的存储和搜索,所述NoSQL系统用于非关系型数据库的存储和搜索,所述缓存系统用于基于缓存的数据存储和计算;

分析层,所述分析层用于实现对用户关联后的数据分析及画像刻画,其包括语义层及OLAP引擎;所述语义层用于实现基于分析后和业务场景进行报表的开发和展示,所述OLAP引擎用于实现对于数据分析的联机分析处理。

11小时前

38
可能相似的问题

热门问题推荐

Copyright © 2024 微短问答 All rights reserved. 粤ICP备2021119249号 站务邮箱 service@wdace.com