当前位置:首页 » 软件设计 » 数据仓库设计

数据仓库设计

发布时间: 2021-02-11 07:28:12

⑴ 谁能给我一个数据仓库和数据挖掘案例的详细设计文档

最好可以问你们老师,或者去相应的网站上去查找。如果你离毕业还早的话,可以去考数据库系统工程师。相应的教材和资料都可以买到,而且是国家承认的。不过这只是个证书而已,关键的以后还是要实践。通过准备考试,可以打下扎实的基础,为以后做准备。
另外,数据库其实也比较枯燥,如果你有决心的话,还是不错的工作。关键的在学校还是要先打好基础。
有很多这样的网站,你可以上网去搜索。如果有相应的辅导班,也可以考虑。

数据库系统工程师级考试大纲
一、考试说明
1.考试要求
(1)掌握计算机体系结构以及各主要部件的性能和基本工作原理;
(2)掌握操作系统、程序设计语言的基础知识,了解编译程序的基本知识;
(3)熟练掌握常用数据结构和常用算法;
(4)熟悉软件工程和软件开发项目管理的基础知识;
(5)熟悉计算机网络的原理和技术;
(6)掌握数据库原理及基本理论;
(7)掌握常用的大型数据库管理系统的应用技术;
(8)掌握数据库应用系统的设计方法和开发过程;
(9)熟悉数据库系统的管理和维护方法,了解相关的安全技术;
(10)了解数据库发展趋势与新技术;
(11)掌握常用信息技术标准、安全性,以及有关法律、法规的基本知识;
(12)了解信息化、计算机应用的基础知识;
(13)正确阅读和理解计算机领域的英文资料。
2. 通过本考试的合格人员能参与应用信息系统的规划、设计、构建、运行和管理,能按照用户需求,设计、建立、运行、维护高质量的数据库和数据仓库;作为数据管理员管理信息系统中的数据资源,作为数据库管理员建立和维护核心数据库;担任数据库系统有关的技术支持,同时具备一定的网络结构设计及组网能力;具有工程师的实际工作能力和业务水平,能指导计算机技术与软件专业助理工程师(或技术员)工作。
3. 本考试设置的科目包括
(1)信息系统知识,考试时间为150分钟,笔试;
(2)数据库系统设计与管理,考试时间为150分钟,笔试。
二、考试范围
考试科目1:信息系统知识
1. 计算机系统知识
1.1 硬件知识
1.1.1 计算机体系结构和主要部件的基本工作原理
·CPU和存储器的组成、性能、基本工作原理
·常用I/O设备、通信设备的性能,以及基本工作原理
·I/O接口的功能、类型和特点
·CISC/RISC,流水线操作,多处理机,并行处理
1.1.2 存储系统
·虚拟存储器基本工作原理,多级存储体系
·RAID类型和特性
1.1.3 安全性、可靠性与系统性能评测基础知识
·诊断与容错
·系统可靠性分析评价
· 计算机系统性能评测方法
1.2 数据结构与算法
1.2.1 常用数据结构
·数组(静态数组、动态数组)
·线性表、链表(单向链表、双向链表、循环链表)
·栈和队列
·树(二叉树、查找树、平衡树、遍历树、堆)、图、集合的定义、存储和操作
·Hash(存储位置计算、碰撞处理)
1.2.2 常用算法
·排序算法、查找算法、数值计算、字符串处理、数据压缩算法、递归算法、图的相关算法
·算法与数据结构的关系,算法效率,算法设计,算法描述(流程图、伪代码、决策表),算法的复杂性
1.3 软件知识
1.3.1 操作系统知识
·操作系统的类型、特征、地位、内核(中断控制)、进程、线程概念
·处理机管理(状态转换、同步与互斥、信号灯、分时轮转、抢占、死锁)
·存储管理(主存保护、动态连接分配、分段、分页、虚存)
·设备管理(I/O控制、假脱机、磁盘调度)
·文件管理(文件目录、文件的结构和组织、存取方法、存取控制、恢复处理、共享和安全)
·作业管理(作业调度、作业控制语言(JCL)、多道程序设计)
·汉字处理,多媒体处理,人机界面
·网络操作系统和嵌入式操作系统基础知识
·操作系统的配置
1.3.2 程序设计语言和语言处理程序的知识
· 汇编、编译、解释系统的基础知识和基本工作原理
· 程序设计语言的基本成分:数据、运算、控制和传输,程序调用的实现机制
· 各类程序设计语言的主要特点和适用情况
1.4 计算机网络知识
·网络体系结构(网络拓扑、OSI/RM、基本的网络协议
·传输介质,传输技术,传输方法,传输控制
·常用网络设备和各类通信设备
·Client/Server结构、Browser/Server结构、Browser/Web/Datebase结构
·LAN拓扑,存取控制,LAN的组网,LAN间连接,LAN-WAN连接
·因特网基础知识及应用
·网络软件
·网络管理
·网络性能分析
·网络有关的法律、法规
2. 数据库技术
2.1 数据库技术基础
2.1.1 数据库模型
·数据库系统的三级模式(概念模式、外模式、内模式),两级映像(概念模式/外模式、外模式/内模式)
·数据库模型:数据模型的组成要素,概念数据模型ER图(实体、属性、关系),逻辑数据模型(关系模型、层次模型、网络模型)
2.1.2 数据库管理系统的功能和特征
·主要功能(数据库定义、数据库操作、数据库控制、事务管理、用户视图)
·特征(确保数据独立性、数据库存取、同时执行过程、排它控制、故障恢复、安全性、完整性)
·RDB(关系数据库),OODB(面向对象数据库),ORDB(对象关系数据库),NDB(网状数据库)
·几种常用Web数据库的特点
2.1.3 数据库系统体系结构
· 集中式数据库系统
· Client/Server数据库系统
· 并行数据库系统
· 分布式数据库系统
· 对象关系数据库系统
2.2 数据操作
2.2.1 关系运算
·关系代数运算(并、交、差、笛卡儿积、选择、投影、连接、除)
·元组演算
·完整性约束
2.2.2 关系数据库标准语言(SQL)
·SQL的功能与特点
·用SQL进行数据定义(表、视图、索引、约束)
·用SQL进行数据操作(数据检索、数据插入/删除/更新、触发控制)
·安全性和授权
·程序中的API,嵌入SQL
2.3 数据库的控制功能
·数据库事务管理(ACID属性)
·数据库备份与恢复技术(UNDO、REDO)
·并发控制
2.4 数据库设计基础理论
2.4.1 关系数据库设计
·函数依赖
·规范化(第一范式、第二范式、第三范式、BC范式、第四范式、第五范式)
·模式分解及分解应遵循的原则
2.4.2 对象关系数据库设计
·嵌套关系、 复杂类型,继承与引用类型
·与复杂类型有关的查询
·SQL中的函数与过程
·对象关系
2.5 数据挖掘和数据仓库基础知识
·数据挖掘应用和分类
·关联规则、聚类
·数据仓库的成分
·数据仓库的模式
2.6 多媒体基本知识
2.6.1 多媒体技术基本概念
·多媒体系统基础知识
·常用多媒体文件格式
2.6.2 多媒体压缩编码技术
·多媒体压缩编码技术
·统计编码
·预测编码
·编码的国际标准
2.6.3多媒体技术应用
·简单图形的绘制,图像文件的处理方法
·音频和视频信息的应用
·多媒体应用开发过程
2.7 系统性能知识
·性能计算(响应时间、吞吐量、周转时间)
·性能指标和性能设计
·性能测试和性能评估
2.8 计算机应用基础知识
·信息管理、数据处理、辅助设计、科学计算,人工智能等基础知识
·远程通信服务及相关通信协议基础知识
3. 系统开发和运行维护知识
3.1 软件工程、软件过程改进和软件开发项目管理知识
·软件工程知识
·软件开发生命周期阶段目标和任务
·软件开发项目基础知识(时间管理、成本管理、质量管理、人力资源管理、风险管理等)及其常用管理工具
·主要的软件开发方法(生命周期法、原型法、面向对象法、CASE)
·软件开发工具与环境知识
·软件质量管理基础知识
·软件过程改进基础知识
·软件开发过程评估、软件能力成熟度评估的基础知识
3.2 系统分析基础知识
·系统分析的目的和任务
·结构化分析方法(数据流图(DFD)和数据字典(DD),实体关系图(ERD),描述加工处理的结构化语言)
·统一建模语言(UML)
·系统规格说明书
3.3 系统设计知识
·系统设计的目的和任务
·结构化设计方法和工具(系统流程图、HIPO图、控制流程图)
·系统总体结构设计(总体布局,设计原则,模块结构设计,数据存取设计,系统配置方案)
·系统详细设计(代码设计、数据库设计、用户界面设计、处理过程设计)
·系统设计说明书
3.4 系统实施知识
·系统实施的主要任务
·结构化程序设计、面向对象程序设计、可视化程序设计
·程序设计语言的选择、程序设计风格
·系统测试的目的、类型,系统测试方法(黑盒测试、白盒测试、灰盒测试)
·测试设计和管理(错误曲线、错误排除、收敛、注入故障、测试试用例设计、系统测试报告)
·系统转换基础知识
3.5 系统运行和维护知识
·系统运行管理知识
·系统维护知识
·系统评价知识
4. 安全性知识
·安全性基本概念(网络安全、操作系统安全、数据库安全)
·计算机病毒的防治,计算机犯罪的防范,容灾
·访问控制、防闯入、安全管理措施
·加密与解密机制
·风险分析、风险类型、抗风险措施和内部控制
5.标准化知识
·标准化意识,标准化的发展,标准出台过程
·国际标准、国家标准、行业标准、企业标准基本知识
·代码标准、文件格式标准、安全标准软件开发规范和文档标准
·标准化机构
6.信息化基础知识
·信息化意识
·全球信息化趋势、国家信息化战略、企业信息化战略和策略
·有关的法律、法规
·远程教育、电子商务、电子政务等基础知识
·企业信息资源管理基础知识
7.计算机专业英语
·掌握计算机技术的基本词汇
·能正确阅读和理解计算机领域的英文资料
考试科目2:数据库系统设计与管理
1.数据库设计
1.1理解系统需求说明
·了解用户需求、确定系统范围
·确定应用系统数据库的各种关系
·现有环境与新系统环境的关系
·新系统中的数据项、数据字典、数据流
1.2 系统开发的准备
·选择开发方法,准备开发环境,制订开发计划
1.3 设计系统功能
·选择系统机构,设计各子系统的功能和接口,设计安全性策略、需求和实现方法,制定详细的工作流和数据流
1.4 数据库设计
1.4.1 设计数据模型
·概念结构设计(设计ER模型)
·逻辑结构设计(转换成DBMS所能接收的数据模型)
·评审设计
1.4.2 物理结构设计
·设计方法与内容
·存取方法的选择
·评审设计与性能预测
1.4.3 数据库实施与维护
·数据加载与应用程序调试
·数据库试运行
·数据库运行与维护
1.4.4 数据库的保护
·数据库的备份与恢复
·数据库的安全性
·数据库的完整性
·数据库的并发控制
1.5 编写外部设计文档
·编写系统说明书(系统配置图、各子系统关系图、系统流程图,系统功能说明、输入输出规格说明、数据规格说明、用户手册框架)
·设计系统测试要求
1.6 设计评审
2. 数据库应用系统设计
2.1 设计数据库应用系统结构
·信息系统的架构(如Client/Server)与DBMS
·多用户数据库环境(文件服务器体系结构、Client/Server体系结构)
·大规模数据库和并行计算机体系结构(SMP、MPP)
·中间件角色和相关工具
·按构件分解,确定构件功能规格以及构件之间的接口
2.2 设计输入输出
·屏幕界面设计,设计输入输出检查方法和检查信息
·数据库交互与连接(掌握C程序设计语言,以及Java、Visual Basic、Visual C++、PowerBuilder、Delphi中任一种开发工具与数据库互连的方法(如何与数据库服务器沟通))
2.3 设计物理数据
·分析事务在数据库上运行的频率和性能要求,确定逻辑数据组织方式、存储介质,设计索引结构和处理方式
·将逻辑数据结构变换成物理数据结构,计算容量(空间代价),确定存取方法(时间效率)、系统配置(维护代价)并进行优化
2.4 设计安全体系
·明确安全等级
·数据库的登录方式
·数据库访问
·许可(对象许可、命令许可、授权许可的方法)
2.5 应用程序开发
2.5.1 应用程序开发
·选择应用程序开发平台
·系统实施顺序
·框架开发
·基础小组的程序开发
·源代码控制
·版本控制
2.5.2 模块划分(原则、方法、标准)
2.5.3 编写程序设计文档
·模块规格说明书(功能和接口说明、程序处理逻辑的描述、输入输出数据格式的描述)
·测试要求说明书(测试类型和目标,测试用例,测试方法)
2.5.4 程序设计评审
2.6 编写应用系统设计文档
·系统配置说明、构件划分图、构件间的接口、构件处理说明、屏幕设计文档、报表设计文档、程序设计文档、文件设计文档、数据库设计文档
2.7 设计评审
3. 数据库应用系统实施
3.1 整个系统的配置与管理
3.2 常用数据库管理系统的应用(SQL Server、Oracle、Sybase、DB2、Access或Visual Foxpro)
·创建数据库
·创建表、创建索引、创建视图、创建约束、创建UDDT(用户自定义类型)
·创建和管理触发器
·建立安全体系
3.3 数据库应用系统安装
·拟定系统安装计划(考虑费用、客户关系、雇员关系、后勤关系和风险等因素)
·拟定人力资源使用计划(组织机构安排的合理性)
·直接安装(安装新系统并使系统快速进入运行状态)
·并行安装(新旧系统并行运行一段时间)
·阶段安装(经过一系列的步骤和阶段使新系统各部分逐步投入运行)
3.4 数据库应用系统测试
·拟定测试目标、计划、方法与步骤
·数据加载,准备测试数据
·指导应用程序员进行模块测试进行验收
·准备系统集成测试环境测试工具
·写出数据库运行测试报告
3.5 培训与用户支持
4.数据库系统的运行和管理
4.1 数据库系统的运行计划
·运行策略的确定
·确定数据库系统报警对象和报警方式
·数据库系统的管理计划(执行,故障/恢复,安全性,完整性,用户培训和维护)
4.2 数据库系统的运行和维护
·新旧系统的转换
·收集和分析报警数据(执行报警、故障报警、安全报警)
·连续稳定的运行
·数据库维护(数据库重构、安全视图的评价和验证、文档维护)
·数据库系统的运行统计(收集、分析、提出改进措施)
·关于运行标准和标准改进一致性的建议
·数据库系统的审计
4.3 数据库管理
·数据字典和数据仓库的管理
·数据完整性维护和管理(实体完整性、参照完整性)
·数据库物理结构的管理(保证数据不推迟访问)
·数据库空间及碎片管理
·备份和恢复(顺序、日志(审计痕迹)、检查点)
·死锁管理(集中式、分布式)
·并发控制(可串行性、锁机制、时间戳、优化)
·数据安全性管理(加密、安全、访问控制、视图、有效性确认规则)
·数据库管理员(DBA)职责
4.4 性能调整
·SQL语句的编码检验
·表设计的评价
·索引的改进
·物理分配的改进
·设备增强
·数据库性能优化
4.5 用户支持
·用户培训
·售后服务
5. SQL
5.1 数据库语言
·数据库语言的要素
·数据库语言的使用方式(交互式和嵌入式)
5.2 SQL概述
·SQL语句的特征
·SQL语句的基本成分
5.3 数据库定义
·创建数据库(Create Datebase)、创建表(Create Table)
·定义数据完整性
·修改表(Alter Table)、删除表(Drop Table)
·定义索引(Create Index)、删除索引(Drop Index)
·定义视图(Create View)、删除视图(Drop View)、更新视图
5.4 数据操作
·Select语句的基本机构
·简单查询
·SQL中的选择、投影
·字符串比较,涉及空值的比较
·日期时间,布尔值,输出排序
·多表查询
·避免属性歧义
·SQL中的连接、并、交、差
·SQL中的元组变量
·子查询
5.5 完整性控制与安全机制
·主键(Primary Key)约束
·外键(Foreign Key)约束
·属性值上的约束(Null、Check、Create Domain)
·全局约束(Create Assertions)
·权限、授权(Grant)、销权(Revoke)
5.6 创建触发器(Create Trigger)
5.7 SQL使用方式
·交互式SQL
·嵌入式SQL
·SQL与宿主语言接口(Declare、共享变量、游标、卷游标)
·动态SQL
·API
5.8 SQL 标准化
6. 网络环境下的数据库
6.1 分布式数据库
6.1.1 分布式数据库的概念
·分布式数据库的特点与目标
6.1.2 分布式数据库的体系结构
·分布式数据库的模式结构
·数据分布的策略(数据分片、分布透明性)
·分布式数据库管理系统
6.1.3 分布式查询处理和优化
6.1.4 分布式事务管理
·分布式数据库的恢复(故障、恢复、2段提交、3段提交)
·分布式数据库的透明性(局部、分裂、复制、处理、并发、执行)
6.1.5 分布式数据库系统的应用
6.2 网络环境下数据库系统的设计与实施
·数据的分布设计
·负载均衡设计
·数据库互连技术
6.3 面向Web的DBMS技术
·三层体系结构
·动态Web网页
·ASP、JSP、XML的应用
7.数据库的安全性
7.1 安全性策略的理解
·数据库视图的安全性策略
·数据的安全级别(最重要的、重要的、注意、选择)
7.2 数据库安全测量
·用户访问控制(采用口令等)
·程序访问控制(包含在程序中的SQL命令限制)
·表的访问控制(视图机制)
·控制访问的函数和操作
·外部存储数据的加密与解密
8. 数据库发展趋势与新技术
8.1 面向对象数据库(OODBMS)
8.1.1 OODBMS的特征
8.1.2 面向对象数据模型
·对象结构、对象类、继承与多重继承、对象标识、对象包含、对象嵌套
8.1.3 面向对象数据库语言
8.1.4 对象关系数据库系统(ORDBMS)
·嵌套关系
·复杂类型
·继承、引用类型
·与复杂类型有关的查询
·函数与过程
·面向对象与对象关系
·ORDBMS应用领域
8.2 企业资源计划(ERP)和数据库
8.2.1 ERP概述
·基本MRP(制造资源计划)、闭环MRP、ERP
·基本原理、发展趋势
·ERP设计的总体思路(一个中心、两类业务、三条干线)
8.2.2 ERP与数据库
·运行数据库与ERP数据模型之间的关系
·运行数据库与ERP数据库之间的关系
8.2.3 案例分析
8.3 决策支持系统的建立
·决策支持系统的概念
·数据仓库设计
·数据转移技术
·联机分析处理(OLAP)技术
·企业决策支持解决方案
·联机事务处理(OLTP)

⑵ 数据库设计与数据仓库设计的相同点

数据库与数据仓库的本质差别如下: 1、逻辑层面/概念层面:数据库和数据仓库其实是一样的或版者及权其相似的,都是通过某个数据库软件,基于某种数据模型来组织、管理数据。但是,数据库通常更关注业务交易处理(OLTP),而数据仓库更关注数据分析层面(OLAP),由此产生的数据库模型上也会有很大的差异。 2、数据库通常追求交易的速度,交易完整性,数据的一致性等,在数据库模型上主要遵从范式模型(1NF,2NF,3NF等),从而尽可能减少数据冗余,保证引用完整性;而数据仓库强调数据分析的效率,复杂查询的速度,数据之间的相关性分析,所以在数据库模型上,数据仓库喜欢使用多维模型,从而提高数据分析的效率。 3、产品实现层面:数据库和数据仓库软件是有些不同的,数据库通常使用行式存储,如SAP ASE,Oracle, Microsoft SQL Server,而数据仓库倾向使用列式存储,如SAP IQ,SAP HANA。

⑶ 数据仓库的数据模型

有别于一般联机交易处理(OLTP)系统,数据模型设计是一个数据仓库设计的地基,当前两大主流理论分别为采用正规方式(normalized approach)或多维方式(dimensional approach)进行数据模型设计。 数据模型可以分为逻辑与实体数据模型。逻辑数据模型陈述业务相关数据的关系,基本上是一种与数据库无关的结构设计,通常均会采用正规方式设计,主要精神是从企业业务领域的角度及高度订出subject area model,再逐步向下深入到entities、attributes,在设计时不会考虑未来采用的数据库管理系统,也不需考虑分析性能问题。而实体数据模型则与数据库管理系统有关,是建置在该系统上的数据架构,故设计时需考虑数据类型(data type)、空间及性能相关的议题。 实体数据模型设计,则较多有采用正规方式或多维方式的讨论,但从实务上来说,不执著于理论,能与业务需要有最好的搭配,才是企业在建置数据仓库时的正确考量。
数据仓库的建制不仅是资讯工具技术面的运用,在规划和执行方面更需对产业知识、行销管理、市场定位、策略规划等相关业务有深入的了解,才能真正发挥数据仓库以及后续分析工具的价值,提升组织竞争力。

⑷ 数据仓库 什么是mapping设计

由于数据库通常用于操作型系统管理数据,是面向某个具体应用的,所以现在的数据库设计大多采用以关系数据模型为主的设计方法,以保证数据的原子性、一致性,消除数据冗余。常常先通过对需要处理的数据进行详细分析后建立ER模型

⑸ 数据仓库的设计步骤

1)选择合适的抄主题(所要解决问题的领域)
2)明确定义事实表
3)确定和确认维
4)选择事实表
5)计算并存储fact表中的衍生数据段
6)转换维表
7)数据库数据采集
8)根据需求刷新维表
9)确定查询优先级和查询模式。
硬件平台:数据仓库的硬盘容量通常要是操作数据库硬盘容量的2-3倍。通常大型机具有更可靠的性能和和稳定性,也容易与历史遗留的系统结合在一起;而PC服务器或UNIX服务器更加灵活,容易操作和提供动态生成查询请求进行查询的能力。选择硬件平台时要考虑的问题:是否提供并行的I/O吞吐?对多CPU的支持能力如何?
数据仓库DBMS:他的存储大数据量的能力、查询的性能、和对并行处理的支持如何。
网络结构:数据仓库的实施在那部分网络段上会产生大量的数据通信,需不需要对网络结构进行改进。

⑹ 从数据仓库技术出发,说明数据仓库的设计、数据表的设计等

简单的说就是无处不索引。

数据仓库的特点:
插入,修改的性能可以不高。大数据量统计的性能要高。
所以就要建很多的索引。
跟在线联机系统有较大的差别。联机在线的系统主要讲究,响应速度要快。

当然还有很多复杂的技术。比如海客宝在线ERP,一套系统中有几万家客户的数据,一家的客户数据可能就有几十万,总体上来讲是有海量数据的,又要讲究系统响应速度,又有海量数据需要处理,这个就需要更复杂的设计。

⑺ 数据仓库模型设计师是做什么的

1、星型模型 星型模型是一种由一点向外辐射的建模范例,中间有一单一对象沿半径向外连接到多个对象。星型模型反映了最终用户对商务查询的看法:销售事实、赔偿、付款和货物的托运都用一维或多维描述(按月、产品、地理位置)。

⑻ 如何设计数据中心数据仓库

保证数据同源,就可以统一指标,上下游的问题~
整理指标,保证各个部门指标统计口径一致,这个活不好干但是必须干
需要整理好了 然后再去利用各种设计模式设计开发之。

⑼ 怎样的架构设计才是真正的数据仓库架构

一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。
先大概列一下互联网行业数据仓库、数据平台的用途:

  • 整合公司所有业务数据,建立统一的数据中心;

  • 提供各种报表,有给高层的,有给各个业务的;

  • 为网站运营提供运营上的数据支持,就是通过数据,让运营及时了解网站和产品的运营效果;

  • 为各个业务提供线上或线下的数据支持,成为公司统一的数据交换与提供平台;

  • 分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果;比如广告定向精准投放、用户个性化推荐等;

  • 开发数据产品,直接或间接为公司盈利;

  • 建设开放数据平台,开放公司数据;

  • 。。。。。。


  • 上面列出的内容看上去和传统行业数据仓库用途差不多,并且都要求数据仓库/数据平台有很好的稳定性、可靠性;但在互联网行业,除了数据量大之外,越来越多的业务要求时效性,甚至很多是要求实时的 ,另外,互联网行业的业务变化非常快,不可能像传统行业一样,可以使用自顶向下的方法建立数据仓库,一劳永逸,它要求新的业务很快能融入数据仓库中来,老的下线的业务,能很方便的从现有的数据仓库中下线;

  • 其实,互联网行业的数据仓库就是所谓的敏捷数据仓库,不但要求能快速的响应数据,也要求能快速的响应业务;

  • 建设敏捷数据仓库,除了对架构技术上的要求之外,还有一个很重要的方面,就是数据建模,如果一上来就想着建立一套能兼容所有数据和业务的数据模型,那就又回到传统数据仓库的建设上了,很难满足对业务变化的快速响应。应对这种情况,一般是先将核心的持久化的业务进行深度建模(比如:基于网站日志建立的网站统计分析模型和用户浏览轨迹模型;基于公司核心用户数据建立的用户模型),其它的业务一般都采用维度+宽表的方式来建立数据模型。这块是后话。

  • 整体架构下面的图是我们目前使用的数据平台架构图,其实大多公司应该都差不多:

  • 逻辑上,一般都有数据采集层、数据存储与分析层、数据共享层、数据应用层。可能叫法有所不同,本质上的角色都大同小异。

  • 我们从下往上看:

  • 数据采集数据采集层的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些简单的清洗。


  • 数据源的种类比较多:

  • 网站日志:


  • 作为互联网行业,网站日志占的份额最大,网站日志存储在多台网站日志服务器上,

  • 一般是在每台网站日志服务器上部署flume agent,实时的收集网站日志并存储到HDFS上;

  • 业务数据库:


  • 业务数据库的种类也是多种多样,有Mysql、Oracle、SqlServer等,这时候,我们迫切的需要一种能从各种数据库中将数据同步到HDFS上的工具,Sqoop是一种,但是Sqoop太过繁重,而且不管数据量大小,都需要启动MapRece来执行,而且需要Hadoop集群的每台机器都能访问业务数据库;应对此场景,淘宝开源的DataX,是一个很好的解决方案(可参考文章 《异构数据源海量数据交换工具-Taobao DataX 下载和使用》),有资源的话,可以基于DataX之上做二次开发,就能非常好的解决,我们目前使用的DataHub也是。

  • 当然,Flume通过配置与开发,也可以实时的从数据库中同步数据到HDFS。

  • 来自于Ftp/Http的数据源:


  • 有可能一些合作伙伴提供的数据,需要通过Ftp/Http等定时获取,DataX也可以满足该需求;

  • 其他数据源:


  • 比如一些手工录入的数据,只需要提供一个接口或小程序,即可完成;


  • 数据存储与分析毋庸置疑,HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。


  • 离线数据分析与计算,也就是对实时性要求不高的部分,在我看来,Hive还是首当其冲的选择,丰富的数据类型、内置函数;压缩比非常高的ORC文件存储格式;非常方便的SQL支持,使得Hive在基于结构化数据上的统计分析远远比MapRece要高效的多,一句SQL可以完成的需求,开发MR可能需要上百行代码;

  • 当然,使用Hadoop框架自然而然也提供了MapRece接口,如果真的很乐意开发Java,或者对SQL不熟,那么也可以使用MapRece来做分析与计算;Spark是这两年非常火的,经过实践,它的性能的确比MapRece要好很多,而且和Hive、Yarn结合的越来越好,因此,必须支持使用Spark和SparkSQL来做分析和计算。因为已经有Hadoop Yarn,使用Spark其实是非常容易的,不用单独部署Spark集群,关于Spark On Yarn的相关文章,可参考:《Spark On Yarn系列文章》

  • 实时计算部分,后面单独说。

  • 数据共享这里的数据共享,其实指的是前面数据分析与计算后的结果存放的地方,其实就是关系型数据库和NOSQL数据库;


  • 前面使用Hive、MR、Spark、SparkSQL分析和计算的结果,还是在HDFS上,但大多业务和应用不可能直接从HDFS上获取数据,那么就需要一个数据共享的地方,使得各业务和产品能方便的获取数据;和数据采集层到HDFS刚好相反,这里需要一个从HDFS将数据同步至其他目标数据源的工具,同样,DataX也可以满足。

  • 另外,一些实时计算的结果数据可能由实时计算模块直接写入数据共享。


  • 数据应用
  • 业务产品


  • 业务产品所使用的数据,已经存在于数据共享层,他们直接从数据共享层访问即可;

  • 报表


  • 同业务产品,报表所使用的数据,一般也是已经统计汇总好的,存放于数据共享层;

  • 即席查询


  • 即席查询的用户有很多,有可能是数据开发人员、网站和产品运营人员、数据分析人员、甚至是部门老大,他们都有即席查询数据的需求;

  • 这种即席查询通常是现有的报表和数据共享层的数据并不能满足他们的需求,需要从数据存储层直接查询。

  • 即席查询一般是通过SQL完成,最大的难度在于响应速度上,使用Hive有点慢,目前我的解决方案是SparkSQL,它的响应速度较Hive快很多,而且能很好的与Hive兼容。

  • 当然,你也可以使用Impala,如果不在乎平台中再多一个框架的话。

  • OLAP


  • 目前,很多的OLAP工具不能很好的支持从HDFS上直接获取数据,都是通过将需要的数据同步到关系型数据库中做OLAP,但如果数据量巨大的话,关系型数据库显然不行;

  • 这时候,需要做相应的开发,从HDFS或者HBase中获取数据,完成OLAP的功能;

  • 比如:根据用户在界面上选择的不定的维度和指标,通过开发接口,从HBase中获取数据来展示。

  • 其它数据接口


  • 这种接口有通用的,有定制的。比如:一个从Redis中获取用户属性的接口是通用的,所有的业务都可以调用这个接口来获取用户属性。


  • 实时计算现在业务对数据仓库实时性的需求越来越多,比如:实时的了解网站的整体流量;实时的获取一个广告的曝光和点击;在海量数据下,依靠传统数据库和传统实现方法基本完成不了,需要的是一种分布式的、高吞吐量的、延时低的、高可靠的实时计算框架;Storm在这块是比较成熟了,但我选择Spark Streaming,原因很简单,不想多引入一个框架到平台中,另外,Spark Streaming比Storm延时性高那么一点点,那对于我们的需要可以忽略。

  • 我们目前使用Spark Streaming实现了实时的网站流量统计、实时的广告效果统计两块功能。

  • 做法也很简单,由Flume在前端日志服务器上收集网站日志和广告日志,实时的发送给Spark Streaming,由Spark Streaming完成统计,将数据存储至Redis,业务通过访问Redis实时获取。

  • 任务调度与监控在数据仓库/数据平台中,有各种各样非常多的程序和任务,比如:数据采集任务、数据同步任务、数据分析任务等;


  • 这些任务除了定时调度,还存在非常复杂的任务依赖关系,比如:数据分析任务必须等相应的数据采集任务完成后才能开始;数据同步任务需要等数据分析任务完成后才能开始;这就需要一个非常完善的任务调度与监控系统,它作为数据仓库/数据平台的中枢,负责调度和监控所有任务的分配与运行。

  • 前面有写过文章,《大数据平台中的任务调度与监控》,这里不再累赘。

  • 总结在我看来架构并不是技术越多越新越好,而是在可以满足需求的情况下,越简单越稳定越好。目前在我们的数据平台中,开发更多的是关注业务,而不是技术,他们把业务和需求搞清楚了,基本上只需要做简单的SQL开发,然后配置到调度系统就可以了,如果任务异常,会收到告警。这样,可以使更多的资源专注于业务之上。

⑽ 数据库和数据仓库在设计上有哪些不同

由于数据库通常用于操作型系统管理数据,是面向某个具体应用的,所回以现在的数据库设计答大多采用以关系数据模型为主的设计方法,以保证数据的原子性、一致性,消除数据冗余。常常先通过对需要处理的数据进行详细分析后建立ER模型(实体-联系模型),然后转换为关系模型后,由关系模型生成数据库的表。
但数据仓库是面向主题的,是为了通过对历史数据进行多视角(称之为多维)分析,为决策人员提供针对该关注点(该主题)的辅助决策信息,所以在设计上大多采用多维数据模型进行设计(不是用关系模型),以一个事实表加上与之想关联的多个维表为分析一个主题的模型建模。一个事实表代表一个主题和对主题的度量,与之相关联的每一个维表代表对主题进行分析的一个不同的视角。如果你有数据知识的话,应该领会到两者实际上有本质的不同了。前者多用关系模型且无数据冗余,用于事务处理;后者多用多维模型,且有大量数据冗余,用于针对某关注点的分析。
数据仓库本就不是一个三句两句能解释清楚其本质的概论,但愿上述回答对你有帮助。

热点内容
美发店认证 发布:2021-03-16 21:43:38 浏览:443
物业纠纷原因 发布:2021-03-16 21:42:46 浏览:474
全国著名不孕不育医院 发布:2021-03-16 21:42:24 浏览:679
知名明星确诊 发布:2021-03-16 21:42:04 浏览:14
ipad大专有用吗 发布:2021-03-16 21:40:58 浏览:670
公务员协议班值得吗 发布:2021-03-16 21:40:00 浏览:21
知名书店品牌 发布:2021-03-16 21:39:09 浏览:949
q雷授权码在哪里买 发布:2021-03-16 21:38:44 浏览:852
图书天猫转让 发布:2021-03-16 21:38:26 浏览:707
宝宝水杯品牌 发布:2021-03-16 21:35:56 浏览:837