Table of Contents
大数据专项
参考 Repo for coursera specialization Big Data by UC San Diego
加州大学圣地亚哥分校 大数据课程
1. 大数据简介
1.1 大数据时代
云计算、数据流
1.2 数据来源
- 人
- 组织
- 设备
1.3 数据整合
目的:
1. 减少数据复杂性
2. 增加数据可用性
3. 统一数据系统
1.4 大数据的特征 --6V
- Volume 数据量大
- Velocity 要求速度快
- Valence
- Veracity 要求质量高
- Variety 复杂性高
- Value
1.5 数据科学流程
1.6 系统要求
- 可拓展性
- 容错性
- 对多种数据类型优化
- 有利于共享环境
- 提供价值
1.7 Hadoop 生态系统
form Storage and scheduling to Higher levels: Interactivity
1.8 挑战与机遇
Many Big Data Modeling and Management Challenges-->>Big Data Platforms and Management Systems
2. 大数据建模与管理系统
2.1 数据模型
2.1.1 数据特征
- 结构化
- 可操作
- 有约束
2.1.2 数据类型
- 关系型数据
- 半结构化数据
- 图数据
- 文本数据
2.2 大数据管理系统 vs 数据管理系统 (BDMS vs DBMS)
并行及分布式计算
BDMS 不总是保持一致性
通常建立在Hadoop 之上
3. 大数据集成与处理
3.1 Hadoop 系统
3.2 实现数据驱动的动态应用
- 大数据存储
- 随时随地的大规模数据计算
3.3 数据集成
增加数据的相关性以提升数据价值
3.4 应用
3.4.1 SQL--结构化数据
3.4.2 MongoDB--NoSQL
3.4.3 Spark
4. 基于大数据的图分析
图
边+节点
Neo4j
5. 大数据的机器学习
5.1 机器学习
略