[课程]--大数据专项

大数据专项

参考 Repo for coursera specialization Big Data by UC San Diego
加州大学圣地亚哥分校 大数据课程

1. 大数据简介

1.1 大数据时代

云计算、数据流

1.2 数据来源

  1. 组织
  2. 设备

1.3 数据整合

目的:
1. 减少数据复杂性
2. 增加数据可用性
3. 统一数据系统

1.4 大数据的特征 --6V

  1. Volume 数据量大
  2. Velocity 要求速度快
  3. Valence
  4. Veracity 要求质量高
  5. Variety 复杂性高
  6. Value

1.5 数据科学流程

1.6 系统要求

  1. 可拓展性
  2. 容错性
  3. 对多种数据类型优化
  4. 有利于共享环境
  5. 提供价值

1.7 Hadoop 生态系统

form Storage and scheduling to Higher levels: Interactivity

1.8 挑战与机遇

Many Big Data Modeling and Management Challenges-->>Big Data Platforms and Management Systems

2. 大数据建模与管理系统

2.1 数据模型

2.1.1 数据特征

  1. 结构化
  2. 可操作
  3. 有约束

2.1.2 数据类型

  1. 关系型数据
  2. 半结构化数据
  3. 图数据
  4. 文本数据

2.2 大数据管理系统 vs 数据管理系统 (BDMS vs DBMS)

并行及分布式计算
BDMS 不总是保持一致性
通常建立在Hadoop 之上

3. 大数据集成与处理

3.1 Hadoop 系统

3.2 实现数据驱动的动态应用

  1. 大数据存储
  2. 随时随地的大规模数据计算

3.3 数据集成

增加数据的相关性以提升数据价值

3.4 应用

3.4.1 SQL--结构化数据

3.4.2 MongoDB--NoSQL

3.4.3 Spark

4. 基于大数据的图分析

边+节点

Neo4j

5. 大数据的机器学习

5.1 机器学习

5.2 应用

1. KNIME--可视化的机器学习软件

2. Spark MLlib

6. 大作业


如果你觉得这篇文章对你有帮助,不妨请我喝杯咖啡,鼓励我创造更多!