第一课 Python入门 (王)
1.Python安装
2.常用数据分析库NumPy、Scipy、Pandas、matplotlib安装
3.常用高级数据分析库scikit-learn、NLTK安装
4.IPython的安装与使用
5.Python2与Python3区别简介
案例:Python常用科学计算
第二课 数据准备与Numpy (应)
1.多维数组对象
2.元素级别处理函数
3.利用数组进行数据处理
4.文件输入输出
5.线性代数相关功能以及线性代数基础知识
6.随机数的生成
案例:通过实际代码演示NumPy的多维数组与线性代数矩阵操作,以及数据输入输出
第三课 Python数据分析主力Pandas (应)
1.基本数据结构
2.基本功能:索引,选取,过滤,排序...
3.基本统计功能
4.缺失数据处理
5.层次化索引
案例:通过实际代码演示pandas处理及统计数据
第四课 数据获取与处理 (寒)
1.工业界常见数据格式与形态
2.python对不同格式的数据读写
3.pandas数据处理复习
4.数据简易爬取与解析
5.正则表达式:快捷捕捉你想要的信息
案例:简易网页爬取与数据解析处理
第五课 数据可视化Matplotlib (冯)
1.信息可视化和数据可视化的基本原理
2.常见可视化的方式
3.如何针对数据特点设计可视化方案
案例:一典型可视化方式的实现(提供课堂ipython代码实例)
第六课 Python文本分析NLTK (加)
1.分词
2.词性标注
3.情感分析
4.词形还原
5.拼写检查
6.文本分类
案例:一个典型文本分类流程的实现
第七课 python 社交网络分析igraph(王)
1.社交网络分析指标介绍
2.pagerank算法
3.igraph中多种社区发现算法介绍
案例:如何构造一个图,节点、边操作,以及基础图算法使用和可视化案例
第八课 Python机器学习scikit-learn(冯)
1.scikit-learn简介
2.机器学习的处理流程:以scikit-learn为例
3.scikit-learn的优化方法(并行化处理,cython的使用等)
案例:以手写数字识别和房价预估为例,如何利用sklearn进行机器学习的特征转化、建模、可视化,以及最后的模型评估
第九课 数据科学完整案例:学会使用你的“瑞士军刀”(寒)
1.数据获取与解析:你爱的足球队
2.用“数据”的眼睛去看球:“一个人完成的央视数据统计”
3.球员数据统计与可视化:“到底谁是最好的球员?”
案例说明:从抓取数据、解析数据、分析数据,到可视化、建模完整走一遍,从实际案例中一举窥探数学科学完整工作流程
第十课 Python分布式计算 (王)
1.Python多进程模块Multiprocessing
2.Python使用Hadoop分布式计算库mrjob
3.Python使用Spark分布式计算库PySpark
案例:分别使用MapReduce和Spark实现wordcount