《深入浅出数据分析》读书笔记
28 Oct 2016 Data Analysis Reading1. 数据分析基本流程
确定问题 -> 分解数据及问题 -> 评估 -> 决策
2. 比较法
历史控制法
观察研究法
研究对象自己决定他们属于哪个组,而不是由研究者来决定。
混杂因素
- 混杂因素是研究对象的个体差异,不是试图进行比较的因素,会导致分析结果的敏感度变差。
- 随机选择对象是避免混杂因素的好办法。
实验
- 控制组(对照组):一组体现现状的处理对象,未经过任何新的处理。
-
实验组
- 随机控制实验能最大限度地接近数据分析的核心:证明因果关系。
- 怀疑因果关系的走向时,反方向思考。
3. 最优化问题
- 决策变量; 约束条件; 目标函数
- 考虑变量之间的关系
- 考虑用户实际需求
4. 数据图形化
The Visual Display of Quantitative Information, Edward Tufte
- 体现数据: 用数据思考
- 进行正确的比较
- 展示多个变量:尽量让图形多元化,同时展示多张图形。
- 探索性数据分析工具:散点图
- 发现因果关系
- 当你描述你的数据图形时,需要论述可相互换用的两种因果模型或图解。
5. 假设检验
- 证伪法:剔除无法证实的假设
- 满意法:通过观察诊断性对证据和假设进行比较,看看哪种假设具有最强的证据支持
网络关系
现实世界中的各种原因呈现网络关系,而非线性关系。
6. 贝叶斯统计
条件概率
actual class
1 0
predicted 1 TP FP
class 0 FN TN
TP:真阳性
TN:真阴性
FP:假阳性
FN:假阴性
7. 主观概率
主观概率:用一个数学形式的概率来表示自己对某事的确认程度
标准偏差
- 分析点与数据集平均值的差距
- 利用标准偏差评估数据分布
8. 启发法
- 心理学定义:用一种更便于理解的属性代替一种难解的、令人困惑的属性。
- 计算机科学定义:一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。
- 从直觉走向最优化
- 固定模式都具有启发性
9. 直方图
数据的分布、差异、集中趋势
10. 回归分析
散点图
- 寻找变量之间的因果关系
- 回归线有助于指明方向
- 相关性
回归方程
预测
11. 误差
残差
- 残差/机会误差:实际结果与模型预测结果之间的误差
- 残差分布:用均方根误差(RMSE)定量表示
- RMSE:观测值与真值偏差的平方和和观测次数n的平方根。描述的是回归线周围的分布情况。
- 标准差:观测值与其平均数偏差的平方和和观测次数n的平方根。描述的是平均值周围的分布情况。
分割
将数据分拆为几个组的根本目的是管理误差。
12. 关系数据库
13. 整理数据
14. 其他
- 统计知识: 取样; 概率; 随机变量; 显著性检验
- Excel
-
Edward Tufte的图形原则
《出色的证据》Beautiful Evidence
《公共政策数据分析》Data Analysis for Public Policy - 数据透视表
- R
- 非线性与多元回归
- 原假设-备择假设检验
- 随机性
- Google Docs
- 个人专业技能
思维导图
Reference:《深入浅出数据分析》