JanZou analyst, programmer

《深入浅出数据分析》读书笔记


1. 数据分析基本流程

确定问题 -> 分解数据及问题 -> 评估 -> 决策

2. 比较法

历史控制法

观察研究法

研究对象自己决定他们属于哪个组,而不是由研究者来决定。

混杂因素

  • 混杂因素是研究对象的个体差异,不是试图进行比较的因素,会导致分析结果的敏感度变差。
  • 随机选择对象是避免混杂因素的好办法。

实验

  • 控制组(对照组):一组体现现状的处理对象,未经过任何新的处理。
  • 实验组

    • 随机控制实验能最大限度地接近数据分析的核心:证明因果关系。
    • 怀疑因果关系的走向时,反方向思考。

3. 最优化问题

  • 决策变量; 约束条件; 目标函数
  • 考虑变量之间的关系
  • 考虑用户实际需求

4. 数据图形化

The Visual Display of Quantitative Information, Edward Tufte

  • 体现数据: 用数据思考
  • 进行正确的比较
  • 展示多个变量:尽量让图形多元化,同时展示多张图形。
  • 探索性数据分析工具:散点图
    • 发现因果关系
    • 当你描述你的数据图形时,需要论述可相互换用的两种因果模型或图解。

5. 假设检验

  • 证伪法:剔除无法证实的假设
  • 满意法:通过观察诊断性对证据和假设进行比较,看看哪种假设具有最强的证据支持

网络关系

现实世界中的各种原因呈现网络关系,而非线性关系。

6. 贝叶斯统计

条件概率

               actual class  
                 1     0  
predicted   1    TP   FP  
  class     0    FN   TN  
  
TP:真阳性  
TN:真阴性  
FP:假阳性  
FN:假阴性

7. 主观概率

主观概率:用一个数学形式的概率来表示自己对某事的确认程度

标准偏差

  • 分析点与数据集平均值的差距
  • 利用标准偏差评估数据分布

8. 启发法

  • 心理学定义:用一种更便于理解的属性代替一种难解的、令人困惑的属性。
  • 计算机科学定义:一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。
  • 从直觉走向最优化
  • 固定模式都具有启发性

9. 直方图

数据的分布、差异、集中趋势

10. 回归分析

散点图

  • 寻找变量之间的因果关系
  • 回归线有助于指明方向
  • 相关性

回归方程

预测

11. 误差

残差

  • 残差/机会误差:实际结果与模型预测结果之间的误差
  • 残差分布:用均方根误差(RMSE)定量表示
  • RMSE:观测值与真值偏差的平方和和观测次数n的平方根。描述的是回归线周围的分布情况。
  • 标准差:观测值与其平均数偏差的平方和和观测次数n的平方根。描述的是平均值周围的分布情况。

分割

将数据分拆为几个组的根本目的是管理误差。

12. 关系数据库

13. 整理数据

14. 其他

  • 统计知识: 取样; 概率; 随机变量; 显著性检验
  • Excel
  • Edward Tufte的图形原则
    《出色的证据》Beautiful Evidence
    《公共政策数据分析》Data Analysis for Public Policy

  • 数据透视表
  • R
  • 非线性与多元回归
  • 原假设-备择假设检验
  • 随机性
  • Google Docs
  • 个人专业技能

思维导图

graph

Reference:《深入浅出数据分析》