CDA level I 数据分析基础

CDA level I考试大纲 Part1 数据分析概念与统计学基础 占考试比例的30%;

共分5个知识方向,考试占比分布如下:数据分析概念,方法论 流程 5% 描述性统计分析 12% 推断性统计分析8% 方差分析2% 一元线性回归分析3%;

第1个知识方向的笔记,数据分析概念,方法论 流程,再考试题目中出题概率占5%;

一、数据分析概念

目标:以数据为分析对象,以探索数据内的有用信息为主要途径,以解决业务需求为最终目标而建立的一整套分析流程

流程:业务理解,数据采集,数据清洗,数据探索,数据可视化,数据建模,模型结果可视化,分析结果的业务应用;

目的:是为业务发展答疑解惑;

分析层次:描述了 过去发生了什么,现在正在发生什么以及未来可能发生什么。

分析级别:常规报表,即席查询,多维分析,警报;描述阶段 统计分析,预报(时间序列预测),预测型模型(预测性 prdictive模型),优化;挖掘阶段

数据挖掘(Data mining)是一个跨学科的计算机科学分支,是用人工智能,机器学习,统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。

大数据对传统小数据分析的拓展及区别联系: 数据上:小数据重抽样,大数据重全体;

方法上:小数据重实证,大数据重优化;

目标上:小数据重解释,大数据重预测;

数据分析目标的意义过程及本质: 数据分析涉及到公司运营的方方面面;重头戏是客户和市场。

二、数据分析的方法论:

CRISP-DM:将数据挖掘项目生命周期分为6个阶段

业务理解(Business understanding)

数据理解(Data Understanding)

数据准备(Data preparation)

建模(modeling)

模型评估(evaluation)

模型发布(deployment)

SEMMA:SAS公司根据CRISP-DM进行了拓展,将数据分析分为了5个步骤:

数据整理(sample)构造分析用的到的数据,将散落在内部和外部的数据进行整合。

样本探索(explore)对数据质量进行探索。变量质量:错误值,恰当性,缺失值,一致性,平稳性,重复值,及时性)变量错误时 是否可以修改,是否可以使用的问题

变量修改(modify)数据质量问题的修改涉及:改正错误编码,缺失值填补,单位统一等操作,变量分布情况的修改涉及:函数转换和标准化方法。

建模(model)选取合适的模型

模型检验(assess)模型样本内验证

三、数据分析师在业务流程中的作用角色和职责:

数据分析师在业务与数据间起到协调的作用,是业务问题能否成功转换成统计问题的关键。协调者,数据分析师,报告人的角色决定了数据分析师是一名综合性人才。

第2个知识方向 描述性统计分析 ,再考试中题型分布占12%

大纲要求熟知领会知识点:衡量数据集中趋势,离中趋势和数据分布的常用指标及计算方法;统计图形的绘制 元素调整,可视化效果---条形图,线图,直方图,盒须图,散点图,气泡图,马赛克图,玫瑰图 明确统计图形对统计指标表达上的对应关系。

一、数据的计量尺度:

计量分类:名义测量:(nominal measurement)最低的测量等级,这类变量一般不做高低大小区分,数值仅代表某些分类和属性。

次序测量:(ordinal measurement)量化水平高于名义测量,数值代表了一些有序分类,具有一定的顺序性

连续变量测量(间距测量):(interval measurement)量化程度更高一些。取值不再是类的编码,采用了一定单位的实际测量值??山屑蛹踉怂?。不能乘除。0值不是物理上的绝对0;

连续变量测量(比例测量):(ratio measurement)最高级的测量等级,具有间距测量额所有性质,且0值有物理上的绝对意义,可以进行加减乘除。

变量分类:分类变量:通??梢约觳楸淞康?众数,分类取值的百分比间的差别大小,有无太小的比例(异常值)

频次:每个水平出现的次数

百分比:每个水平出现的频数/总数

累积频次与累积百分比:仅对于次序变量有意义,分别计算累积频次和百分比

顺序变量:众数,频次,百分比,累积频次与百分比,四分位差

连续变量:中心水平,离散程度,偏度和峰度

以上变量顺序量化水平是由低到高的,低水平变量统计量可以用于高水平,但高水平统计量不一定能用于低水平。

二、中心水平:

统计量:均值,中位数和众数;

众数:出现次数最多的变量值??赡苊挥谢蛘哂屑父鲋谑?。

中位数:排序后处于中间位置的值,一定要先排序,一般用M表示

均值(四分位数):定义方式类似于中位数,中位数 百分之50对应的数值。Q1称为下四分位数,Q3称为上四分位数,Q2称为中位数。

均值(算数平均数):样本平均数:X拔=样本之和除以样本数量n 总体平均数:μ=总体数据之和除以总体数量N

均值(加权平均数):样本加权平均数:x拔=样本乘以权重后的加和除以权重之和=样本乘以权重后的加和除以样本数量n 总体加权平均数:μ=样本乘以权重后加和除以权重之和=样本乘以权重后的加和除以整体数量N

均值(几何平均数):适用于计算比率数据的平均,主要用于计算平均增长率。G=所有数据乘积后开n次方;

众数和中位数不易受到极端值得影响,平均数易受到极端值得影响。

众数和中位数适合在非对称情况下使用,众数不是唯一的。

三、离散程度:

当知道一个变量的中心水平后,还想知道这个指标到底有多大的代表性。 如果变量变化范围特别小,甚至是常数,这个水平变量就非常有代表意义。

离散程度度量指标:异众比率:非众数组的频数占总频数的比例;r=1-(众数频数/总体频数)主要用于测量分类变量的离散程度。

极差:最大值减去最小值

四分位差:上分位数减去下分位数;Q3-Q1=IQR

方差:总体方差:σ方=(样本值-总体平均数μ)的平方之和除以总体数量N;

样本方差:S方=(样本值-样本平均数X拔)的平方之和除以(样本数量n-1);

标准差:总体标准差 σ=总体方差σ方开平方;

样本标准差S=样本方差S方开平方;

方差在统计学中也称二阶中心距,实际是每个取值到均值之间的距离均值。标准差是描述分析中使用最多的。

零阶矩表示这些点的 总概率(也就是1);

一阶矩表示 期望;

二阶(中心)矩表示 方差;

三阶(中心)矩表示 偏斜度;

四阶(中心)矩表示 峰度

偏度:用户刻画偏态的程度(统计数据峰值与平均值不相等的频率分布)。

偏态有两种情况: 左偏,变量在负的方向有严重拖尾,从小到大排序如下:mean(平均数)median(中位数)mode(众数)

右偏,在正的方向有严重拖尾。从小到大排序如下:mode(众数)median(中位数)mean(平均数)

峰度:变量向两边拖尾的情况。相比正态分布,变量是尖峰的, 超过2倍标准差数值的概论会大于5%;超过3倍标准差数值的概论会大于1%;表明出现较大偏离值的可能性提高了。

正态分布 峰度系数=3,厚尾(峰度值>3)尖峰,瘦尾(峰度值<3)平顶

四、统计图形绘制,图形元素调整 可视化效果与应用

条形图: 很好的展现变量分布情况。但是连续变量不可能做出条形图。

盒须图: 箱线图,提供了中位数,均值,上下分位点的信息??梢粤私獗淞康闹行乃?,也可以了解变量的变化范围。 内限:最大值和最小值;最大值为 上分位点加上1.5倍的内分位距(IQR)最小值 下分位点-1.5倍的内分位距 超过1.5倍的内分位距的取值称为异常值,或离群值。 IQR=Q3-Q1;

玫瑰图: 南丁格尔玫瑰图。 它可以用转角,扇形面积,以及颜色展现数据的不同维度。

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。

http://www.bygkuu.com.cn/style/images/nopic.gif
分享
评论
祖拉的世界