Python数据分析基础(阮敬编着书籍)
《Python数据分析基础》是2017年中国统计出版社出版的一本书籍,书籍的作者是阮敬。
内容简介
本书通过真实案例,全面介绍python编程基础和数据分析工具的套用,并培养读者通过数据分析问题、解决问题以及对结果评价的能力。全书内容包括:python基本配置和编程基础、数据预处理、数据描述与可视化、统计推断、相关分析、关联分析、回归分析、主成分和因子分析、聚类、判别与分类、列联分析、对应分析、定性数据分析、时间序列分析等,将读者关注的数据分析与数据挖掘技术进行剖析。
图书目录
第1章Python编程基础 1
1.1Python系统配置 1
1.2Python基础知识 5
1.2.1帮助 6
1.2.2标识符 6
1.2.3行与缩进 7
1.2.4变数与对象 7
1.2.5数字与表达式 9
1.2.6运算符 10
1.2.7字元串 11
1.2.7.1转义字元 11
1.2.7.2字元串格式化 12
1.2.7.3字元串的内置方法 13
1.2.8日期和时间 17
1.3数据结构与序列 18
1.3.1列表 19
1.3.1.1列表索引和切片 19
1.3.1.2列表操作 20
1.3.1.3内置列表函式 20
1.3.1.4列表方法 21
1.3.2元组 22
1.3.3字典 23
1.3.4集合 24
1.3.5推导式 26
1.4语句与控制流 27
1.4.1条件语句 27
1.4.2循环语句 28
1.4.2.1while循环 28
1.4.2.2for循环 29
1.4.2.3循环控制 30
1.5函式 30
1.5.1函式的参数 32
1.5.2全局变数与局部变数 32
1.5.3匿名函式 33
1.5.4递归和闭包 33
1.5.5柯里化与反柯里化 35
1.5.6常用的内置函式 36
1.5.6.1filter函式 36
1.5.6.2map函式 36
1.5.6.3reduce函式 37
1.6叠代器、生成器和装饰器 37
1.6.1叠代器 37
1.6.2生成器 38
1.6.3装饰器 40
1.7类 42
1.7.1声明类 42
1.7.2方法 44
1.7.2.1实例方法 44
1.7.2.2类方法 45
1.7.2.3静态方法 46
1.7.3属性 47
1.7.3.1实例属性和类属性 47
1.7.3.2私有属性和公有属性 48
1.7.4继承 49
1.7.4.1隐式继承 49
1.7.4.2显式覆盖 50
1.7.4.3super继承 51
1.7.4.4多态 52
1.7.4.5多重继承 54
1.8模组 54
1.9包 55
1.10档案I/O 55
第2章数据预处理 59
2.1numpy基础 59
2.1.1向量 61
2.1.2数组 62
2.1.2.1数据类型与结构数组 63
2.1.2.2索引与切片 64
2.1.2.3数组的属性 68
2.1.2.4数组排序 69
2.1.2.5数组维度 70
2.1.2.6数组组合 72
2.1.2.7数组分拆 75
2.1.2.8ufunc运算 76
2.1.3矩阵 81
2.1.4档案读写 81
2.2pandas基础 82
2.2.1pandas的数据结构 83
2.2.1.1Series 83
2.2.1.2DataFrame 87
2.2.2pandas的数据操作 96
2.2.2.1排序 96
2.2.2.2排名 98
2.2.2.3运算 100
2.2.2.4函式套用与映射 101
2.2.2.5分组 102
2.2.2.6合併 103
2.2.2.7分类数据 106
2.2.2.8时间序列 107
2.2.2.9缺失值处理 116
第3章数据描述 122
3.1统计量 122
3.1.1集中趋势 122
3.1.1.1均值 123
3.1.1.2中位数 124
3.1.1.3分位数 125
3.1.1.4众数 125
3.1.2离散程度 126
3.1.2.1极差 126
3.1.2.2四分位差 127
3.1.2.3方差和标準差 127
3.1.2.4协方差 128
3.1.2.5变异係数 128
3.1.3分布形状 128
3.1.3.1偏度 129
3.1.3.2峰度 129
3.2统计表 130
3.2.1统计表的基本要素 130
3.2.2统计表的编制 131
第4章统计图形与可视化 135
4.1matplotlib基本绘图 135
4.1.1函式绘图 135
4.1.2图形基本设定 140
4.1.2.1创建图例 140
4.1.2.2刻度设定 141
4.1.2.3图像注解 142
4.1.2.4图像大小 143
4.1.2.5创建子图 144
4.1.2.6其他绘图函式 145
4.1.3面向对象绘图 146
4.1.4绘图样式 148
4.2pandas基本绘图 148
4.3基本统计图形 150
4.3.1折线图 150
4.3.2面积图 153
4.3.3直方图 153
4.3.4条形图 155
4.3.5龙捲风图 158
4.3.6饼图 159
4.3.7阶梯图 160
4.3.8盒须图 161
4.3.9小提琴图 163
4.3.10散点图 164
4.3.11气泡图 166
4.3.12六边形箱图 167
4.3.13雷达坐标图 168
4.3.14轮廓图 169
4.3.15调和曲线图 169
4.3.16等高线图 170
4.3.17极坐标图 170
4.3.18词云图 171
4.3.19数据地图 174
4.4其他绘图工具 176
第5章简单统计推断 178
5.1常用数据分析工具库 178
5.1.1scipy 178
5.1.2statsmodels 179
5.1.3sklearn 180
5.2简单统计推断的基本原理 180
5.2.1数据分布 180
5.2.1.1总体分布 181
5.2.1.2样本分布 181
5.2.1.3抽样分布 181
5.2.2参数估计 183
5.2.2.1点估计 184
5.2.2.2区间估计 184
5.2.3假设检验 185
5.2.3.1假设检验的基本思想 185
5.2.3.2假设检验基本步骤 186
5.2.3.3假设检验中总体的几种不同情况 187
5.3单总体参数的估计及假设检验 189
5.3.1单总体的参数估计 189
5.3.1.1单总体均值的参数估计 189
5.3.1.2单总体方差、标準差的参数估计 190
5.3.1.3单总体比例的参数估计 191
5.3.2单总体参数的假设检验 191
5.3.2.1总体均值的假设检验 191
5.3.2.2总体比例的假设检验 194
5.4两总体参数的假设检验 194
5.4.1独立样本的假设检验 195
5.4.1.1独立样本均值之差的假设检验 195
5.4.1.2独立样本比例之差的假设检验 197
5.4.2成对样本的假设检验 198
第6章方差分析 201
6.1方差分析的基本原理 201
6.2一元方差分析 205
6.2.1一元单因素方差分析 205
6.2.1.1方差同质性检验 206
6.2.1.2方差来源分解及检验过程 206
6.2.1.3多重比较检验 207
6.2.1.4方差分析模型的参数估计和预测 208
6.2.1.5方差分析模型的预测 210
6.2.2一元多因素方差分析 210
6.2.2.1只考虑主效应的多因素方差分析 211
6.2.2.2存在互动效应的多因素方差分析 215
6.3协方差分析 217
第7章非参数检验 220
7.1非参数检验的基本问题 220
7.2单样本非参数检验 221
7.2.1中位数(均值)的检验 221
7.2.2分布的检验 223
7.2.3游程检验 224
7.3两个样本的非参数检验 225
7.3.1独立样本中位数比较的Wilcoxon秩和检验 225
7.3.2独立样本的分布检验 227
7.3.3成对(匹配)样本中位数的检验 228
7.3.4两样本的游程检验 228
7.4多个样本的非参数检验 229
7.4.1多个样本的分布检验 229
7.4.2独立样本位置的检验 230
第8章相关分析与关联分析 233
8.1相关分析 233
8.1.1函式关係与相关关係 233
8.1.2简单相关分析 234
8.1.2.1用图形描述相关关係 234
8.1.2.2用相关係数测度相关关係 235
8.1.2.3相关係数的显着性检验 236
8.1.3偏相关分析 238
8.1.4点二列相关分析 239
8.1.5非参数相关分析 240
8.1.5.1Spearman相关係数 240
8.1.5.2Kendalltau-b係数 241
8.1.5.3Hoeffding’sD係数 241
8.2关联分析 243
8.2.1基本概念与数据预处理 243
8.2.2Apriori算法 245
8.2.3FP-growth算法 249
第9章回归分析 251
9.1线性回归 251
9.1.1回归分析的基本原理 251
9.1.1.1参数估计的普通最小二乘法 253
9.1.1.2回归方程的检验及模型预测 254
9.1.2一元线性回归 255
9.1.3多元线性回归 262
9.1.4含有定性自变数的线性回归 266
9.2非线性回归 270
9.2.1可线性化的非线性分析 270
9.2.2非线性回归模型 273
9.3多项式回归 276
9.4分位数回归 279
第10章离散因变数模型 285
10.1线性机率模型 285
10.2二元选择模型 287
10.2.1线性机率模型的缺陷与改进 287
10.2.2二元选择模型的基本原理 287
10.2.2.1模型构建和参数估计过程 288
10.2.2.2模型检验 289
10.2.3BINARYPROBIT模型 289
10.2.4BINARYLOGIT模型 293
10.3多重选择模型 295
10.4计数模型 298
第11章主成分与因子分析 301
11.1数据降维 301
11.1.1数据降维的基本问题 302
11.1.2数据降维的基本原理 302
11.2主成分分析 303
11.2.1主成分分析的基本概念与原理 303
11.2.2主成分分析的基本步骤和过程 304
11.3因子分析 313
11.3.1因子分析的基本原理 313
11.3.1.1因子分析模型 313
11.3.1.2因子旋转 314
11.3.1.3因子得分 314
11.3.2因子分析的基本步骤和过程 315
第12章列联分析与对应分析 326
12.1列联分析 326
12.1.1列联表 326
12.1.2列联表的分布 329
12.1.3χ2分布与χ2检验 330
12.1.4χ2分布的期望值準则 331
12.2对应分析 332
12.2.1对应分析的基本思想 332
12.2.2对应分析的步骤和过程 333
12.2.2.1机率矩阵P 333
12.2.2.2数据点坐标 333
12.2.2.3行列变数分类降维 335
12.2.2.4对应分析图 335
第13章聚类 345
13.1聚类的基本原理 345
13.1.1聚类的基本原则 346
13.1.2单一指标的系统聚类过程 347
13.1.3多指标的系统聚类过程 349
13.2聚类的步骤和过程 354
13.2.1系统聚类 354
13.2.2K-MEANS聚类 360
13.2.3DBSCAN聚类 361
第14章判别和分类 363
14.1判别和分类的基本思想 363
14.2常用判别方法和分类算法 364
14.2.1距离判别和线性判别 364
14.2.2贝叶斯判别 371
14.2.3k-近邻 373
14.2.4决策树 375
14.2.5随机森林 380
14.2.6支持向量机 381
第15章时间序列分析 384
15.1时间序列的基本问题 384
15.1.1时间序列的组成部分 384
15.1.2时间序列的平稳性 386
15.1.2.1平稳性的含义 386
15.1.2.2时间序列的零均值化和平稳化 387
15.1.2.3时间序列的平稳性检验 387
15.2ARIMA模型的分析过程 390
15.2.1ARIMA模型 391
15.2.1.1AR模型 391
15.2.1.2MA模型 391
15.2.1.3ARMA模型 392
15.2.2ARMA模型的识别、估计与预测 392
15.2.2.1模型的识别 392
15.2.2.2模型参数估计及检验 395
15.2.2.3模型的预测 398
1.1Python系统配置 1
1.2Python基础知识 5
1.2.1帮助 6
1.2.2标识符 6
1.2.3行与缩进 7
1.2.4变数与对象 7
1.2.5数字与表达式 9
1.2.6运算符 10
1.2.7字元串 11
1.2.7.1转义字元 11
1.2.7.2字元串格式化 12
1.2.7.3字元串的内置方法 13
1.2.8日期和时间 17
1.3数据结构与序列 18
1.3.1列表 19
1.3.1.1列表索引和切片 19
1.3.1.2列表操作 20
1.3.1.3内置列表函式 20
1.3.1.4列表方法 21
1.3.2元组 22
1.3.3字典 23
1.3.4集合 24
1.3.5推导式 26
1.4语句与控制流 27
1.4.1条件语句 27
1.4.2循环语句 28
1.4.2.1while循环 28
1.4.2.2for循环 29
1.4.2.3循环控制 30
1.5函式 30
1.5.1函式的参数 32
1.5.2全局变数与局部变数 32
1.5.3匿名函式 33
1.5.4递归和闭包 33
1.5.5柯里化与反柯里化 35
1.5.6常用的内置函式 36
1.5.6.1filter函式 36
1.5.6.2map函式 36
1.5.6.3reduce函式 37
1.6叠代器、生成器和装饰器 37
1.6.1叠代器 37
1.6.2生成器 38
1.6.3装饰器 40
1.7类 42
1.7.1声明类 42
1.7.2方法 44
1.7.2.1实例方法 44
1.7.2.2类方法 45
1.7.2.3静态方法 46
1.7.3属性 47
1.7.3.1实例属性和类属性 47
1.7.3.2私有属性和公有属性 48
1.7.4继承 49
1.7.4.1隐式继承 49
1.7.4.2显式覆盖 50
1.7.4.3super继承 51
1.7.4.4多态 52
1.7.4.5多重继承 54
1.8模组 54
1.9包 55
1.10档案I/O 55
第2章数据预处理 59
2.1numpy基础 59
2.1.1向量 61
2.1.2数组 62
2.1.2.1数据类型与结构数组 63
2.1.2.2索引与切片 64
2.1.2.3数组的属性 68
2.1.2.4数组排序 69
2.1.2.5数组维度 70
2.1.2.6数组组合 72
2.1.2.7数组分拆 75
2.1.2.8ufunc运算 76
2.1.3矩阵 81
2.1.4档案读写 81
2.2pandas基础 82
2.2.1pandas的数据结构 83
2.2.1.1Series 83
2.2.1.2DataFrame 87
2.2.2pandas的数据操作 96
2.2.2.1排序 96
2.2.2.2排名 98
2.2.2.3运算 100
2.2.2.4函式套用与映射 101
2.2.2.5分组 102
2.2.2.6合併 103
2.2.2.7分类数据 106
2.2.2.8时间序列 107
2.2.2.9缺失值处理 116
第3章数据描述 122
3.1统计量 122
3.1.1集中趋势 122
3.1.1.1均值 123
3.1.1.2中位数 124
3.1.1.3分位数 125
3.1.1.4众数 125
3.1.2离散程度 126
3.1.2.1极差 126
3.1.2.2四分位差 127
3.1.2.3方差和标準差 127
3.1.2.4协方差 128
3.1.2.5变异係数 128
3.1.3分布形状 128
3.1.3.1偏度 129
3.1.3.2峰度 129
3.2统计表 130
3.2.1统计表的基本要素 130
3.2.2统计表的编制 131
第4章统计图形与可视化 135
4.1matplotlib基本绘图 135
4.1.1函式绘图 135
4.1.2图形基本设定 140
4.1.2.1创建图例 140
4.1.2.2刻度设定 141
4.1.2.3图像注解 142
4.1.2.4图像大小 143
4.1.2.5创建子图 144
4.1.2.6其他绘图函式 145
4.1.3面向对象绘图 146
4.1.4绘图样式 148
4.2pandas基本绘图 148
4.3基本统计图形 150
4.3.1折线图 150
4.3.2面积图 153
4.3.3直方图 153
4.3.4条形图 155
4.3.5龙捲风图 158
4.3.6饼图 159
4.3.7阶梯图 160
4.3.8盒须图 161
4.3.9小提琴图 163
4.3.10散点图 164
4.3.11气泡图 166
4.3.12六边形箱图 167
4.3.13雷达坐标图 168
4.3.14轮廓图 169
4.3.15调和曲线图 169
4.3.16等高线图 170
4.3.17极坐标图 170
4.3.18词云图 171
4.3.19数据地图 174
4.4其他绘图工具 176
第5章简单统计推断 178
5.1常用数据分析工具库 178
5.1.1scipy 178
5.1.2statsmodels 179
5.1.3sklearn 180
5.2简单统计推断的基本原理 180
5.2.1数据分布 180
5.2.1.1总体分布 181
5.2.1.2样本分布 181
5.2.1.3抽样分布 181
5.2.2参数估计 183
5.2.2.1点估计 184
5.2.2.2区间估计 184
5.2.3假设检验 185
5.2.3.1假设检验的基本思想 185
5.2.3.2假设检验基本步骤 186
5.2.3.3假设检验中总体的几种不同情况 187
5.3单总体参数的估计及假设检验 189
5.3.1单总体的参数估计 189
5.3.1.1单总体均值的参数估计 189
5.3.1.2单总体方差、标準差的参数估计 190
5.3.1.3单总体比例的参数估计 191
5.3.2单总体参数的假设检验 191
5.3.2.1总体均值的假设检验 191
5.3.2.2总体比例的假设检验 194
5.4两总体参数的假设检验 194
5.4.1独立样本的假设检验 195
5.4.1.1独立样本均值之差的假设检验 195
5.4.1.2独立样本比例之差的假设检验 197
5.4.2成对样本的假设检验 198
第6章方差分析 201
6.1方差分析的基本原理 201
6.2一元方差分析 205
6.2.1一元单因素方差分析 205
6.2.1.1方差同质性检验 206
6.2.1.2方差来源分解及检验过程 206
6.2.1.3多重比较检验 207
6.2.1.4方差分析模型的参数估计和预测 208
6.2.1.5方差分析模型的预测 210
6.2.2一元多因素方差分析 210
6.2.2.1只考虑主效应的多因素方差分析 211
6.2.2.2存在互动效应的多因素方差分析 215
6.3协方差分析 217
第7章非参数检验 220
7.1非参数检验的基本问题 220
7.2单样本非参数检验 221
7.2.1中位数(均值)的检验 221
7.2.2分布的检验 223
7.2.3游程检验 224
7.3两个样本的非参数检验 225
7.3.1独立样本中位数比较的Wilcoxon秩和检验 225
7.3.2独立样本的分布检验 227
7.3.3成对(匹配)样本中位数的检验 228
7.3.4两样本的游程检验 228
7.4多个样本的非参数检验 229
7.4.1多个样本的分布检验 229
7.4.2独立样本位置的检验 230
第8章相关分析与关联分析 233
8.1相关分析 233
8.1.1函式关係与相关关係 233
8.1.2简单相关分析 234
8.1.2.1用图形描述相关关係 234
8.1.2.2用相关係数测度相关关係 235
8.1.2.3相关係数的显着性检验 236
8.1.3偏相关分析 238
8.1.4点二列相关分析 239
8.1.5非参数相关分析 240
8.1.5.1Spearman相关係数 240
8.1.5.2Kendalltau-b係数 241
8.1.5.3Hoeffding’sD係数 241
8.2关联分析 243
8.2.1基本概念与数据预处理 243
8.2.2Apriori算法 245
8.2.3FP-growth算法 249
第9章回归分析 251
9.1线性回归 251
9.1.1回归分析的基本原理 251
9.1.1.1参数估计的普通最小二乘法 253
9.1.1.2回归方程的检验及模型预测 254
9.1.2一元线性回归 255
9.1.3多元线性回归 262
9.1.4含有定性自变数的线性回归 266
9.2非线性回归 270
9.2.1可线性化的非线性分析 270
9.2.2非线性回归模型 273
9.3多项式回归 276
9.4分位数回归 279
第10章离散因变数模型 285
10.1线性机率模型 285
10.2二元选择模型 287
10.2.1线性机率模型的缺陷与改进 287
10.2.2二元选择模型的基本原理 287
10.2.2.1模型构建和参数估计过程 288
10.2.2.2模型检验 289
10.2.3BINARYPROBIT模型 289
10.2.4BINARYLOGIT模型 293
10.3多重选择模型 295
10.4计数模型 298
第11章主成分与因子分析 301
11.1数据降维 301
11.1.1数据降维的基本问题 302
11.1.2数据降维的基本原理 302
11.2主成分分析 303
11.2.1主成分分析的基本概念与原理 303
11.2.2主成分分析的基本步骤和过程 304
11.3因子分析 313
11.3.1因子分析的基本原理 313
11.3.1.1因子分析模型 313
11.3.1.2因子旋转 314
11.3.1.3因子得分 314
11.3.2因子分析的基本步骤和过程 315
第12章列联分析与对应分析 326
12.1列联分析 326
12.1.1列联表 326
12.1.2列联表的分布 329
12.1.3χ2分布与χ2检验 330
12.1.4χ2分布的期望值準则 331
12.2对应分析 332
12.2.1对应分析的基本思想 332
12.2.2对应分析的步骤和过程 333
12.2.2.1机率矩阵P 333
12.2.2.2数据点坐标 333
12.2.2.3行列变数分类降维 335
12.2.2.4对应分析图 335
第13章聚类 345
13.1聚类的基本原理 345
13.1.1聚类的基本原则 346
13.1.2单一指标的系统聚类过程 347
13.1.3多指标的系统聚类过程 349
13.2聚类的步骤和过程 354
13.2.1系统聚类 354
13.2.2K-MEANS聚类 360
13.2.3DBSCAN聚类 361
第14章判别和分类 363
14.1判别和分类的基本思想 363
14.2常用判别方法和分类算法 364
14.2.1距离判别和线性判别 364
14.2.2贝叶斯判别 371
14.2.3k-近邻 373
14.2.4决策树 375
14.2.5随机森林 380
14.2.6支持向量机 381
第15章时间序列分析 384
15.1时间序列的基本问题 384
15.1.1时间序列的组成部分 384
15.1.2时间序列的平稳性 386
15.1.2.1平稳性的含义 386
15.1.2.2时间序列的零均值化和平稳化 387
15.1.2.3时间序列的平稳性检验 387
15.2ARIMA模型的分析过程 390
15.2.1ARIMA模型 391
15.2.1.1AR模型 391
15.2.1.2MA模型 391
15.2.1.3ARMA模型 392
15.2.2ARMA模型的识别、估计与预测 392
15.2.2.1模型的识别 392
15.2.2.2模型参数估计及检验 395
15.2.2.3模型的预测 398
转载请注明出处海之美文 » Python数据分析基础(阮敬编着书籍)