【ML】每天一点 sklearn

sklearn中文社区1
sklearn中文社区2
超详细入门

案例

鸢尾花svm
鸢尾花2
乳腺癌svm,from UCI

数据集

UCI数据集
UCI使用教程(注意看文章里面的链接)
数据集页面后缀为 .data .csv 的为数据集,剩余的文件均为数据集信息

sklearn项目一般步骤:

获取数据
数据预处理
特征工程
建立模型、训练模型、调参
模型评估

读入数据:
datasets 详解
数据集文件读取的几种方式
数据集文件读取的几种方式2
利用urllib直接网络读入
鸢尾花的导入与划分

导入的UCI的数据的表头( names 列表)如何确定?

一般都在UCI主页的 Attribute Information 中列出来了,可以直接对应其表头。
个别数据集,比如乳腺癌数据集,3种癌细胞每个有10个特征,需要自行对三种癌细胞进行命名/编号
这就需要对数据集的信息进行分析,观察数据特征,分析其含义,给出适合的 names

数据预处理

归一化
注:归一化和标准化不同,标准化是变为正态分布

特征工程
sklearn-pandas 示例

数据集划分
train_test_split()

数据可视化

未完成任务:

1 sklearn svm 图 (分类结果可视化
2 实验代码中调参部分函数

赞赏