Python中数据预处理(代码)

本篇文章给大家带来的内容是关于python中数据预处理(代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。

1、导入标准库

import numpy as npimport matplotlib.pyplot as pltimport pandas as pd

登录后复制

2、导入数据集

dataset = pd.read_csv('data (1).csv')  # read_csv:读取csv文件#创建一个包含所有自变量的矩阵,及因变量的向量#iloc表示选取数据集的某行某列;逗号之前的表示行,之后的表示列;冒号表示选取全部,没有冒号,则表示选取第几列;values表示选取数据集里的数据。X = dataset.iloc[:, :-1].values # 选取数据,不选取最后一列。y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据

登录后复制

3、缺失数据

from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库,Imputer缺失数据的处理#Imputer中的参数:missing_values 缺失数据,定义怎样辨认确实数据,默认值:nan ;strategy 策略,补缺值方式 : mean-平均值 , median-中值 , most_frequent-出现次数最多的数 ; axis =0取列 =1取行 imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)imputer = imputer.fit(X[:, 1:3])#拟合fitX[:, 1:3] = imputer.transform(X[:, 1:3])

登录后复制4、分类数据

from sklearn.preprocessing import LabelEncoder,OneHotEncoderlabelencoder_X=LabelEncoder()X[:,0]=labelencoder_X.fit_transform(X[:,0])onehotencoder=OneHotEncoder(categorical_features=[0])X=onehotencoder.fit_transform(X).toarray()#因为Purchased是因变量,Python里面的函数可以将其识别为分类数据,所以只需要LabelEncoder转换为分类数字labelencoder_y=LabelEncoder()y=labelencoder_y.fit_transform(y)

登录后复制

5、将数据集分为训练集和测试集

from sklearn.model_selection import train_test_splitX_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)#X_train(训练集的字变量),X_test(测试集的字变量),y_train(训练集的因变量),y_test(训练集的因变量)#训练集所占的比重0.2~0.25,某些情况也可分配1/3的数据给训练集;train_size训练集所占的比重#random_state决定随机数生成的方式,随机的将数据分配给训练集和测试集;random_state相同时会得到相同的训练集和测试集

登录后复制6、特征缩放

#特征缩放(两种方式:一:Standardisation(标准化);二:Normalisation(正常化))from sklearn.preprocessing import StandardScalersc_X=StandardScaler()X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放X_test=sc_X.transform(X_test)#sc_X已经被拟合好了,所以对X_test进行缩放时,直接转换X_test

登录后复制

7、数据预处理模板

立即学习“Python免费学习笔记(深入)”;

(1)导入标准库
(2)导入数据集
(3)缺失和分类很少遇到
(4)将数据集分割为训练集和测试集
(5)特征缩放,大部分情况下不需要,但是某些情况需要特征缩放

以上就是Python中数据预处理(代码)的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2533648.html

(0)
上一篇 2025年3月5日 21:17:55
下一篇 2025年2月23日 12:21:09

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • 怎么找到黑客的联系方式?

    如果你想要找到黑客的联系方式,那么你可能面临以下难题:黑客往往会隐藏他们的身份,并且他们的联系方式很难被发现。php小编草莓在这里为你提供了一份指南,旨在帮助你找到黑客的联系方式。在本指南中,我们将介绍一些常见的黑客使用的联系方式,并提供一…

    2025年3月5日
    200
  • Python如何将字符串常量转化为变量?(附示例)

    本篇文章给大家带来的内容是关于python如何将字符串常量转化为变量?(附示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。 本文将相关的内容要点作了梳理,并由此引申到更进一步的学习话题,希望对你有所帮助。 1、如何动态…

    编程技术 2025年3月5日
    200
  • python单链表中如何插入和输出节点?(代码示例)

    python单链表中如何插入和输出节点?下面本篇文章就来带大家了解一下单链表是什么,如何对单链表执行的一些非常基本的操作,例如:插入、输出,希望对大家有所帮助。 单链表是什么? 首先在了解单链表之前,我们必须了解一下节点是什么。 节点是链表…

    2025年3月5日
    200
  • python单链表中如何查找和删除节点?

    在之前的文章【python单链表中如何插入和输出节点?】中给大家介绍了单链表是什么,以及如何进行添加节点、输出所以节点。下面本篇文章给大家介绍如何查找和删除节点,希望对大家有所帮助。 如何从单链表中查找节点? 与大多数数据结构一样,查找元素…

    2025年3月5日
    200
  • 如何使用Python中range()方法?

    python中有很多迭代器,比如list、tuple等,range()提供了另一种方法来使用一些条件初始化数字序列。(相关推荐:《python教程》) range()通常用于循环,因此,在处理任何类型的Python代码时,相同的知识是关键方…

    2025年3月5日
    200
  • Python动态定义函数的方法介绍

    本篇文章给大家带来的内容是关于Python动态定义函数的方法介绍,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。 基于 MIT 许可协议 在 Python 中,没有可以在运行时简化函数定义的语法糖。然而,这并不意味着它就不可…

    编程技术 2025年3月5日
    200
  • Python如何初始化列表?

    python是一种非常灵活的语言,可以通过多种方式执行单个任务,例如,可以通过多种方式执行初始化列表。下面本篇文章就来带大家了解几种python初始化的方法,并比较一下这几种方法的效率,希望对大家有所帮助。 下面我们就来介绍在Python中…

    2025年3月5日
    200
  • Python列表如何统计元素的出现频率?(代码示例)

    有时我们需要在列表中查找、统计列表中特定元素出现的数量(频率),那么如何去统计?下面本篇文章就来带大家了解一下在python中统计列表元素出现频率的方法,希望对大家有所帮助。 方法一:使用Counter() + set()+ 列表推导(Li…

    2025年3月5日
    200
  • Python如何删除除字母和数字之外的所有字符?(代码示例)

    字符串操作是日常编码和web开发中非常重要的任务;例如:http查询中的大多数请求和响应都是字符串形式,有时我们需要删除一些无用的数据。下面本篇文章就来给大家介绍一些python方法来将指定字符串中除字母和数字之外的所有字符都删除,希望对大…

    2025年3月5日
    200
  • Python实现给照片换底色(附代码)

    本篇文章给大家带来的内容是关于Python实现给照片换底色(附代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。 现在网上出现了很多在线换底色的网页版工具是这么做的呢?其实用Python就可以实现。 环境要求 Pytho…

    2025年3月5日
    200

发表回复

登录后才能评论