格式化和清洗数据的 Python 工具包

世界很杂乱,来自现实世界的数据也一样杂乱。近来一份调查报告显示数据科学家60%的时间都花在整理数据上。不幸的是,57%的人认为这是工作中最头疼的一部分。

整理数据非常消耗时间,不过也有许多工具被开发出来让这关键的一步变得稍微可以忍受。Python 社区提供了许多库让数据变得清晰有序——从格式化 DataFrame 到匿名化数据集。

告诉我们你觉得有用的库——我们一直致力于优化放入Mode Python Notebooks中的库。

python-data-cleaning-libraries.png

立即学习“Python免费学习笔记(深入)”;

Dora

Dora是为探索性分析而设计的。特别是自动化分析中最痛苦的部分——比如特征选取和提取,可视化,还有你能猜到的——数据清洁。数据清洁相关的函数可以:

读取含有缺失数据和没有标准化的数据表

给缺失数据赋值

标准化变量

开发者:Nathan Epstein
更多资料:https://github.com/NathanEpstein/Dora

datacleaner

号外号外,datacleaner 清洗你的数据——不过只有在你的数据是 pandas DataFrame 实例的时候。开发者Randy Olson说:“datacleaner 不是魔法,它无法神奇的解析你没有结构的数据。”

它可以删除含有缺失数据的行,或者利用列的众数或中位数填充缺失数据,将非数值型变量转化为数值型变量。这个库很新,但考虑到DataFrame 是 Python 数据分析的基本数据结构,这个库还是值得试试看的。

开发者:Randy Olson
更多资料:https://github.com/rhiever/datacleaner

PrettyPandas

DataFrame 很强大,但是它们无法制作出你可以直接给你的老板看的表。PrettyPandas 利用了pandas 风格 API 将 DataFrame 转换成可以演示的表格。产生数据摘要,设置风格,调整数据格式,列和行。附加福利:强健,可读性高的使用文档。

开发者:Henry Hammond
更多资料:https://github.com/HHammond/PrettyPandas

tabulate

tabulate 可以让你仅仅用一个函数调用生成小型耐看的表格。非常适合于通过调整小数点列对齐,数据格式,表头和其他让表格可读性更高。

它有一个超酷的功能是可以让表格输出成不同的格式:HTML, PHP 或者 Markdown Extra,这样你可以用其他的工具或语言继续在使用你已经表格化的数据。

开发者: Sergey Astanin
更多资料:https://pypi.python.org/pypi/tabulate

scrubadub

健康领域和金融领域的数据科学家常需要匿名化数据集。scrubadub可以将 私人信息 (PII) 从文本从移除。例如:

姓名 (名词)

Email地址

网络链接

电话号码

用户名/密码组

Skype 用户名

社会保险号

文档很好的演示了通过哪些途径你可以自定义 scrubadub 的行为,例如定义新的 PII 或者保留特定的 PII。

开发者:Datascope Analytics
更多资料:http://scrubadub.readthedocs.io/en/stable/index.html

Arrow

让我们实话实说:在 Python 里处理日期和时间是很痛苦的。当地时区无法被自动识别。得用好几行不那么让人舒服的代码来转换时区和时间戳。

Arrow 旨于解决这个问题并且填补这个功能空白,从而让你可以用更少的代码和引入库来完成对日期和时间的操作。跟 Python 的标准时间库不同的是,Arrow 默认自动识别时区和 UTC。你可以只用一行代码来完成时区转换或者分析时间字符串。

开发者:Chris Smith
更多资料:http://arrow.readthedocs.io/en/latest/

Beautifier

Beautifier 的任务很简单:清洗 URL 和 Email 地址并让它们看起来更漂亮。你可以通过域名和用户名来解析 email ; 通过域名和参数来解析URL。(UTM 或者标记)

开发者:Sachin Philip Mathew
更多资料:https://github.com/sachinvettithanam/beautifier

ftfy

ftfy (fixes text for you) takes in bad Unicode outputs good Unicode. Basically, it fixes all the junk characters. â€œquotesâ€x9d becomes “quotes”; ü becomes ü; 

ftfy (fixes text for you)将杂乱的Unicode转化为可识别的Unicode。简单的说,它处理所有的垃圾字符。“quotesâ€x9d 变成 “quotes”; ü 变成 ü; 

开发者:Luminoso
更多资料:https://github.com/LuminosoInsight/python-ftfy

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2283069.html

(0)
上一篇 2025年2月27日 19:54:03
下一篇 2025年2月25日 07:42:12

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • 数据集合: list,tuple,dict,set

    python的数据集合有四种,即list,tuple,dict,set 列表,List List是Python中一种有序的可变的数据集合。它的元素可以被添加或则删除。List的表示方法是用一个[]将元素包含起来,元素间用,号分隔。例如[2,…

    编程技术 2025年2月27日
    200
  • python学习笔记-定义函数

    python中定义函数的关键词是def,例如定义一个叫my_function的函数我们可以这么定义, 其中括号内的x,y为传入的参数。 def my_function():    # function body 登录后复制 返回值 函数可以…

    编程技术 2025年2月27日
    200
  • Python: 你不知道的 super

    super() 的入门使用 在类的继承中,如果重定义某个方法,该方法会覆盖父类的同名方法,但有时,我们希望能同时实现父类的功能,这时,我们就需要调用父类的方法了,可通过使用 super 来实现,比如: class Animal(object…

    编程技术 2025年2月27日
    200
  • python递归函数

    函数就像一个盒子,将相关的一些功能打包成一个函数,以供调用。函数内部可以调用其他函数,也可以调用这个函数自身。如果一个函数在内部调用函数自身,那么这个就是递归函数。我们举一个简单的例子。数学中我们知道100的阶乘,100!=1009998&…

    编程技术 2025年2月27日
    200
  • python:Centos6下python2.7的安装

    1)编译安装python2.7 [root@mysql-master ~]# python -VPython 2.6.6查看python的版本信息(之前的yum是通过yum安装的)[root@mysql-master src]# wget …

    编程技术 2025年2月27日
    200
  • Python 字典操作

    今天开始打算每周都写点东西来记录自己的学习,自己mark一下。 字典是python中最灵活的内置数据结构,字典是无序的集合(字典的顺序随机是为了快速执行键查找),python采用最优化的散列算法来寻找键;字典类似于java中的map,但是没…

    编程技术 2025年2月27日
    200
  • Python+大数据计算平台,PyODPS架构搭建

    数据分析和机器学习 大数据基本都是建立在Hadoop系统的生态上的,其实一个Java的环境。很多人喜欢用Python和R来进行数据分析,但是这往往对应一些小数据的问题,或者本地数据处理的问题。如何将二者进行结合使其具有更大的价值?Hadoo…

    2025年2月27日 编程技术
    200
  • Python 性能分析工具简介

    性能分析和调优工具简介 总会遇到一个时候你会想提高程序执行效率,想看看哪部分耗时长成为瓶颈,想知道程序运行时内存和cpu使用情况。这时候你会需要一些方法对程序进行性能分析和调优。 By Context Manager 可以上下文管理器自己实…

    编程技术 2025年2月27日
    200
  • python 之浅谈接口的定义和抽象类以及抽象方法

    #_*_ coding:utf-8 _*_#知识点:接口的定义和抽象类以及抽象方法 ”’1、抽象类式啥?抽象类加上抽象方法就等于接口 2、接口的定义含义1、别人给你暴露一个URL,然后调用这个URL含义2、定义一个规范,不写具体实现,按照…

    编程技术 2025年2月27日
    200
  • python析构函数和特殊的call方法

    # -*- coding: utf-8 -*-“””Created on Sun Nov 13 23:19:03 2016 @author: toby”””#知识点:析构函数和特殊的__call__方法”’析够函数:其中的“__del__…

    编程技术 2025年2月27日
    200

发表回复

登录后才能评论