八个可以提高数据科学工作效率并节省宝贵时间的Python库

在进行数据科学时,可能会浪费大量时间编码并等待计算机运行某些东西。 所以我选择了一些 Python 库,可以帮助你节省宝贵的时间。

1、Optuna

Optuna 是一个开源的超参数优化框架,它可以自动为机器学习模型找到最佳超参数。

最基本的(也可能是众所周知的)替代方案是 sklearn 的 GridSearchCV,它将尝试多种超参数组合并根据交叉验证选择最佳组合。

GridSearchCV 将在先前定义的空间内尝试组合。例如,对于随机森林分类器,可能想要测试几个不同的树的最大深度。 GridSearchCV 会提供每个超参数的所有可能值,并查看所有组合。

Optuna会在定义的搜索空间中使用自己尝试的历史来确定接下来要尝试的值。它使用的方法是一种称为“Tree-structured Parzen Estimator”的贝叶斯优化算法。

这种不同的方法意味着它不是无意义的地尝试每一个值,而是在尝试之前寻找最佳候选者,这样可以节省时间,否则这些时间会花在尝试没有希望的替代品上(并且可能也会产生更好的结果)。

最后,它与框架无关,这意味着您可以将它与 TensorFlow、Keras、PyTorch 或任何其他 ML 框架一起使用。

2、ITMO_FS

ITMO_FS 是一个特征选择库,它可以为 ML 模型进行特征选择。拥有的观察值越少,就越需要谨慎处理过多的特征,以避免过度拟合。所谓“谨慎”意思是应该规范你的模型。通常一个更简单的模型(更少的特征),更容易理解和解释。

ITMO_FS 算法分为 6 个不同的类别:监督过滤器、无监督过滤器、包装器、混合、嵌入式、集成(尽管它主要关注监督过滤器)。

“监督过滤器”算法的一个简单示例是根据特征与目标变量的相关性来选择特征。“backward selection”,可以尝试逐个删除特征,并确认这些特征如何影响模型预测能力。

这是一个关于如何使用 ITMO_FS 及其对模型分数的影响的普通示例:

>>> from sklearn.linear_model import SGDClassifier>>> from ITMO_FS.embedded import MOS>>> X, y = make_classification(n_samples=300, n_features=10, random_state=0, n_informative=2)>>> sel = MOS()>>> trX = sel.fit_transform(X, y, smote=False)>>> cl1 = SGDClassifier()>>> cl1.fit(X, y)>>> cl1.score(X, y)0.9033333333333333>>> cl2 = SGDClassifier()>>> cl2.fit(trX, y)>>> cl2.score(trX, y)0.9433333333333334

登录后复制

ITMO_FS是一个相对较新的库,因此它仍然有点不稳定,但我仍然建议尝试一下。

3、shap-hypetune

到目前为止,我们已经看到了用于特征选择和超参数调整的库,但为什么不能同时使用两者呢?这就是 shap-hypetune 的作用。

让我们从了解什么是“SHAP”开始:

“SHAP(SHapley Additive exPlanations)是一种博弈论方法,用于解释任何机器学习模型的输出。”

SHAP 是用于解释模型的最广泛使用的库之一,它通过产生每个特征对模型最终预测的重要性来工作。

另一方面,shap-hypertune 受益于这种方法来选择最佳特征,同时也选择最佳超参数。你为什么要合并在一起?因为没有考虑它们之间的相互作用,独立地选择特征和调整超参数可能会导致次优选择。同时执行这两项不仅考虑到了这一点,而且还节省了一些编码时间(尽管由于搜索空间的增加可能会增加运行时间)。

搜索可以通过 3 种方式完成:网格搜索、随机搜索或贝叶斯搜索(另外,它可以并行化)。

但是,shap-hypertune 仅适用于梯度提升模型!

4、PyCaret

PyCaret 是一个开源、低代码的机器学习库,可自动执行机器学习工作流。 它涵盖探索性数据分析、预处理、建模(包括可解释性)和 MLOps。

让我们看看他们网站上的一些实际示例,看看它是如何工作的:

# load datasetfrom pycaret.datasets import get_datadiabetes = get_data('diabetes')# init setupfrom pycaret.classification import *clf1 = setup(data = diabetes, target = 'Class variable')# compare modelsbest = compare_models()

登录后复制

八个可以提高数据科学工作效率并节省宝贵时间的Python库

只需几行代码,就可以尝试多个模型,并在整个主要分类指标中对它们进行了比较。

它还允许创建一个基本的应用程序来与模型进行交互:

from pycaret.datasets import get_datajuice = get_data('juice')from pycaret.classification import *exp_name = setup(data = juice, target = 'Purchase')lr = create_model('lr')create_app(lr)

登录后复制

最后,可以轻松地为模型创建 API 和 Docker 文件:

from pycaret.datasets import get_datajuice = get_data('juice')from pycaret.classification import *exp_name = setup(data = juice, target = 'Purchase')lr = create_model('lr')create_api(lr, 'lr_api')create_docker('lr_api')

登录后复制

没有比这更容易的了,对吧?

PyCaret是一个非常完整的库,在这里很难涵盖所有内容,建议你现在下载并开始使用它来了解一些 其在实践中的能力。

5、floWeaver

FloWeaver 可以从流数据集中生成桑基图。 如果你不知道什么是桑基图,这里有一个例子:

八个可以提高数据科学工作效率并节省宝贵时间的Python库

在显示转化漏斗、营销旅程或预算分配的数据时,它们非常有用(上例)。 入口数据应采用以下格式:“源 x 目标 x 值”,只需一行代码即可创建此类图(非常具体,但也非常直观)。

6、Gradio

如果你阅读过敏捷数据科学,就会知道拥有一个让最终用户从项目开始就与数据进行交互的前端界面是多么有帮助。一般情况下在Python中最常用是 Flask,但它对初学者不太友好,它需要多个文件和一些 html、css 等知识。

Gradio 允许您通过设置输入类型(文本、复选框等)、功能和输出来创建简单的界面。 尽管它似乎不如 Flask 可定制,但它更直观。

由于 Gradio 现在已经加入 Huggingface,可以在互联网上永久托管 Gradio 模型,而且是免费的!

7、Terality

理解 Terality 的最佳方式是将其视为“Pandas ,但速度更快”。这并不意味着完全替换 pandas 并且必须重新学习如何使用df:Terality 与 Pandas 具有完全相同的语法。实际上,他们甚至建议“import Terality as pd”,并继续按照以前的习惯的方式进行编码。

它快多少?他们的网站有时会说它快 30 倍,有时快 10 到 100 倍。

另一个重要是 Terality 允许并行化并且它不在本地运行,这意味着您的 8GB RAM 笔记本电脑将不会再出现 MemoryErrors!

但它在背后是如何运作的呢?理解 Terality 的一个很好的比喻是可以认为他们在本地使用的 Pandas 兼容的语法并编译成 Spark 的计算操作,使用Spark进行后端的计算。所以计算不是在本地运行,而是将计算任务提交到了他们的平台上。

那有什么问题呢?每月最多只能免费处理 1TB 的数据。如果需要更多则必须每月至少支付 49 美元。 1TB/月对于测试工具和个人项目可能绰绰有余,但如果你需要它来实际公司使用,肯定是要付费的。

8、torch-handle

如果你是Pytorch的使用者,可以试试这个库。

torchhandle是一个PyTorch的辅助框架。 它将PyTorch繁琐和重复的训练代码抽象出来,使得数据科学家们能够将精力放在数据处理、创建模型和参数优化,而不是编写重复的训练循环代码。 使用torchhandle,可以让你的代码更加简洁易读,让你的开发任务更加高效。

torchhandle将Pytorch的训练和推理过程进行了抽象整理和提取,只要使用几行代码就可以实现PyTorch的深度学习管道。并可以生成完整训练报告,还可以集成tensorboard进行可视化。

from collections import OrderedDictimport torchfrom torchhandle.workflow import BaseContextclass Net(torch.nn.Module):def __init__(self, ):super().__init__()self.layer = torch.nn.Sequential(OrderedDict([('l1', torch.nn.Linear(10, 20)),('a1', torch.nn.ReLU()),('l2', torch.nn.Linear(20, 10)),('a2', torch.nn.ReLU()),('l3', torch.nn.Linear(10, 1))]))def forward(self, x):x = self.layer(x)return xnum_samples, num_features = int(1e4), int(1e1)X, Y = torch.rand(num_samples, num_features), torch.rand(num_samples)dataset = torch.utils.data.TensorDataset(X, Y)trn_loader = torch.utils.data.DataLoader(dataset, batch_size=64, num_workers=0, shuffle=True)loaders = {"train": trn_loader, "valid": trn_loader}device = 'cuda' if torch.cuda.is_available() else 'cpu'model = {"fn": Net}criterion = {"fn": torch.nn.MSELoss}optimizer = {"fn": torch.optim.Adam,"args": {"lr": 0.1},"params": {"layer.l1.weight": {"lr": 0.01},"layer.l1.bias": {"lr": 0.02}}}scheduler = {"fn": torch.optim.lr_scheduler.StepLR,"args": {"step_size": 2, "gamma": 0.9}}c = BaseContext(model=model,criterion=criterion,optimizer=optimizer,scheduler=scheduler,context_tag="ex01")train = c.make_train_session(device, dataloader=loaders)train.train(epochs=10)

登录后复制

定义一个模型,设置数据集,配置优化器、损失函数就可以自动训练了,是不是和TF差不多了。

以上就是八个可以提高数据科学工作效率并节省宝贵时间的Python库的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2241967.html

(0)
上一篇 2025年2月26日 20:46:49
下一篇 2025年2月19日 03:53:37

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • 为什么有些人宁愿花费很多时间去自己手工配置Python环境, 也不用Anaconda?

    也有很多人是自己配置Python环境,而不用Anaconda,我理解有两方面原因。 首先Anaconda对数据科学很友好,但对于其他Python应用场景并不是最佳选择,更多人会使用原生python+pip+venv,去搭配自己的开发环境。 …

    2025年2月26日 编程技术
    200
  • 整理了12个必备的Python函数,建议收藏

    前言 新手在做写代码的时候容易卡壳,尤其当接触的函数以及其他知识比较多的时候,经常会看完需求之后不知道自己该用什么方法来实现它,实现的逻辑可能你有,但怎么该用什么函数给忘了,这其实就是知识的储备不够,你记不住哪个函数有什么作用,自然一头雾水…

    2025年2月26日 编程技术
    200
  • 用 Python 给你一个圣诞帽

    圣诞将至,虽然咱不过这洋节,但是热闹还是要凑一下的,相信已经有很多圣诞帽相关的周边在流传了,今天咱们就自己动手,给头像增加一个圣诞帽 基础知识准备 在计算机中,图像是以矩阵的形式保存的,先行后列。所以,一张宽×高×颜色通道=480×256×…

    2025年2月26日 编程技术
    200
  • Python编程:如何实现类装饰器及应用?要点要掌握

    示例 Python中的装饰器既可以是函数也可以是类。在前几节中,我们使用的是函数装饰器。现在,我们将学习如何定义类装饰器。 我们将定义充当装饰器的自定义类。当用类装饰/修饰函数时,该函数就成为该类的实例。让我们来一探究竟: 如上所示,我们创…

    2025年2月26日 编程技术
    200
  • 五分钟菜鸟学会Python玩转SQL的神器!

    背景 其实一开始用的是pymysql,但是发现维护比较麻烦,还存在代码注入的风险,所以就干脆直接用ORM框架。 ORM即Object Relational Mapper,可以简单理解为数据库表和Python类之间的映射,通过操作Python…

    2025年2月26日
    200
  • 时间序列特征提取的Python和Pandas代码示例

    使用Pandas和Python从时间序列数据中提取有意义的特征,包括移动平均,自相关和傅里叶变换。 前言 时间序列分析是理解和预测各个行业(如金融、经济、医疗保健等)趋势的强大工具。特征提取是这一过程中的关键步骤,它涉及将原始数据转换为有意…

    2025年2月26日 编程技术
    200
  • 小白必读!十大被低估的Python自带库!

    大 大家在学习python的过程中,都会了解到python的一个强大的功能在于各种强大的第三方库函数,大家只需要通过pip install 即可安装我们需要的库函数。 家往往只是关注自己安装的python库,却忽略了python自带的库函数…

    2025年2月26日 编程技术
    200
  • 用于清理数据的五个简单有效 Python 脚本

    将 PDF 转换为 CSV 在机器学习中,我们应该少一些“数据清理”,多一些“数据准备”。当我们需要从白皮书、电子书或其他PDF文档中抓取数据时,这个脚本为我节省了很多时间。 import tabula#获取文件pdf_filename =…

    2025年2月26日
    200
  • Python爬取天气数据及可视化分析

    正文  大家好,我是Python人工智能技术 天气预报我们每天都会关注,我们可以根据未来的天气增减衣物、安排出行,每天的气温、风速风向、相对湿度、空气质量等成为关注的焦点。得到温湿度度变化曲线、空气质量图、风向雷达图等结果,为获得未来天气信…

    2025年2月26日 编程技术
    200
  • Python 批量加水印只需一行命令!

    工作的时候,尤其是自媒体工作者,必备水印添加工具以保护知识产权图片,网上有许多的在线/下载的水印添加工具,但他们或多或少都存在以下问题: 1. 在线工具需要将图片上传到对方服务器,信息不安全。 2. 很多工具不具备批量处理功能。 3. 很多…

    2025年2月26日 编程技术
    200

发表回复

登录后才能评论