Python即时网络爬虫:API说明

api说明——下载gsextractor内容提取器

1,接口名称

下载内容提取器

2,接口说明

如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试。

立即学习“Python免费学习笔记(深入)”;

如果要从一个网页上提取很多字段,逐个调试XPath将是十分耗时的。通过这个接口,你可以直接获得一个调测好的提取器脚本程序,是标准的XSLT程序,您只需针对目标网页的DOM运行它,就能获得XML格式的结果,所有字段一次性获得。

这个XSLT提取器可以是您用MS谋数台生成的,也可以是其他人共享给您的,只要您有读权限,皆可下载使用。

用于数据分析和数据挖掘的网络爬虫程序中,内容提取器是影响通用性的关键障碍,如果这个提取器是从API获得的,您的网络爬虫程序就能写成通用的框架。

3,接口规范

3.1,接口地址(URL)

http://www.gooseeker.com/api/getextractor

3.2,请求类型(contentType)

不限

3.3,请求方法

HTTP GET

3.4,请求参数

key 必选:Yes;类型:String;说明:申请API时分配的AppKey

theme 必选:Yes;类型:String;说明:提取器名,就是用MS谋数台定义的规则名

middle 必选:No;类型:String;说明:规则编号,如果相同规则名下定义了多个规则,需填写

bname 必选:No;类型:String;说明:整理箱名,如果规则含有多个整理箱,需填写

3.5,返回类型(contentType)

text/xml; charset=UTF-8

3.6,返回参数

HTTP消息头中的参数,如下:

more-extractor 类型:String;说明:相同规则名下有多少个提取器。通常只在可选参数没有填写的时候需要关注这个参数,用以提示客户端有多个规则和整理箱,客户端自己决定是否要在发送请求时携带明确的参数

3.7,返回错误信息

消息层错误以HTTP 400返回,比如,URL中的参数不符合本规范

应用层错误以HTTP 200 OK返回,具体错误码用XML文件放在消息体中,XML结构如下:

    具体的错误码

登录后复制

具体的code值如下:keyError:权限验证失败

keyError:权限验证失败paramError:URL中传来的参数有误,比如,参数名称或值不正确

登录后复制

4,用法范例(python语言)

示例代码:

# -*- coding: utf-8 -*-from urllib import requesturl = 'http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名'resp = request.urlopen(url)content = resp.read()if(content):    print(content)

登录后复制

接下来我会对此API进行测试

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2282725.html

(0)
上一篇 2025年2月27日 19:39:07
下一篇 2025年2月19日 00:07:39

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • Python编程规范

    适当的空行有利于增加代码的可读性,加空行可以参考如下几个准则:     1) 在类、函数的定义间加空行;     2) 在 import 不同种类的模块间加空行;     3) 在函数中的逻辑段落间加空行,即把相关的代码紧凑写在一起,作为一…

    编程技术 2025年2月27日
    200
  • 基于Python实现excel表格读写

    首先安装对应的xlrd和xlwt 打开cmd命令窗口输入pip install xlrd和pip install xlwt就可以安装。之后输入pip list检查是否成功配置: xlrd操作# 接下来就是常用的语法操作:   立即学习“Py…

    2025年2月27日 编程技术
    200
  • Python读取PDF内容

    1,引言 晚上翻看《python网络数据采集》这本书,看到读取pdf内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于firefox解析pdf的能力,…

    编程技术 2025年2月27日
    200
  • Python 类与元类的深度挖掘 II

    我们向上回溯一层,看看类对象本身是如何产生的。 我们知道 type() 方法可以查看一个对象的类型,或者说判断这个对象是由那个类产生的: print(type(12))print(type(‘python’)) 登录后复制 登录后复制 cl…

    2025年2月27日
    200
  • Python 中的枚举类型

    枚举类型可以看作是一种标签或是一系列常量的集合,通常用于表示某些特定的有限集合,例如星期、月份、状态等。python 的原生类型(built-in types)里并没有专门的枚举类型,但是我们可以通过很多方法来实现它,例如字典、类等: WE…

    编程技术 2025年2月27日
    200
  • 理解 Python 中s可变参数的 *args 和 **kwargs

    使用默认参数的可变参数 python是支持可变参数的,最简单的方法莫过于使用默认参数,例如: def test_defargs(one, two = 2):   print ‘Required argument: ‘, one   prin…

    编程技术 2025年2月27日
    200
  • python删除文件和删除目录的方法

    下面来看一下python里面是如何删除一个文件及文件夹的~~ 首先引入os模块 import os 删除文件: os.remove() 删除空目录: os.rmdir() 递归删除空目录: os.removedirs() 递归删除目录和文件…

    编程技术 2025年2月27日
    200
  • python3与python2.7的分别

    搜索一下大家就会知道,python有两个主要的版本,python2 和 python3 ,但是python又不同于其他语言,向下兼容,python3是不向下兼容的,但是绝大多数组件和扩展都是基于python2的,下面就来总结一下 pytho…

    编程技术 2025年2月27日
    200
  • Python 异常处理

    python提供了两个非常重要的功能来处理python程序在运行中出现的异常和错误。你可以使用该功能来调试python程序。 异常处理: 本站Python教程会具体介绍。 断言(Assertions):本站Python教程会具体介绍。 py…

    编程技术 2025年2月27日
    200
  • Go语言的类IPython 交互式编程界面

    bret victor 的 inventing on principle 是我看到过的最令人激动和震撼的演示,没有之一。虽然这位前苹果公司的ui大牛早在2012年就作出的这次演示,但他的影响一直没有减弱,编写程序过程中的任何变化,应该直接的…

    2025年2月27日 编程技术
    200

发表回复

登录后才能评论