Python脚本检测网站链接是否存在_html/css_WEB-ITnose

早就听说python语言操作简单,果然名不虚传,短短几句,就实现了基本的功能。

要检测目标网站上是否存在指定的URL,其实过程很简单:

1、获得指定网站网页的HTML代码

2、在HTML代码中查找指定的URL

3、如果存在,OK;否则,Error

立即学习“Python免费学习笔记(深入)”;

整个程序引用了两个lib库, urllib2sgmllib

urllib2 库主要定义了一些访问URL(基本通过HTTP)的函数与类。

sgmllib 库主要负责解析HTML代码。

 1 import urllib2 2 from sgmllib import SGMLParser 3  4 class URLLister(SGMLParser): 5     def reset(self): 6         SGMLParser.reset(self) 7         self.urls = [] 8  9     def start_a(self,attrs):10         href=[v for k,v in attrs if k=='href']11         if href:12             if (href[0].count('http://网站URL')==1):13                 self.urls.extend(href)14 15 16 links = ['http://www.google.com/',17          'http://www.baidu.com',18          'http://www.sohu.net',19          'http://www.163.com',20          'http://www.cnblogs.com',21          'http://www.qq.com',22          'http://www.yahoo.com/',23          'http://www.bing.com/',24          'http://www.360.com',]25 26 for eachlink in links:27     f = urllib2.urlopen(eachlink)28     if f.code ==200:29         parser = URLLister()30         parser.feed(f.read())31         f.close()32         if (len(parser.urls)>=1):33             print 'The link from '+eachlink+' is OK!'34         else:35             print 'The link from '+eachlink+' is ERROR!'

登录后复制

这其中几个主要函数:

1、 urllib2. urlopen ( url[,  data][,  timeout] )//打开一个URL

2、 SGMLParser. feed ( data ) //获得需要解析的HTML数据

3、 SGMLParser. start_tag ( attributes ) //指定需要解析的HTML标签,在本程序中,我们调用了start_a,说明我们需要解析HTML代码中标签。通过查找标签中href属性的value,可以获得该网页上所有链接的信息,只要我们指定的URL存在,就OK了。

这其实是一个很小的脚本,但也让我激动不已。一来,我已经跨进了Python的世界,并用它解决了实际工作中的问题,二来,它的简单语法、缩进格式着实让我眼前一亮。今后,希望能够多多使用Python,解决实际工作中的种种问题,做到学以致用

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/3117478.html

(0)
上一篇 2025年3月29日 13:38:43
下一篇 2025年3月6日 15:02:25

AD推荐 黄金广告位招租... 更多推荐

发表回复

登录后才能评论