python基础教程项目四之新闻聚合

这篇文章主要为大家详细介绍了python基础教程项目四之新闻聚合,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

《python基础教程》书中的第四个练习,新闻聚合。现在很少见的一类应用,至少我从来没有用过,又叫做Usenet。这个程序的主要功能是用来从指定的来源(这里是Usenet新闻组)收集信息,然后讲这些信息保存到指定的目的文件中(这里使用了两种形式:纯文本和html文件)。这个程序的用处有些类似于现在的博客订阅工具或者叫RSS订阅器。

先上代码,然后再来逐一分析:

from nntplib import NNTPfrom time import strftime,time,localtimefrom email import message_from_stringfrom urllib import urlopenimport textwrapimport reday = 24*60*60def wrap(string,max=70):    '''    '''    return ''.join(textwrap.wrap(string)) + ''class NewsAgent:    '''    '''    def __init__(self):        self.sources = []        self.destinations = []    def addSource(self,source):        self.sources.append(source)    def addDestination(self,dest):        self.destinations.append(dest)    def distribute(self):        items = []        for source in self.sources:            items.extend(source.getItems())        for dest in self.destinations:            dest.receiveItems(items)class NewsItem:    def __init__(self,title,body):        self.title = title        self.body = bodyclass NNTPSource:    def __init__(self,servername,group,window):        self.servername = servername        self.group = group        self.window = window    def getItems(self):        start = localtime(time() - self.window*day)        date = strftime('%y%m%d',start)        hour = strftime('%H%M%S',start)        server = NNTP(self.servername)        ids = server.newnews(self.group,date,hour)[1]        for id in ids:            lines = server.article(id)[3]            message = message_from_string(''.join(lines))            title = message['subject']            body = message.get_payload()            if message.is_multipart():                body = body[0]            yield NewsItem(title,body)        server.quit()class SimpleWebSource:    def __init__(self,url,titlePattern,bodyPattern):        self.url = url        self.titlePattern = re.compile(titlePattern)        self.bodyPattern = re.compile(bodyPattern)    def getItems(self):        text = urlopen(self.url).read()        titles = self.titlePattern.findall(text)        bodies = self.bodyPattern.findall(text)        for title.body in zip(titles,bodies):            yield NewsItem(title,wrap(body))class PlainDestination:    def receiveItems(self,items):        for item in items:            print item.title            print '-'*len(item.title)            print item.bodyclass HTMLDestination:    def __init__(self,filename):        self.filename = filename    def receiveItems(self,items):        out = open(self.filename,'w')        print >> out,'''                         Today's News                        

Today's News        '''        print >> out, '
    '        id = 0        for item in items:            id += 1            print >> out, '
  • %s
  • ' % (id,item.title)        print >> out, '
'        id = 0        for item in items:            id += 1            print >> out, '

%s

' % (id,item.title)            print >> out, '
%s

登录后复制' % item.body        print >> out, '''                        '''def runDefaultSetup():    agent = NewsAgent()    bbc_url = 'http://news.bbc.co.uk/text_only.stm'    bbc_title = r'(?s)a href="[^" rel="external nofollow" ]*">s*s*(.*?)s*'    bbc_body = r'(?s)s*
s*(.*?)s*

这个程序,首先从整体上进行分析,重点部分在于NewsAgent,它的作用是存储新闻来源,存储目标地址,然后在分别调用来源服务器(NNTPSource以及SimpleWebSource)以及写新闻的类(PlainDestination和HTMLDestination)。所以从这里也看的出,NNTPSource是专门用来获取新闻服务器上的信息的,SimpleWebSource是获取一个url上的数据的。而PlainDestination和HTMLDestination的作用很明显,前者是用来输出获取到的内容到终端的,后者是写数据到html文件中的。

立即学习“Python免费学习笔记(深入)”;

有了这些分析,然后在来看主程序中的内容,主程序就是来给NewsAgent添加信息源和输出目的地址的。

这确实是个简单的程序,不过这个程序可是用到了分层了。

以上就是python基础教程项目四之新闻聚合的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2265188.html

(0)
上一篇 2025年2月27日 08:35:42
下一篇 2025年2月27日 08:36:12

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • sublime怎么输出

    在 Sublime Text 中输出内容有三种方法:在“控制台”面板中使用 print() 语句输出。设置断点并通过调试器的“控制台”选项卡查看输出。重定向 stdout 并通过输出面板查看输出。 如何在 Sublime Text 中输出内…

    2025年3月30日
    100
  • notepad怎么转换为json

    Notepad无法直接将文本转换为JSON。你可以通过检查文本是否符合JSON语法,使用JSON验证器或编程语言进行转换。如果数据是逗号分隔的,可以使用脚本解析数据并转换为JSON格式。 Notepad本身无法直接将文本转换为JSON。No…

    2025年3月30日
    100
  • vscode 和 visual studio 哪个更好

    根据具体需求和项目规模,选择最适合的 IDE:大型项目(尤其是 C#、C++)和复杂调试:Visual Studio,提供强大调试功能和对大型项目的完美支持。小型项目、快速原型开发、配置较低机器:VS Code,轻量级、启动速度快、资源占用…

    2025年3月30日
    100
  • vscode 无法运行 python怎么回事

    最常见的“无法运行 Python”问题源于 Python 解释器路径的错误配置,解决方法包括:确认 Python 安装、配置 VS Code、使用虚拟环境。除此之外,还有断点调试、变量监视、日志输出、代码格式化等高效的调试技巧和最佳实践,如…

    2025年3月30日
    100
  • JSON 差异:比较和识别 JSON 数据中的更改

    JSON(JavaScript 对象表示法)是一种广泛应用于数据传输和存储的结构化数据格式,尤其在Web开发领域。然而,对比两个JSON文件或结构,特别是处理嵌套或复杂数据时,往往充满挑战。JSON差异比较(JSON diff)正是为此而生…

    2025年3月30日
    100
  • Notepad++ 怎么以json格式显示数据

    Notepad++ 无法直接以 JSON 格式显示数据,而是文本编辑器,专注于编程语言语法高亮。查看 JSON 数据的有效方法包括:在线 JSON 格式化工具:简单易用,但可能速度较慢,安全性待考虑。支持 JSON 的代码编辑器:提供语法高…

    2025年3月30日
    100
  • 如何去除JSON数据中外层“other”关键字?

    去除JSON数据外层“other”关键字,保留原始数据 本文介绍如何高效地移除JSON数据中的外层“other”关键字,同时完整保留其内部数据结构。 问题描述: 给定一个JSON数据,其结构如下: { “other”: { “name”: …

    2025年3月30日
    100
  • MongoDB快速入门:从安装到基本操作

    本文介绍了mongodb的快速上手方法。1. 安装mongodb:下载对应版本安装包并运行安装程序,启动mongodb服务;2. 基本操作:使用pymongo驱动程序进行crud操作(插入、查询、更新、删除),注意连接和关闭数据库;3. 性…

    2025年3月30日
    100
  • Python 实现语音识别工具的不同技术方案

    Python 实现语音识别工具的不同技术方案:深度剖析与实践 很多开发者都想过构建一个属于自己的语音识别工具,这听起来很酷,对吧?但实际操作中,你会发现选择合适的技术方案至关重要,它直接影响着你的工具的准确率、效率,甚至最终的易用性。这篇文…

    2025年3月30日
    100
  • 小红书网页源码中多个traceId如何批量替换到指定位置?

    小红书网页源码批量替换traceid方法详解 本文提供一种解决方案,用于批量替换小红书网页源码中多个traceId到指定位置。假设您已获取包含多个traceId的小红书网页HTML源码,且需要将这些traceId替换到特定位置。 核心思路:…

    2025年3月30日
    100

发表回复

登录后才能评论