利用python如何爬取js里面的内容

本篇文章给大家分享的内容是3利用python如何爬取js里面的内容 ,有着一定的参考价值,有需要的朋友可以参考一下

一、在编写爬虫软件获取所需内容时可能会碰到所需要的内容是由javascript添加上去的 在获取的时候为空 比如我们在获取新浪新闻的评论数时使用普通的方法就无法获取

利用python如何爬取js里面的内容

普通获取代码示例:

import requestsfrom bs4 import BeautifulSoupres = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml')res.encoding = 'utf-8'soup = BeautifulSoup(res.text,'html.parser')#取评论数commentCount = soup.select_one('#commentCount1')print(commentCount.text)

登录后复制

此时所获取的结果为空 这是由于内容是存储在js文件中

因此我们需要取寻找存储评论内容的js 经过查找我们发现其存储在改js里

利用python如何爬取js里面的内容

将相应内容放入json数据查看器中我们发现评论总数和评论内容都在该js文件中一json格式存放

利用python如何爬取js里面的内容

在消息头中我们可以看的该js文件的访问路径及请求方式

利用python如何爬取js里面的内容

代码示例

import jsoncomments = requests.get('http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fyfzhac1650783')comments.encoding = 'utf-8'print(comments)jd = json.loads(comments.text.strip('var data=')) #移除改var data=将其变为json数据print(jd['result']['count']['total'])

登录后复制

注释:这里解释下为何需要移除 var data= 因为在获取时字符串前缀是包含var data=的 其不符合json数据格式 因此转化时需将其从请求内容中移除

利用python如何爬取js里面的内容

取评论总数时为何使用jd[‘result’][‘count’][‘total’]

利用python如何爬取js里面的内容

以上就是利用python如何爬取js里面的内容的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2264299.html

(0)
上一篇 2025年2月27日 08:06:55
下一篇 2025年2月27日 08:07:16

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • Python中title()方法的使用

    这篇文章主要介绍了python中title()方法的使用简介,现在分享给大家,需要的朋友可以参考下  title()方法返回所有单词的第一个字符大写的字符串的一个副本。语法 以下是title()方法的语法: str.title();登录后复…

    编程技术 2025年2月27日
    200
  • python实现百度语音识别api

    这篇文章主要为大家详细介绍了python实现百度语音识别api,具有一定的参考价值,有需要的朋友可以参考一下 本文实例为大家分享了ython实现百度语音识别的具体代码,供大家参考,具体内容如下 详细百度语音识别api文档 先下载python…

    编程技术 2025年2月27日
    200
  • Python Selenium Cookie 绕过验证码实现登录示例代码_

    这篇文章主要介绍了python selenium cookie 绕过验证码实现登录示例代码,现在分享给大家,有需要的朋友可以参考一下 之前介绍过通过cookie 绕过验证码实现登录的方法。这里并不多余,会增加分析和另外一种方法实现登录。 1…

    2025年2月27日
    200
  • python读取文本中数据并转化为DataFrame的实例_python

    这篇文章给大家分享的是python读取文本中数据并转化为dataframe的实例,具有一定的参考价值,希望可以帮助到有需要的人 在技术问答中看到一个这样的问题,感觉相对比较常见,就单开一篇文章写下来。 从纯文本格式文件 “file_in”中…

    2025年2月27日
    200
  • python怎么处理dataframe的时间字段

    这次给大家带来python怎么处理dataframe的时间字段,python处理dataframe时间字段的注意事项有哪些,下面就是实战案例,一起来看一下。 在机器学习过程中,通常会通过pandas读取csv文件,保持成dadaframe格…

    编程技术 2025年2月27日
    200
  • python怎么调用API实现智能回复功能

    python调用api的方法:首先创建好公众号平台;然后在帮助中心里获取APIkey,并填入相关代码;接着运行代码;最后在弹出的二维码界面中,进行扫描并等待一段时间即可。 这次给大家带来python如何调用API实现智能回复功能,pytho…

    2025年2月27日
    200
  • python读取文本数据并转化为DataFrame格式的方法详解

    这次给大家带来python读取文本数据并转化为DataFrame格式的方法详解,python读取文本数据并转化为DataFrame的注意事项有哪些,下面就是实战案例,一起来看一下。 在技术问答中看到一个这样的问题,感觉相对比较常见,就单开一…

    2025年2月27日
    200
  • python怎样实现百度语音识别api的步奏详解

    这次给大家带来python怎样实现百度语音识别api的步奏详解,python实现百度语音识别api的注意事项有哪些,下面就是实战案例,一起来看一下。 本文实例为大家分享了ython实现百度语音识别的具体代码,供大家参考,具体内容如下 详细百…

    编程技术 2025年2月27日
    200
  • python 实用函数进阶(更新中)

    本篇文章分享的内容是python 实用函数进阶,现在分享给大家,有需要的朋友可以参考一下本篇文章的内容 1.pyhton断言 如何为assert断言语句添加异常参数 assert的异常参数,其实就是在断言表达式后添加字符串信息,用来解释断言…

    编程技术 2025年2月27日
    200
  • Python面向对象之类和实例

    本篇文章给大家分享的内容是关于Python面向对象之类和实例,有着一定的参考价值,有需要的朋友可以参考一下 类和实例 面向对象最重要的概念就是类(class)和实例(instance),必须牢记类是抽象的模板,比如student类,而实例是…

    编程技术 2025年2月27日
    100

发表回复

登录后才能评论