高效抓取 JavaScript 网站

PHP中文网 • 2025年3月6日 16:48:57 • 编程技术 • 阅读 2

使用 javascript 进行网络爬行的可能性

静态网站：axios 和 cheerio
让我们逐步了解如何使用 javascript 抓取静态电子商务网站。在此示例中，我们将使用两个流行的库：用于 http 请求的 axios 和用于解析 html 的 cheerio。

*1。安装依赖项 *
使用 npm 安装 axios 和 cheerio：

npm 安装 axios cheerio

*2。创建脚本 *
创建一个 javascript 文件，例如b. scrapeecommerce.js 并在代码编辑器中打开它。

*3。导入模块*
将 axios 和 cheerio 导入到您的脚本中：

const axios = require(‘axios’);

const cheerio = require(‘cheerio’);

*4。定义目标 url *
选择您要访问的电子商务网站。在此示例中，我们使用假设的 url http://example-ecommerce.com。将其替换为所需的 url：

const url = ‘http://example-ecommerce.com’;

*5。获取 html 内容 *
使用axios向目标url发送get请求，获取html内容：

axios.get(url)

.then(响应=> {

const html = response.data;

// 现在可以解析 html 内容

})

.catch(错误=> {

console.error(‘获取页面时出错：’, error);

});

*6。解析 html 并提取数据 *
使用 cheerio 解析 html 代码并提取您想要的信息，例如产品名称和价格：

axios.get(url)

.then(响应=> {

const html = response.data;

const $ = cheerio.load(html);

const products = [];  $('.product').each((index, element) => {    const name = $(element).find('.product-name').text().trim();    const price = $(element).find('.product-price').text().trim();    products.push({ name, price });  });  console.log(products);

登录后复制登录后复制

})

.catch(错误=> {

console.error(‘获取页面时出错：’, error);

});

*要点*

axios.get(url)：发送 get 请求并返回承诺。.then(response => { … })：如果请求成功，则html内容在response.data中。cheerio.load(html)：将 html 内容加载到 cheerio 中，以进行类似 jquery 的 dom 操作。$(‘.product’).each((index, element) => { … })：迭代所有 .product 元素。$(element).find(‘.product-name’).text().trim()：提取产品名称。$(element).find(‘.product-price’).text().trim()：提取产品的价格。products.push({ name,price })：将产品信息添加到产品数组中。console.log(products)：输出提取的信息。

*完整示例脚本：*
const axios = require(‘axios’);

const cheerio = require(‘cheerio’);

const url = ‘http://example-ecommerce.com’;

axios.get(url)

.then(响应=> {

const html = response.data;

const $ = cheerio.load(html);

const products = [];  $('.product').each((index, element) => {    const name = $(element).find('.product-name').text().trim();    const price = $(element).find('.product-price').text().trim();    products.push({ name, price });  });  console.log(products);

登录后复制登录后复制

})

.catch(错误=> {

console.error(‘获取页面时出错：’, error);

});

*着陆页自定义：*

选择器：.product、.product-name 和 .product-price 选择器必须适应目标页面的实际 html 结构。其他数据：有关其他信息（例如产品图片、链接、描述），请检查相应的 html 结构。

使用 javascript 抓取网站的网页抓取工具

如果您最近需要 python、ruby 或其他编程语言进行网页抓取，octoparse 是一个出色的工具，特别是对于支持 javascript 的网站。

立即学习“Java免费学习笔记（深入）”；

举个具体的例子：如果你有一个目标网站，想要开始抓取，你首先应该检查该网站是否被阻止js抓取。不同的网站使用不同的保护方法，您可能需要一些时间和令人沮丧的尝试才能意识到问题，特别是如果抓取没有产生预期的结果。然而，使用网络抓取工具，数据提取过程会顺利进行。

许多网络抓取工具可以让您免去编写爬虫的麻烦。 octoparse 在抓取大量 javascript 页面方面特别高效，可以从 99% 的网页中提取数据，包括使用 ajax 的网页。它还提供验证码解决服务。 octoparse 可免费使用，并提供自动发现功能和 100 多个易于使用的模板，可实现高效的数据提取。新用户还可以享受 14 天的试用期。

以上就是高效抓取 JavaScript 网站的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2591310.html

Python

0 0

关于作者

PHP中文网签约作者

386.4K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

行为驱动开发 (BDD) 的演变和相关性

上一篇 2025年3月6日 16:48:53

golang 优雅处理错误

下一篇 2025年3月2日 14:30:16

编程技术

Web 开发的要点：构建成功的数字基础

在当今数字优先的世界中，拥有一个精心设计、用户友好的网站至关重要。对于任何企业或组织来说，网站通常是客户和用户的第一印象，是关键的接触点和增长的重要驱动力。专业开发的网站超越美观，它涵盖功能、性能、安全性和用户体验，这些是创建强大在线形象的…

PHP中文网
2025年3月6日
2000
编程技术

Cypress 与 Selenium：流行测试框架的比较

Cypress 和 Selenium 是两种最流行的 Web 应用程序测试工具。每个都有其优势和特定的用例，因此根据项目要求、团队技能和测试目标在它们之间进行选择是一个关键决策。本文探讨了 Cypress 与 Selenium 的主要区别、…

PHP中文网
2025年3月6日
2000
编程技术

Choosing Your Tech Stack: A Developer&#s Journey

当我第一次踏上编码之旅时，我对可用的编程语言和技术堆栈的数量感到不知所措。感觉就像走进一个广阔的图书馆，每本书都承诺一次不同的冒险，但我不知道从哪里开始。最初的困惑作为编码世界的新手，我对不同语言的潜力、各种技术堆栈以及与不同编码相关工…

PHP中文网
2025年3月6日
2000
编程技术

GraalVM：JVM 世界的瑞士军刀

让我们沿着记忆之路走一走，了解一下graalvm这位超级英雄。想象一下你在一个聚会上，每个人都在说不同的语言——java、javascript、python、ruby，甚至还有一些晦涩难懂的语言，比如 r。在这种混乱之中，你希望有人能理解所…

PHP中文网
2025年3月6日
2000
顶级自动化测试工具可提高效率

测试自动化涉及使用专门的工具来自动执行原本由人类手动执行的软件测试。这种方法通过使其更快、更准确且更具成本效益来增强测试过程，最终节省资源。自动化测试的好处自动化测试具有几个显着的优势：提高测试覆盖率：与手动测试相比，自动化测试可以显…

PHP中文网
2025年3月6日 • 编程技术
2000
编程技术

OOP-Camp:原始类型的秘密生活

一开始，书呆子们做了 1 和 0 并且发现它很好我曾经告诉我的高中生，程序员所做的就是字面意义上的魔法：我们在岩石上刻下符文，将光线穿过它，结果，我可能会被孟加拉国的一名大学生在社交媒体上称为新的诽谤。抽象能为你做的事情令人难以置信。稍…

PHP中文网
2025年3月6日
2000
编程技术

mac os是用什么语言开发的

macOS 的主要开发语言是：C 语言（内核和系统工具）Objective-C（面向对象编程，应用程序开发）Swift（现代语言，macOS 专用）而其他如 Python、Ruby、JavaScript、Assembly 等语言则用于特定任…

PHP中文网
2025年3月6日
2000
编程技术

您希望早点了解的编程秘密

您是否一直在尝试修复错误或让代码运行得更好？或者也许您只是想学习一些新东西而不是费尽心思？好吧，让我告诉你0x3d.site。对于像您这样的程序员来说，这是一座金矿。该网站提供了一些提示和技巧，可以帮助您改进代码，无论您使用哪种语言。无论您…

PHP中文网
2025年3月6日
2000
编程技术

Playwright：Web UI 自动化测试框架全面概述

playwright是微软开发的web ui自动化测试框架。它旨在提供一个跨平台、跨语言、跨浏览器的自动化测试框架，同时也支持移动浏览器。如其官方主页所述：自动等待、页面元素智能断言、执行追踪等功能，在处理网页不稳定方面非常有效。它在…

PHP中文网
2025年3月6日
2000
编程技术

今天的课程-状态，数据类型

面向对象编程中的对象：状态、行为和标识面向对象编程(OOP)的核心概念是“对象”，它包含三个关键要素：状态、行为和标识。状态：对象的当前属性集合。例如，一辆汽车的状态包括颜色、速度、油量和当前档位。行为：对象可以执行的操作或方法。…

PHP中文网
2025年3月6日
2000