MongoDB之Hadoop驱动介绍

PHP中文网 • 2025年2月22日 23:27:49 • 数据库 • 阅读 3

对于Collection分块后，会产生一个Config数据库，在这个数据库下有一个叫做chunks的表，其中每个chunk记录了start_row与end_row，

1. 一些概念Hadoop是一套Apache开源的分布式计算框架，其中包括了分布式文件系统DFS与分布式计算模型MapReduce，而MongoDB是一个面向文档的分布式数据库，它是NoSql的一种，，而这里所要介绍的就是一个MongoDB的Hadoop驱动，这里就是把MongoDB作为MapReduce的输入源，充分利用MapReduce的优势来对MongoDB的数据进行处理与计算。
2. MongoDB的Hadoop驱动目前这个版本的Hadoop驱动还是测试版本，还不能应用到实际的生产环境中去。
你可以从下面网址https://github.com/mongodb/mongo-hadoop下载到最新的驱动包，下面是它的一些依赖说明：

目前推荐用最新的Hadoop 0.20.203版本，或者是用Cloudera CHD3还做 MongoDB的版本最好是用1.8+ 还有是MongoDB的java驱动必须是2.5.3+它的一些特点：
提供了一个Hadoop的Input和Output适配层，读于对数据的读入与写出提供了大部分参数的可配置化，这些参数都可有XML配置文件来进行配置，你可以在配置文件中定义要查询的字段，查询条件，排序策略等目前还不支持的功能：
目前还不支持多Sharding的源数据读取还不支持数据的split操作

3. 代码分析
运行其examples中的WordCount.java代码

4. 分块机制的简单介绍

这里没有实现对不同shard的split操作，也就是说，对于分布在不同shard上的数据，只会产生一个Map操作。
这里本人提供了一个分片的思路，有兴趣的可以讨论一下。

我们知道，对于Collection分块后，会产生一个Config数据库，在这个数据库下有一个叫做chunks的表，其中每个chunk记录了start_row与end_row，而这些chunk可以分布在不同的shard上，我们可以通过分析这个Collection来得到每个shard上的chunk信息，从而把每个shard上的chunk信息组合成一个InputSplit,这就是这里的MongoInputSplit,这样的话，只要去修改MongoInputFormat这个类的getSplits这个方法，加入对chunks表的分析，得到shard的信息，这样就可以实现多split的Map操作，对于不同的Shard,每个Map都会调用本地的Mongos代理服务，这样就实现了移动计算而不是移动数据的目的。

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/1937671.html

0 0

关于作者

PHP中文网签约作者

551.4K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

Oracle启动 init.ora spfile pfile

上一篇 2025年2月22日 23:27:41

Oracle 连接出错最常见的原因

下一篇 2025年2月22日 23:28:08

编程技术

koa2怎样做出注册登录功能

这次给大家带来koa2怎样做出注册登录功能，koa2做出注册登录功能的注意事项有哪些，下面就是实战案例，一起来看一下。前言前段时间和公司一个由技术转产品的同事探讨他的职业道路，对我说了一句深以为然的话： “不要把自己禁锢在某一个领域，技…

PHP中文网
2025年3月31日
1000
编程技术

如何使用MongoDB聚合管道对子文档进行排序？

MongoDB子文档排序：高效处理嵌套数据在MongoDB中，对嵌套在文档中的子文档进行排序是数据处理中的常见需求。本文以一个客户敏感词数据为例，演示如何使用MongoDB聚合管道高效地完成子文档排序。假设我们的数据结构包含客户代码和一个…

PHP中文网
2025年3月31日
1000
编程技术

MongoDB子文档排序：如何高效地对嵌套文档进行排序？

MongoDB子文档排序详解及案例分析在MongoDB中，对嵌套文档进行排序并非易事。本文将深入探讨如何高效地对MongoDB集合中的子文档进行排序，并结合实际案例进行说明。假设我们有一个名为customer_sensitiveword…

PHP中文网
2025年3月31日
1000
编程技术

MongoDB子文档排序：如何使用聚合管道对嵌套数组进行倒序排序？

MongoDB子文档排序详解及案例分析在MongoDB数据库中，处理包含嵌套数组（子文档）的文档时，常常需要对这些子文档进行排序。本文将详细讲解如何使用MongoDB聚合管道对子文档进行逆序排序，并通过一个实际案例进行说明。假设我们的数…

PHP中文网
2025年3月31日
1000
编程技术

MongoDB子文档排序：如何高效排序MongoDB文档中的嵌套数组？

MongoDB子文档排序：高效处理嵌套数组在MongoDB数据库中，对包含嵌套数组（子文档）的文档进行排序是常见需求。本文将详细介绍如何利用MongoDB聚合框架高效地实现子文档排序，并通过示例进行说明。假设我们有一个名为custome…

PHP中文网
2025年3月31日
1000
编程技术

MongoDB子文档排序：如何高效排序嵌套文档中的子文档？

MongoDB子文档排序：高效处理嵌套文档在MongoDB中操作嵌套文档，特别是子文档排序，常常带来挑战。本文将详细讲解如何高效地对MongoDB文档中的子文档进行排序，并通过实际案例演示。假设我们有一个名为customer_sensi…

PHP中文网
2025年3月31日
1000
编程技术

PyMongo Cursor 如何高效转换为列表？

PyMongo 游标：高效转换为列表在使用PyMongo操作MongoDB数据库时，经常需要将查询结果（游标对象）转换为列表以便进一步处理或传递给前端。虽然循环迭代逐个添加元素到列表中可行，但效率不高，尤其处理大量数据时。本文探讨更高效的…

PHP中文网
2025年3月31日
1000
编程技术

Python数据库操作：ORM映射是唯一途径吗？

Python数据库操作：灵活选择，ORM并非唯一许多Python开发者在使用Flask框架和数据库驱动（如SQLAlchemy或PyMongo）时，常常纠结于数据库操作是否必须进行ORM（对象关系映射）。本文将结合代码示例，阐明Pytho…

PHP中文网
2025年3月31日
1000
编程技术

MongoDB适合快速迭代原型系统报表吗？

MongoDB：快速迭代原型系统的报表利器？一个开发团队计划使用Python和MongoDB构建原型系统，数据库选择成为关键。MySQL和MongoDB都是不错的选择，但考虑到项目快速迭代和数据字段的复杂多变性，MongoDB似乎更具优势…

PHP中文网
2025年3月31日
1000
编程技术

Python操作MongoDB：pymongo、MongoEngine和flask-mongoengine该如何选择？

Python与MongoDB数据库交互：pymongo、MongoEngine及flask-mongoengine深度解析 Python开发者在选择MongoDB数据库操作库时，常常面临pymongo、MongoEngine和flask-m…

PHP中文网
2025年3月31日
1000