手把手教你使用Flask搭建ES搜索引擎(预备篇)

PHP中文网 • 2025年2月26日 14:14:19 • 编程技术 • 阅读 3

/1 前言/

Elasticsearch 是一个开源的搜索引擎，建立在一个全文搜索引擎库 Apache Lucene™ 基础之上。

那么如何实现 elasticsearch和 python 的对接成为我们所关心的问题了 (怎么什么都要和 python 关联啊)。

/2 Python 交互/

所以，Python 也就提供了可以对接 Elasticsearch的依赖库。

pip install elasticsearch

登录后复制

初始化连接一个 Elasticsearch 操作对象。

def __init__(self, index_type: str, index_name: str, ip="127.0.0.1"):    # self.es = Elasticsearch([ip], http_auth=('username', 'password'), port=9200)    self.es = Elasticsearch("localhost:9200")    self.index_type = index_type    self.index_name = index_name

登录后复制

默认端口 9200，初始化前请确保本地已搭建好 Elasticsearch的所属环境。

根据 ID 获取文档数据

def get_doc(self, uid):    return self.es.get(index=self.index_name, id=uid)

登录后复制

插入文档数据

def insert_one(self, doc: dict):    self.es.index(index=self.index_name, doc_type=self.index_type, body=doc)def insert_array(self, docs: list):    for doc in docs:        self.es.index(index=self.index_name, doc_type=self.index_type, body=doc)

登录后复制

搜索文档数据

def search(self, query, count: int = 30):    dsl = {        "query": {            "multi_match": {                "query": query,                "fields": ["title", "content", "link"]            }        },        "highlight": {            "fields": {                "title": {}            }        }    }    match_data = self.es.search(index=self.index_name, body=dsl, size=count)    return match_datadef __search(self, query: dict, count: int = 20): # count: 返回的数据大小    results = []    params = {        'size': count    }    match_data = self.es.search(index=self.index_name, body=query, params=params)    for hit in match_data['hits']['hits']:        results.append(hit['_source'])    return results

登录后复制

删除文档数据

def delete_index(self):    try:        self.es.indices.delete(index=self.index_name)    except:        pass

登录后复制

好啊，封装 search 类也是为了方便调用，整体贴一下。

from elasticsearch import Elasticsearchclass elasticSearch():    def __init__(self, index_type: str, index_name: str, ip="127.0.0.1"):        # self.es = Elasticsearch([ip], http_auth=('elastic', 'password'), port=9200)        self.es = Elasticsearch("localhost:9200")        self.index_type = index_type        self.index_name = index_name    def create_index(self):        if self.es.indices.exists(index=self.index_name) is True:            self.es.indices.delete(index=self.index_name)        self.es.indices.create(index=self.index_name, ignore=400)    def delete_index(self):        try:            self.es.indices.delete(index=self.index_name)        except:            pass    def get_doc(self, uid):        return self.es.get(index=self.index_name, id=uid)    def insert_one(self, doc: dict):        self.es.index(index=self.index_name, doc_type=self.index_type, body=doc)    def insert_array(self, docs: list):        for doc in docs:            self.es.index(index=self.index_name, doc_type=self.index_type, body=doc)    def search(self, query, count: int = 30):        dsl = {            "query": {                "multi_match": {                    "query": query,                    "fields": ["title", "content", "link"]                }            },            "highlight": {                "fields": {                    "title": {}                }            }        }        match_data = self.es.search(index=self.index_name, body=dsl, size=count)        return match_data

登录后复制

尝试一下把 Mongodb 中的数据插入到 ES 中。

import jsonfrom datetime import datetimeimport pymongofrom app.elasticsearchClass import elasticSearchclient = pymongo.MongoClient('127.0.0.1', 27017)db = client['spider']sheet = db.get_collection('Spider').find({}, {'_id': 0, })es = elasticSearch(index_type="spider_data",index_name="spider")es.create_index()for i in sheet:    data = {            'title': i["title"],            'content':i["data"],            'link': i["link"],            'create_time':datetime.now()        }    es.insert_one(doc=data)

登录后复制

到 ES 中查看一下，启动 elasticsearch-head 插件。

如果是 npm 安装的那么 cd 到根目录之后直接 npm run start 就跑起来了。

本地访问 http://localhost:9100/

发现新加的 spider 数据文档确实已经进去了。

/3 爬虫入库/

要想实现 ES 搜索，首先要有数据支持，而海量的数据往往来自爬虫。

为了节省时间，编写一个最简单的爬虫，抓取百度百科。

简单粗暴一点，先递归获取很多很多的 url 链接

import requestsimport reimport timeexist_urls = []headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36',}def get_link(url):    try:        response = requests.get(url=url, headers=headers)        response.encoding = 'UTF-8'        html = response.text        link_lists = re.findall('.*?]*?)".*?', html)        return link_lists    except Exception as e:        pass    finally:        exist_urls.append(url)# 当爬取深度小于10层时，递归调用主函数，继续爬取第二层的所有链接def main(start_url, depth=1):    link_lists = get_link(start_url)    if link_lists:        unique_lists = list(set(link_lists) - set(exist_urls))        for unique_url in unique_lists:            unique_url = 'https://baike.baidu.com/item/' + unique_url            with open('url.txt', 'a+') as f:                f.write(unique_url + '')                f.close()        if depth

登录后复制

把全部 url 存到 url.txt 文件中之后，然后启动任务。

# parse.pyfrom celery import Celeryimport requestsfrom lxml import etreeimport pymongoapp = Celery('tasks', broker='redis://localhost:6379/2')client = pymongo.MongoClient('localhost',27017)db = client['baike']@app.taskdef get_url(link):    item = {}    headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36'}    res = requests.get(link,headers=headers)    res.encoding = 'UTF-8'    doc = etree.HTML(res.text)    content = doc.xpath("//div[@class='lemma-summary']/div[@class='para']//text()")    print(res.status_code)    print(link,'','++++++++++++++++++++')    item['link'] = link    data = ''.join(content).replace(' ', '').replace('', '').replace('', '').replace('', '')    item['data'] = data    if db['Baike'].insert(dict(item)):        print("is OK ...")    else:        print('Fail')

登录后复制

run.py 飞起来

from parse import get_urldef main(url):    result = get_url.delay(url)    return resultdef run():    with open('./url.txt', 'r') as f:        for url in f.readlines():            main(url.strip(''))if __name__ == '__main__':    run()

登录后复制

黑窗口键入

celery -A parse worker -l info -P gevent -c 10

登录后复制

哦豁 !! 你居然使用了 Celery 任务队列，gevent 模式，-c 就是10个线程刷刷刷就干起来了，速度杠杠的！！

啥？分布式？那就加多几台机器啦，直接把代码拷贝到目标服务器，通过 redis 共享队列协同多机抓取。

这里是先将数据存储到了 MongoDB 上(个人习惯)，你也可以直接存到 ES 中，但是单条单条的插入速度堪忧(接下来会讲到优化，哈哈)。

使用前面的例子将 Mongo 中的数据批量导入到 ES 中，OK !!!

到这一个简单的数据抓取就已经完毕了。

好啦，现在 ES 中已经有了数据啦，接下来就应该是 Flask web 的操作啦，当然，Django，FastAPI 也很优秀。嘿嘿，你喜欢！！

关于FastAPI 的文章可以看这个系列文章：

1、（入门篇）简析Python web框架FastAPI——一个比Flask和Tornada更高性能的API 框架

2、（进阶篇）Python web框架FastAPI——一个比Flask和Tornada更高性能的API 框架

3、（完结篇）Python web框架FastAPI——一个比Flask和Tornada更高性能的API 框架

/4 Flask 项目结构/

这样一来前期工作就差不多了，接下来剩下的工作主要集中于 Flask 的实际开发中，蓄力中！！

以上就是手把手教你使用Flask搭建ES搜索引擎(预备篇)的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2229944.html

flask

0 0

关于作者

PHP中文网签约作者

514.9K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

手把手教你进行Anaconda的安装

上一篇 2025年2月26日 14:14:02

手把手教你使用Flask搭建ES搜索引擎(实战篇)

下一篇 2025年2月26日 14:14:32

宝塔面板：一键搭建Django、Flask等Python框架

在python开发领域，django和flask是两个知名的web框架。然而，搭建运行环境并不是一件容易的事情，特别是对于初学者来说。幸运的是，有一个很好的解决方案——宝塔面板。什么是宝塔面板? 宝塔面板是一款运行在服务器上的简约、强大且…

PHP中文网
编程技术 2025年3月28日
1000
编程技术

vue-admin和后端flask分离结合

本文主要和大家介绍了详解vue-admin和后端(flask)分离结合的例子，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧，希望能帮助到大家。 API汇总：登录 var params = { username…

PHP中文网
2025年3月8日
2000
原生JS实现Ajax跨域请求flask响应内容（图文教程）

这篇文章主要为大家详细介绍了js实现ajax跨域请求flask响应内容，具有一定的参考价值，感兴趣的小伙伴们可以参考一下 Ajax方法好，网站感觉跟高大上，但由于Js的局限，跨域Ajax无法实现，这里，讲一下解决办法，前提是需要能够自己可以…

PHP中文网
编程技术 2025年3月8日
2000
使用Vue.js和Flask来构建一个单页的App的示例

本篇文章主要介绍了使用vue.js和flask来构建一个单页的app的示例，我觉得挺不错的，现在分享给大家，也给大家做个参考。一起过来看看吧在这个教程中，我们将讲解如何将vue.js单页应用与Flask后端进行连接。一般来说，如果你只是…

PHP中文网
2025年3月8日 • 编程技术
2000
编程技术

关于vue-admin和后端(flask)分离结合的解析

本篇文章主要介绍了详解vue-admin和后端(flask)分离结合的例子，内容挺不错的，现在分享给大家，也给大家做个参考。本文介绍了vue-admin和后端(flask)分离结合的例子，分享给大家，具体如下感觉 vue-admin 界…

PHP中文网
2025年3月8日
2000
编程技术

Servlet的替代方案有哪些？

简介 Servlet 长期以来一直是基于 Java 的 Web 开发的基石。然而，随着 Web 技术的发展，出现了几种 Servlet 的替代方案，提供了适合不同开发需求的各种功能和范例。本文概述了这些替代方案，并讨论了它们在不同情况下的优…

PHP中文网
2025年3月7日
2000
如何使用Docker部署Nginx+Flask+Mongo的应用

nginx做为服务器，mongo为数据库支持，flask为python语言的web框架，利用docker的容器特性，可以简单地部署在linux服务器上项目准备项目主要目录如下 __ project-name |__ docker-fi…

PHP中文网
编程技术 2025年3月6日
2000
编程技术

如何利用React和Flask构建简单易用的网络应用

如何利用React和Flask构建简单易用的网络应用引言：随着互联网的发展，网络应用的需求也越来越多样化和复杂化。为了满足用户对于易用性和性能的要求，使用现代化的技术栈来构建网络应用变得越来越重要。React和Flask是两种在前端和后端…

PHP中文网
2025年3月6日
2000
如何用通俗易懂的语言解释《Flask 框架作者希望看到的 Python》到底在说什么？

原文：Flask 框架作者希望看到的 Python Python 真的有这种「最大的设计错误」吗？难道 Python 设计者看不到？「槽(slots)系统」真的很糟糕吗？回复内容：作者吐槽了Python语言与CPython解释器结合得过…

PHP中文网
编程技术 2025年3月6日
2000
希望用flask作为中介让python和js交互，大家有什么比较好的实践经验没？

我试过了getjson之类的是可以的但是比较怀疑数据量大的话用什么比较好啊？记得见过有人是pandas+d3.js+flask用的，不过找不到了回复内容：无邀自答，只因为在我主页的信息流里面多看了你一眼。。。。这话题选得各种切中我的要害…

PHP中文网
编程技术 2025年3月6日
2000

发表回复

登录后才能评论

手把手教你使用Flask搭建ES搜索引擎(预备篇)

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐