如何从维基链接中提取数据？

PHP中文网 • 2025年3月5日 20:09:47 • 编程技术 • 阅读 2

问题内容

我想从 mwparserfromhell 库返回的 wiki 链接中提取数据。例如，我想解析以下字符串：

[[file:warszawa, ul. freta 16 20170516 002.jpg|thumb|upright=1.18|[[maria skłodowska-curie museum|birthplace]] of marie curie, at 16 freta street, in [[warsaw]], [[poland]].]]

登录后复制

如果我使用字符 | 分割字符串，则它不起作用，因为图像描述中也有一个使用 | 的链接： [[玛丽亚·斯克沃多夫斯卡-居里博物馆|出生地]]。

我使用正则表达式首先替换字符串中的所有链接，然后再拆分它。它可以工作（在本例中），但感觉不干净（参见下面的代码）。有没有更好的方法从这样的字符串中提取信息？

import rewiki_code = "[[File:Warszawa, ul. Freta 16 20170516 002.jpg|thumb|upright=1.18|[[Maria Skłodowska-Curie Museum|Birthplace]] of Marie Curie, at 16 Freta Street, in [[Warsaw]], [[Poland]].]]"# Remove [[File: at the begining of the stringprefix = "[[File:"if (wiki_code.startswith(prefix)):    wiki_code = wiki_code[len(prefix):]# Remove ]] at the end of the stringsuffix = "]]"if (wiki_code.endswith(suffix)):    wiki_code = wiki_code[:-len(suffix)]# Replace links with theirlink_pattern = re.compile(r'[[.*?]]')matches = link_pattern.findall(wiki_code)for match in matches:    content = match[2:-2]    arr = content.split("|")    label = arr[-1]    wiki_code = wiki_code.replace(match, label)print(wiki_code.split("|"))

登录后复制

正确答案

.filter_wikilinks() 返回的链接是 wikilink 类，该类具有 title 和 text 属性。

title 返回链接的标题：file:warszawa, ul。弗雷塔16 20170516 002.jpgtext 返回链接的其余部分：thumb|upright=1.18|[[maria skłodowska-curie museum|birthplace]] 玛丽·居里 (marie curie)，地址：16 freta street，[[华沙]]，[[波兰]]。

这些返回为 wikicode对象。

由于实际文本始终是最后一个片段，因此首先需要使用以下正则表达式查找其他片段：

([^[]|]*|)+

( ): 组[^[]|]*: 0 个或多个非方括号或竖线的字符|：文字管道+：1个或多个

从最后一个匹配的结束索引到字符串末尾的所有其他内容都是最后一个片段。

>>> import mwparserfromhell>>> import re>>> wikitext = mwparserfromhell.parse('[[File:Warszawa, ul. Freta 16 20170516 002.jpg|thumb|upright=1.18|[[Maria Skłodowska-Curie Museum|Birthplace]] of Marie Curie, at 16 Freta Street, in [[Warsaw]], [[Poland]].]]')>>> image_link = wikitext.filter_wikilinks()[0]>>> image_link'[[File:Warszawa, ul. Freta 16 20170516 002.jpg|thumb|upright=1.18|[[Maria Skłodowska-Curie Museum|Birthplace]] of Marie Curie, at 16 Freta Street, in [[Warsaw]], [[Poland]].]]'>>> image_link.title'File:Warszawa, ul. Freta 16 20170516 002.jpg'>>> text = str(image_link.text)>>> text'thumb|upright=1.18|[[Maria Skłodowska-Curie Museum|Birthplace]] of Marie Curie, at 16 Freta Street, in [[Warsaw]], [[Poland]].'>>> other_fragments = re.match(r'([^[]|]*|)+', text)>>> other_fragments>>> other_fragments.span(0)[1]19>>> text[19:]'[[Maria Skłodowska-Curie Museum|Birthplace]] of Marie Curie, at 16 Freta Street, in [[Warsaw]], [[Poland]].'

登录后复制

以上就是如何从维基链接中提取数据？的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2531016.html

0 0

关于作者

PHP中文网签约作者

364.2K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

在嵌套文件夹 python 中添加代码时 Heroku 出错

上一篇 2025年3月5日 20:09:42

这有可能是最完整的tkinter控件属性大全

下一篇 2025年2月27日 06:01:38

编程技术

在嵌套文件夹 python 中添加代码时 Heroku 出错

问题内容我有一个基本的 heroku 应用程序，如果我的主应用程序文件中不包含 from src.rtctokenbuilder2 import rtctokenbuilder, role_publisher, time ，该应用程序运行…

PHP中文网
2025年3月5日
2000
编程技术

如何在不下载数据的情况下从 Kaggle 导入数据？

问题内容我想将数据从kaggle导入到我的笔记本中，而不必下载它（所以如果我共享我的.ipynb，你只需要运行代码，它就会从互联网下载它），但我不知道是否可能以及要复制哪个链接。这是kaggle网站： https://www.kaggle…

PHP中文网
2025年3月5日
2000
编程技术

当关系的一侧已存在于数据库中时，使用 SQLModel 插入多对多关系对象

问题内容我正在尝试使用 sqlmodel 在数据库中插入记录，其中数据如下所示。一个 house 对象，它有颜色和许多位置。地点也将与许多房屋相关联。输入为： [ { “color”: “red”, “locations”: [ {“ty…

PHP中文网
2025年3月5日
2000
编程技术

向量列表的 Harvesine 向量化

问题内容我有一个代码片段，它使用半正矢函数计算两个坐标列表之间的距离矩阵。虽然当前的实现有效，但它涉及嵌套循环，并且对于大型数据集可能非常耗时。我正在寻找一种更有效的替代方案，避免使用 for 循环。 import numpy as np…

PHP中文网
2025年3月5日
2000
编程技术

我无法在我的语音识别代码中生成 google/youtube 的研究结果

问题内容我正在尝试构建一个聊天机器人，它可以与人们互动并帮助他们快速更新。下面是我用来从 youtube/google 获取搜索结果的代码。请告诉我问题出在哪里？ maya_google_search.py代码： import s…

PHP中文网
2025年3月5日
2000
编程技术

Pandas 从一列字符串中删除字符

问题内容我有一个数据框，其中包含由这种格式的字符串组成的日期列。我需要去掉字符串的末尾，以便可以转换为日期时间对象。 “20231101 05:00:00 america/new_york””20231101 06:00:00 ameri…

PHP中文网
2025年3月5日
2000
编程技术

如何解决通过 EXE 运行程序时的延迟和滞后问题？

问题内容我正在开发一个传感器读取程序，其中该程序的一部分涉及当金属目标进一步或靠近传感器时打印出传感器状态的实时更新。 “main_gui.py”文件将首先运行，一旦用户单击“开始数据检索”按钮，它将启动子进程“ies2v2.py”，在其…

PHP中文网
2025年3月5日
2000
编程技术

如何使用 Python 去除图像中的残差

问题内容 Image1 包含带有残差的矩形和 Image2 代表所需的结果。我想在Python中使用Image1获得与Image2相同的结果，但我不确定是否可能，也不知道必要的方法。我尝试使用图像的透明度来删除它，但我不确定这是否可能…

PHP中文网
2025年3月5日
2000
编程技术

如何用线连接概率图的标记

问题内容我使用的是 python 版本 3.11.1，并且我使用下面的代码使用 matplotlib.pyplot 创建了概率图。我想自动用一条线连接标记，但 probplot 的文档似乎没有连接它们的选项。这是我的示例代码： impo…

PHP中文网
2025年3月5日
2000
编程技术

python 中的 cupy 库中的 amax 和 max 函数在使用只有一列或只有一行的矩阵时是否会出错？

问题内容我尝试使用 cupy 进行 gpu 加速来实现用于机器学习和图像分类的 softmax 激活函数。我观察到，对于形状为 nx1 或 1xn 的数组，cupys max 函数会输出错误。然而，对于 nxa 的所有其他情况（其中 n …

PHP中文网
2025年3月5日
2000