三种常用的python中文分词工具

PHP中文网 • 2025年2月27日 08:01:17 • 编程技术 • 阅读 2

本篇文章给大家分享的内容是三种常用的python中文分词工具，有着一定的参考价值，有需要的朋友可以参考一下

这三种分词工具,在这里分享下~

1.jieba 分词:

# -*- coding: UTF-8 -*-import osimport codecsimport jiebaseg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')f1 = codecs.open("d2w_ltp.txt","w")print "/".join(seg_list)for i in seg_list:    f1.write(i.encode("utf-8"))    f1.write(str(" "))

登录后复制

效果:

邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。

登录后复制

这里面包括了结巴的分词和写入文件的形式

值得注意的是结巴分词出来的字符编码是 ‘Unicode’ 编码,我们需要把 unicode -> utf-8

2.张华平老师的 NLPIR

(https://github.com/NLPIR-team/NLPIR)

这里给出张华平老师的github 地址 ,需要用的朋友可以去到老师的git上面拿到 licence

立即学习“Python免费学习笔记（深入）”；

有两种: 十天的一个月的

当然,详细的代码和安装包我也上传到了CSDN上面,有兴趣的朋友可以看下(还是需要去更新licence)

值得一提,国内多数论文都是用这个分词工具,比较权威

r = open('text_no_seg.txt','r')list_senten = []sentence = '邓超，1979年出生于江西南昌，中国内地男演员、电影导演、投资出品人、互联网投资人。'for i in seg(sentence):   list_senten.append(i[0])print "/".join(list_senten)f1 = codecs.open("d2w_ltp.txt","w")for i in seg(sentence):   f1.write(i[0])   f1.write(str(" "))

登录后复制

效果:

邓超/，/1979年/出生/于/江西/南昌/，/中国/内地/男/演员/、/电影/导演/、/投资/出品/人/、/互联网/投资人/。

登录后复制

当然NLPIR在在命名实体识别上面也是有着很好的效果:

邓超 nr， wd1979年 t出生 vi于 p江西 ns南昌 ns， wd中国 ns内地 s男 b演员 n、 wn电影 n导演 n、 wn投资 n出品 vi人 n、 wn互联网 n投资人 n。 wj

登录后复制

3.哈工大LTP

# -*- coding: UTF-8 -*-import osimport codecsfrom pyltp import Segmentor#分词def segmentor(sentence):    segmentor = Segmentor()  # 初始化实例    segmentor.load('ltp_data/cws.model')  # 加载模型    words = segmentor.segment(sentence)  # 分词    words_list = list(words)    segmentor.release()  # 释放模型    return words_listf1 = codecs.open("d2w_ltp.txt","w")sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。'print "/".join(segmentor(sentence))for i in segmentor(sentence):    f1.write(i)    f1.write(str(" "))

登录后复制

效果:

邓/超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。

登录后复制

以上就是三种常用的python中文分词工具的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2264144.html

Python 中文分词

0 0

关于作者

PHP中文网签约作者

273.1K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

深入了解python中的协程函数

上一篇 2025年2月27日 08:01:10

如何开发PHP常见问题合集？

下一篇 2025年2月19日 11:18:18

深入了解python中的协程函数

本篇文章给大家分享的内容是深入了解python中的协程函数，有着一定的参考价值，有需要的朋友可以参考一下概念：根据维基百科给出的定义，“协程是为非抢占式多任务产生子程序的计算机程序组件，协程允许不同入口点在不同位置暂停或开始执行程序…

PHP中文网
编程技术 2025年2月27日
2000
编程技术

深入了解python中的time模块

本篇文章给大家分享的内容是深入了解python中的time模块，有着一定的参考价值，有需要的朋友可以参考一下在Python中，与时间处理有关的模块就包括：time，datetime以及calendar。这篇文章，主要讲解time模块。 …

PHP中文网
2025年2月27日
2000
编程技术

深入了解python中的os模块

本篇文章给大家分享的内容是深入了解python中的os模块，有着一定的参考价值，有需要的朋友可以参考一下在自动化测试中，经常需要查找操作文件，比如说查找配置文件（从而读取配置文件的信息），查找测试报告（从而发送测试报告邮件），经常要对大…

PHP中文网
2025年2月27日
2000
Python如何实现自动访问网页功能

本篇文章给大家分享的内容是python如何实现自动访问网页功能，主要以代码的形式展现，有着一定的参考价值，有需要的朋友可以参考一下 import urllib.requestimport requestsimport timeimport…

PHP中文网
编程技术 2025年2月27日
2000
python知识分解析掷骰子游戏

本篇文章给大家分享的内容是关于python知识分解析掷骰子游戏，有着一定的参考价值，有需要的朋友可以参考一下。最近学习了点统计学及python知识，试着分析下掷骰子游戏。骰子按标准6面，分析一次投1颗、2颗、3颗、4颗，投掷10、100、…

PHP中文网
2025年2月27日 • 编程技术
2000
总结关于python中的中文编码问题

本篇文章给大家分享的内容是总结关于python中的中文编码问题，有着一定的参考价值，有需要的朋友可以参考一下如何处理中文编码的问题 python的unicodedecodeerror: ‘utf8’ codec can’t decode …

PHP中文网
编程技术 2025年2月27日
2000
Python简单实现控制电脑的方法

这篇文章主要介绍了python简单实现控制电脑的方法，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下这篇文章主要介绍了Python简单实现控制电脑的方法,涉及Python基于os及win32api等模块调用系统命令操作电脑的…

PHP中文网
编程技术 2025年2月27日
2000
Python简单计算文件MD5值的方法示例

这篇文章主要介绍了python简单计算文件md5值的方法,涉及python文件读取、hash运算及md5加密等相关操作技巧,需要的朋友可以参考下本文实例讲述了Python简单计算文件MD5值的方法。分享给大家供大家参考，具体如下：一代…

PHP中文网
编程技术 2025年2月27日
2000
selenium+python如何爬取简书网站

这篇文章介绍的内容是selenium+python如何爬取简书网站，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下页面加载逻辑当你兴致勃勃地从网上学习了基本的爬虫知识后就像找个目标实践下，拥有大量文章的简书包含了大量的有价…

PHP中文网
2025年2月27日 • 编程技术
2000
编程技术

python环境下如何配置pydev插件

这篇文章介绍的内容是python环境下配置pydev插件，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下一、安装eclipse 1、安装jdk以及配置环境变量 2、下载Eclipse IDE for Java EE Deve…

PHP中文网
2025年2月27日
2000

发表回复

登录后才能评论

三种常用的python中文分词工具

1.jieba 分词:

2.张华平老师的 NLPIR

(https://github.com/NLPIR-team/NLPIR)

3.哈工大LTP

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐