三种常用的python中文分词工具

本篇文章给大家分享的内容是三种常用的python中文分词工具,有着一定的参考价值,有需要的朋友可以参考一下

这三种分词工具,在这里分享下~

1.jieba 分词:

# -*- coding: UTF-8 -*-import osimport codecsimport jiebaseg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')f1 = codecs.open("d2w_ltp.txt","w")print "/".join(seg_list)for i in seg_list:    f1.write(i.encode("utf-8"))    f1.write(str(" "))

登录后复制

效果:

邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。

登录后复制

这里面包括了结巴的分词和写入文件的形式

值得注意的是结巴分词出来的字符编码是 ‘Unicode’ 编码,我们需要把 unicode -> utf-8

2.张华平老师的 NLPIR

(https://github.com/NLPIR-team/NLPIR)

这里给出张华平老师的github 地址 ,需要用的朋友可以去到老师的git上面 拿到 licence 

立即学习“Python免费学习笔记(深入)”;

有两种: 十天的 一个月的

当然,详细的代码和安装包我也上传到了CSDN上面,有兴趣的朋友可以看下(还是需要去更新licence)

值得一提,国内多数论文都是用这个分词工具,比较权威

r = open('text_no_seg.txt','r')list_senten = []sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。'for i in seg(sentence):   list_senten.append(i[0])print "/".join(list_senten)f1 = codecs.open("d2w_ltp.txt","w")for i in seg(sentence):   f1.write(i[0])   f1.write(str(" "))

登录后复制

效果:

邓超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品/人/、/互联网/投资人/。

登录后复制

当然NLPIR在在命名实体识别上面也是有着很好的效果:

邓超 nr, wd1979年 t出生 vi于 p江西 ns南昌 ns, wd中国 ns内地 s男 b演员 n、 wn电影 n导演 n、 wn投资 n出品 vi人 n、 wn互联网 n投资人 n。 wj

登录后复制

3.哈工大LTP

# -*- coding: UTF-8 -*-import osimport codecsfrom pyltp import Segmentor#分词def segmentor(sentence):    segmentor = Segmentor()  # 初始化实例    segmentor.load('ltp_data/cws.model')  # 加载模型    words = segmentor.segment(sentence)  # 分词    words_list = list(words)    segmentor.release()  # 释放模型    return words_listf1 = codecs.open("d2w_ltp.txt","w")sentence = '邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。'print "/".join(segmentor(sentence))for i in segmentor(sentence):    f1.write(i)    f1.write(str(" "))

登录后复制

效果: 

邓/超/,/1979年/出生/于/江西/南昌/,/中国/内地/男/演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。

登录后复制

以上就是三种常用的python中文分词工具的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2264144.html

(0)
上一篇 2025年2月27日 08:01:10
下一篇 2025年2月19日 11:18:18

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • 深入了解python中的协程函数

    本篇文章给大家分享的内容是深入了解python中的协程函数 ,有着一定的参考价值,有需要的朋友可以参考一下 概念: 根据维基百科给出的定义,“协程 是为非抢占式多任务产生子程序的计算机程序组件,协程允许不同入口点在不同位置暂停或开始执行程序…

    编程技术 2025年2月27日
    200
  • 深入了解python中的time模块

    本篇文章给大家分享的内容是深入了解python中的time模块 ,有着一定的参考价值,有需要的朋友可以参考一下 在Python中,与时间处理有关的模块就包括:time,datetime以及calendar。这篇文章,主要讲解time模块。 …

    2025年2月27日
    200
  • 深入了解python中的os模块

    本篇文章给大家分享的内容是深入了解python中的os模块 ,有着一定的参考价值,有需要的朋友可以参考一下 在自动化测试中,经常需要查找操作文件,比如说查找配置文件(从而读取配置文件的信息),查找测试报告(从而发送测试报告邮件),经常要对大…

    2025年2月27日
    200
  • Python如何实现自动访问网页功能

    本篇文章给大家分享的内容是python如何实现自动访问网页功能 ,主要以代码的形式展现,有着一定的参考价值,有需要的朋友可以参考一下 import urllib.requestimport requestsimport timeimport…

    编程技术 2025年2月27日
    200
  • python知识分解析掷骰子游戏

    本篇文章给大家分享的内容是关于python知识分解析掷骰子游戏 ,有着一定的参考价值,有需要的朋友可以参考一下。最近学习了点统计学及python知识,试着分析下掷骰子游戏。骰子按标准6面,分析一次投1颗、2颗、3颗、4颗,投掷10、100、…

    2025年2月27日 编程技术
    200
  • 总结关于python中的中文编码问题

    本篇文章给大家分享的内容是总结关于python中的中文编码问题,有着一定的参考价值,有需要的朋友可以参考一下 如何处理中文编码的问题 python的unicodedecodeerror: ‘utf8’ codec can’t decode …

    编程技术 2025年2月27日
    200
  • Python简单实现控制电脑的方法

    这篇文章主要介绍了python简单实现控制电脑的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 这篇文章主要介绍了Python简单实现控制电脑的方法,涉及Python基于os及win32api等模块调用系统命令操作电脑的…

    编程技术 2025年2月27日
    200
  • Python简单计算文件MD5值的方法示例

    这篇文章主要介绍了python简单计算文件md5值的方法,涉及python文件读取、hash运算及md5加密等相关操作技巧,需要的朋友可以参考下 本文实例讲述了Python简单计算文件MD5值的方法。分享给大家供大家参考,具体如下: 一 代…

    编程技术 2025年2月27日
    200
  • selenium+python如何爬取简书网站

    这篇文章介绍的内容是selenium+python如何爬取简书网站 ,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下页面加载逻辑 当你兴致勃勃地从网上学习了基本的爬虫知识后就像找个目标实践下,拥有大量文章的简书包含了大量的有价…

    2025年2月27日 编程技术
    200
  • python环境下如何配置pydev插件

    这篇文章介绍的内容是python环境下配置pydev插件,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 一、安装eclipse 1、安装jdk以及配置环境变量 2、下载Eclipse IDE for Java EE Deve…

    2025年2月27日
    200

发表回复

登录后才能评论