分词表示意外的标记

PHP中文网 • 2025年3月1日 16:52:49 • 编程技术 • 阅读 2

php小编小新在这里为大家介绍一种非常有趣的技术——分词表示意外的标记。分词是自然语言处理中的一个重要任务，它将一段文本按照一定的规则进行切分，得到一系列的词语。而在分词过程中，我们有时会遇到一些特殊的情况，比如在某些词语中出现了意外的标记，这可能会对后续的处理造成困扰。因此，研究如何表示和处理这种意外的标记就变得非常重要。在本文中，我们将介绍一些常见的意外标记，并给出相应的解决方案，希望能对大家有所帮助。

问题内容

我正在玩一个分词来学习如何解析，但我无法确定为什么这是意外的。

// nolint: golint, duplpackage mainimport (    "fmt"    "io"    "github.com/alecthomas/participle/v2"    "github.com/alecthomas/participle/v2/lexer")var htaccesslexer = lexer.mustsimple([]lexer.simplerule{    {"comment", `^#[^]*`},    {"ident", `^w+`},    {"int", `d+`},    {"string", `("(\"|[^"])*"|s+)`},    {"eol", `[]+`},    {"whitespace", `[ ]+`},})type htaccess struct {    directives []*directive `@@*`}type directive struct {    pos lexer.position    errordocument *errordocument `@@`}type errordocument struct {    code int    `"errordocument" @int`    path string `@string`}var htaccessparser = participle.mustbuild[htaccess](    participle.lexer(htaccesslexer),    participle.caseinsensitive("ident"),    participle.unquote("string"),    participle.elide("whitespace"),)func parse(r io.reader) (*htaccess, error) {    program, err := htaccessparser.parse("", r)    if err != nil {        return nil, err    }    return program, nil}func main() {    v, err := htaccessparser.parsestring("", `errordocument 403 test`)    if err != nil {        panic(err)    }    fmt.println(v)}

登录后复制

据我所知，这似乎是正确的，我期望 403 在那里，但我不确定为什么它不识别它。

编辑：我将词法分析器更改为：

var htaccessLexer = lexer.MustSimple([]lexer.SimpleRule{    {"dir", `^w+`},    {"int", `d+`},    {"str", `("(\"|[^"])*"|S+)`},    {"EOL", `[]+`},    {"whitespace", `s+`},})

登录后复制

错误消失了，但它仍然打印一个空数组，不知道为什么。我也不确定为什么对词法分析器使用不同的值可以修复它。

解决方法

我相信我发现了问题，这是顺序，ident 通过 w 标签在我的词法分析器中查找数字，因此这导致我的整数被标记为 ident。

我发现我必须将 quotedstrings 和 unquotedstrings 分开，否则未加引号的字符串会获取整数。或者，我可以确保它只获取非数字值，但这会错过 stringwithnum2 之类的东西

这是我的解决方案

var htaccesslexer = lexer.mustsimple([]lexer.simplerule{    {"comment", `(?i)#[^]*`},    {"quotedstring", `"(\"|[^"])*"`},    {"number", `[-+]?(d*.)?d+`},    {"unquotedstring", `[^ ]+`},    {"ident", `^[a-za-z_]`},    {"eol", `[]+`},    {"whitespace", `[ ]+`},})

登录后复制

type ErrorDocument struct {    Pos lexer.Position    Code int    `"ErrorDocument" @Number`    Path string `(@QuotedString | @UnQuotedString)`}

登录后复制

这解决了我的问题，因为它现在查找带引号的字符串，然后查找数字，然后查找不带引号的字符串。

以上就是分词表示意外的标记的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2358197.html

0 0

关于作者

PHP中文网签约作者

320.7K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

将 YAML 解组为复杂对象，可以是结构体或字符串

上一篇 2025年3月1日 16:52:43

在 Gorm 中实现与值数组的关系

下一篇 2025年3月1日 16:52:58

如何优化Go中使用context的性能

如何优化go中使用context的性能引言：Go语言的context包是用于管理goroutine之间共享的上下文数据。它被广泛用于在并发应用中传递请求范围的值，例如请求ID、用户信息等，以便于在不同的函数和goroutine之间共享和访…

PHP中文网
编程技术 2025年3月2日
1000
捋一捋Go语言的一个类型转换工具包strconv包

这次咱们来学一下Go语言的一个类型转换工具包strconv。不知道你有没有想过。在Go中，字符串100如何转成数字100。这样？ func main() { var score = “100” i := int(score…

PHP中文网
2025年3月2日 • 编程技术
1000
编程技术

Go发起HTTP2.0请求流程分析(中篇)——数据帧&流控制

数据帧 HTTP2通信的最小单位是数据帧，每一个帧都包含两部分：帧头和Payload。不同数据流的帧可以交错发送(同一个数据流的帧必须顺序发送)，然后再根据每个帧头的数据流标识符重新组装。由于Payload中为有效数据，故仅对帧头进行分析…

PHP中文网
2025年3月2日
1000
Go发起HTTP2.0请求流程分析(前篇)

(*Transport).roundTrip (*Transport).roundTrip方法会调用t.nextProtoOnce.Do(t.onceSetNextProtoDefaults)初始化TLSClientConfig以及h2tr…

PHP中文网
编程技术 2025年3月2日
1000
编程技术

Go中的HTTP请求之——HTTP1.1请求流程分析

HTTP1.1流程今天内容较多，废话不多说，直接上干货。接下来，笔者将根据流程图，对除了NewRequest以外的函数进行逐步的展开和分析 (*Client).do (*Client).do方法的核心代码是一个没有结束条件的for…

PHP中文网
2025年3月2日
1000
Go语言中http.Transport的请求缓存配置与性能测试方法

go语言中的http.transport是一个用于发送http请求的结构体，它提供了一些配置选项来优化请求性能。其中一个重要的配置选项是请求缓存。本文将介绍如何在go语言中配置http.transport的请求缓存，并展示了一种有效测试请求…

PHP中文网
编程技术 2025年3月2日
1000
Go中如何使用context实现请求分布式追踪

go中如何使用context实现请求分布式追踪随着互联网的发展，分布式系统已经成为了现代应用开发中不可或缺的一部分。在分布式系统中，同时存在着许多互相调用的服务，为了方便排查和追踪问题，实现请求的分布式追踪显得尤为重要。在Go语言中，可以…

PHP中文网
编程技术 2025年3月2日
1000
如何在Go中使用context实现请求重试策略

如何在go中使用context实现请求重试策略引言：在构建分布式系统中，网络请求不可避免地会遇到一些失败的情况。为了保证系统的可靠性和稳定性，我们通常会使用重试策略来处理这些失败的请求，以增加请求的成功率。在Go语言中，我们可以使用con…

PHP中文网
编程技术 2025年3月2日
1000
如何使用Go的SectionReader读取文件的指定部分？

如何使用go的sectionreader读取文件的指定部分？ Go语言提供了SectionReader结构体，它可以在一个较大的ReadSeeker接口类型中定义一个连续的片段。这使得我们可以更加灵活地读取文件的指定部分。在本文中，我们将学…

PHP中文网
编程技术 2025年3月2日
1000
如何在Go中使用SectionReader模块实现文件指定区域的内容审查与过滤？

如何在go中使用sectionreader模块实现文件指定区域的内容审查与过滤？ SectionReader是Go语言标准库中的一个模块，它可以将一个读取文件的接口限定在一个固定的区域内。这一模块可以很方便地用于实现文件内容的审查与过滤。下…

PHP中文网
编程技术 2025年3月2日
1000

发表回复

登录后才能评论

分词表示意外的标记

问题内容

解决方法

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐