广告
返回顶部
首页 > 资讯 > 后端开发 > GO >在 Golang 中解码时如何获取 XML 标签的字符数据和属性值
  • 349
分享到

在 Golang 中解码时如何获取 XML 标签的字符数据和属性值

2024-04-05 00:04:00 349人浏览 薄情痞子
摘要

欢迎各位小伙伴来到编程网,相聚于此都是缘哈哈哈!今天我给大家带来《在 golang 中解码时如何获取 XML 标签的字符数据和属性值》,这篇文章主要讲到等等知识,如果你对Golang相关的知识非常感

欢迎各位小伙伴来到编程网,相聚于此都是缘哈哈哈!今天我给大家带来《在 golang 中解码时如何获取 XML 标签的字符数据和属性值》,这篇文章主要讲到等等知识,如果你对Golang相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习

问题内容

我的 xml 文件类似于以下内容:

<page>
    <title>antoine meillet</title>
    <ns>0</ns>
    <id>3</id>
    <revision>
      <id>178204512</id>
      <parentid>178097574</parentid>
      <timestamp>2020-12-30t10:12:14z</timestamp>
      <contributor>
        <username>rovo</username>
        <id>34820</id>
      </contributor>
      <minor />
      <model>wikitext</model>
      <fORMat>text/x-wiki</format>
      <text bytes="11274" xml:space="preserve">
        a lot of text
      </text>
      <sha1>ikqy1f9ppwo8eo38a0hh817eynr40vg</sha1>
    </revision>
  </page>

我的目标是过滤掉很多这样的标签,只保留 page 标签和那些内部标签:titleidtext

到目前为止,我已经能够成功提取 page 标签,其中 titleid 具有正确的值。 这是我得到的:

<page>
 <title>antoine meillet</title>
 <id>3</id>
 <text bytes="0" xml:space=""></text>
</page>
<page>
 <title>algèbre linéaire</title>
 <id>7</id>
 <text bytes="0" xml:space=""></text>
</page>

因此,正如您所看到的,这里的问题是 text 标记的属性值不正确,并且其中缺少文本。

我使用这段代码实现了这一点:

package main

import (
    "encoding/xml"
    "fmt"
    "io"
    "os"
)

type Page struct {
    XMLName xml.Name `xml:"page"`
    Title   string   `xml:"title"`
    Id      int64    `xml:"id"`
    Text    struct {
        Key   float32 `xml:"bytes,attr"`
        Space string  `xml:"xml:space,attr"`
    } `xml:"text"`
}

func main() {
    frwikiXML, err := os.Open("frwiki10000.xml")
    if err != nil {
        fmt.Println(err)
    }
    cleanedWikiXML, err := os.Create("cleaned_fr_wiki.xml")
    if err != nil {
        fmt.Println(err)
    }

    cleanXMLEncoder := xml.NewEncoder(cleanedWikiXML)
    cleanXMLEncoder.Indent("", " ")

    frwikiDecoder := xml.NewDecoder(frwikiXML)
    for {
        t, tokenErr := frwikiDecoder.Token()
        if tokenErr != nil {
            if tokenErr == io.EOF {
                break
            }
            fmt.Errorf("decoding token: %w", tokenErr)
        }
        switch t := t.(type) {
        case xml.StartElement:
            if t.Name.Local == "page" {
                var page Page
                if err := frwikiDecoder.DecodeElement(&page, &t); err != nil {
                    fmt.Errorf("decoding element %q: %v", t.Name.Local, err)
                }
                fmt.Println("Element was decoded successfully.")
                fmt.Printf("Page title: %v\n Page id: %d\n", page.Title, page.Id)
                fmt.Printf("Text: %v", page.Text)
                cleanXMLEncoder.Encode(page)
            }
        }
    }

    defer frwikiXML.Close()
    defer cleanedWikiXML.Close()
}

请问我该如何解决这个问题?

谢谢。


正确答案


要解析大文件xml文件,请使用标准xml Decoder。

拨打Token一一读取代币。当找到具有所需名称的起始元素(“页面”)时,调用 decodeelement 来解码该元素并为下一步操作准备结果。

type page struct {
    xmlname  xml.name `xml:"page"`
    title    string   `xml:"title"`
    id       int64    `xml:"id"`
    revision struct {
        text struct {
            key   float32 `xml:"bytes,attr"`
            space string  `xml:"xml:space,attr"`
        } `xml:"text"`
    } `xml:"revision"`
}

type pagetarget struct {
    xmlname xml.name `xml:"page"`
    title   string   `xml:"title"`
    id      int64    `xml:"id"`
    text    struct {
        key   float32 `xml:"bytes,attr"`
        space string  `xml:"xml:space,attr"`
    } `xml:"text"`
}
dec := xml.NewDecoder(strings.NewReader(sample))
    
loop:
    for {
        tok, err := dec.Token()
        switch {
        case err != nil && err != io.EOF:
            panic(err)
        case err == io.EOF:
            break loop
        case tok == nil:
            fmt.Println("token is nill")

        }

        switch se := tok.(type) {
        case xml.StartElement:
            if se.Name.Local == "page" {
                var page Page
                if err := dec.DecodeElement(&page, &se); err != nil {
                    panic(err)
                }

                target := PageTarget{
                    XMLName: page.XMLName,
                    Id:      page.Id,
                    Title:   page.Title,
                    Text:    page.Revision.Text,
                }

                out, err := xml.MarshalIndent(target, " ", "  ")
                if err != nil {
                    panic(err)
                }
                fmt.Println(string(out))
            }
        }
    }

PLAYGROUND

只需解码到结构体并再次编码即可满足您的目标。

请检查:https://go.dev/play/p/69vjlve4P6p

终于介绍完啦!小伙伴们,这篇关于《在 Golang 中解码时如何获取 XML 标签的字符数据和属性值》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~编程网公众号也会发布Golang相关知识,快来关注吧!

您可能感兴趣的文档:

--结束END--

本文标题: 在 Golang 中解码时如何获取 XML 标签的字符数据和属性值

本文链接: https://www.lsjlt.com/news/596233.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作