iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >怎么使用Python写一个简单的JSONParser
  • 564
分享到

怎么使用Python写一个简单的JSONParser

Python 2023-05-14 21:05:42 564人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

JSON TokenizerjsON 的词法分析,我主要是参考上面这个截图里面的方式,自己写了一个简单的示例。写得比较简单,应该说它只能支持 JSON 的一个简单子集。这里 TOKEN 的种类,参考了 https://json.org,不过

JSON Tokenizer

jsON 的词法分析,我主要是参考上面这个截图里面的方式,自己写了一个简单的示例。写得比较简单,应该说它只能支持 JSON 的一个简单子集。

这里 TOKEN 的种类,参考了 https://json.org,不过它的 JSON 的语法格式是带 whitespace 的,我不习惯处理这个,所以没有参考它的语法。经过词法分析之后,过滤掉了 空格、换行、制表符,我这里就是简单的丢弃不处理。

json_tokenizer.py

使用正则表达式来进行 JSON 的词法分析。

import json
import re

from typing import Dict, List, UNIOn


# TOKEN 的种类
LEFT_BRACE = "LEFT_BRACE"        # {
RIGHT_BRACE = "RIGHT_BRACE"      # }
LEFT_BRACKET = "LEFT_BRACKET"    # ]
RIGHT_BRACKET = "RIGHT_BRACKET"  # [
COLON = "COLON"                  # :
COMMA = "COMMA"                  # ,
NUMBER = "NUMBER"                # ".*?"
STRING = "STRING"                # [1-9]\d*
BOOL = "BOOL"                    # true/false
NULL = "NULL"                    # null
NEWLINE = "NEWLINE"            # \n
SKIP = "SKIP"                    # ' ', '\t'
MISMATCH = "MISMATCH"            # mismatch

# 处理 token 的正则
token_specification = [
    ('LEFT_BRACE', r'[{]'),
    ('RIGHT_BRACE', r'[}]'),
    ('LEFT_BRACKET', r'[\[]'),
    ('RIGHT_BRACKET', r'[\]]'),
    ('COLON', r'[:]'),
    ('COMMA', r'[,]'),
    ('NUMBER', r'-?[1-9]+[0-9]*'),
    ('STRING', r'".*?"'),
    ('BOOL', r'(true)|(false)'),
    ('NULL', r'null'),
    ('NEWLINE', r'\n'),
    ('SKIP', r'[ \t]'),
    ('MISMATCH', r'.')
]

tok_regex = '|'.join('(?P<%s>%s)' % pair for pair in token_specification)
print("Debug: ", tok_regex)


def process(kind: str, value: str) -> Dict[str, Union[str, bool, int, None]]:
    """
    处理输入的 kind 和 value,并生成 Dict 对象,简单表示 token 对象
    """
    if kind == STRING:
        # 去掉外层的双引号,暂时没有比较好的方式
        return {"kind": kind, "value": value[1:-1]}
    if kind == NUMBER:
        return {"kind": kind, "value": int(value)}
    if kind == BOOL:
        if value == "true":
            return {"kind": kind, "value": True}
        else:
            return {"kind": kind, "value": False}
    if kind == NULL:
        return {"kind": kind, "value": None}
    return {"kind": kind, "value": value}


def tokenizer(json_str: str) -> List[Dict[str, Union[str, bool, int, None]]]:
    """
    tokenizer
    """
    tokens = []
    for m in re.finditer(tok_regex, json_str):
        # 获取 token 的类型
        kind = m.lastgroup
        # 获取 token 的值
        value = m.group()
        if kind == MISMATCH:
            raise Exception("json fORMat is error")
        if kind == NEWLINE:
            continue
        if kind == SKIP:
            continue
        token = process(kind=kind, value=value)
        tokens.append(token)

    return tokens


if __name__ == "__main__":
    json_doc = open("./demo.json", "r", encoding="utf-8").read()
    tokens = tokenizer(json_doc)
    if tokens:
        json.dump(tokens, open("./json_tokens.json", "w",
                               encoding="utf-8"), ensure_ascii=False)

我这里把输入、输出数据全部放在文档里面了,下面我贴一下我输入数据和部分输出数据。

demo.json

{
    "name": "小黑子",
    "age": 3,
    "gender": false,
    "other_info": {
        "friends": [
            "嘎子",
            "潘叔",
            "狗"
        ],
        "declaration": "练习时长两年半",
        "hobbies": [
            "唱",
            "跳",
            "rap",
            "篮球????"
        ]
    }
}

json_token.json 部分数据,数据我格式化了,所以比较长,这里只截取一部分。

怎么使用Python写一个简单的JSONParser

JSON Parser

json_parser.py

对上一步生成的 token 序列,进行 parser,生成 JSON 对应的 Dict 对象。parser 的实现参考了 antlr4 的 json 语法文件,它去掉了 whitespace,处理起来更简单一点。

import json
from typing import Dict, Union

# TOKEN 的种类
LEFT_BRACE = "LEFT_BRACE"        # {
RIGHT_BRACE = "RIGHT_BRACE"      # }
LEFT_BRACKET = "LEFT_BRACKET"    # ]
RIGHT_BRACKET = "RIGHT_BRACKET"  # [
COLON = "COLON"                  # :
COMMA = "COMMA"                  # ,
NUMBER = "NUMBER"                # ".*?"
STRING = "STRING"                # [1-9]\d*
BOOL = "BOOL"                    # true/false
NULL = "NULL"                    # null


class Token(object):
    """为了简单,就不创建这个了"""


class JSON_Parser(object):
    """
    JSON_Parser the class aims parse input token sequence into a python object or array.
    """

    def __init__(self, tokens) -> None:
        self.index = 0
        self.tokens = tokens

    def get_token(self) -> Dict[str, Union[str, int, bool, None]]:
        """
        get current's token
        """
        if self.index < len(self.tokens):
            return self.tokens[self.index]
        else:
            raise Exception("index out of range.")

    def move_token(self) -> Dict[str, Union[str, int, bool, None]]:
        """
        move to next token and return it
        """
        if self.index + 1 < len(self.tokens):
            self.index = self.index + 1
            return self.tokens[self.index]
        else:
            raise Exception("index out of range.")

    def parse(self):
        """
        parse whole json
        """
        token = self.get_token()
        if token.get("kind") == LEFT_BRACE:
            return self.parse_obj()
        elif token.get("kind") == LEFT_BRACKET:
            return self.parse_arr()
        else:
            raise Exception("error json, neither object or array.")

    def parse_obj(self):
        """
        parse object
        """
        obj = {}
        token = self.move_token()
        kind = token.get("kind")
        # '{' '}'
        if kind == RIGHT_BRACE:
            return obj
        # '{' pair (',' pair)* '}'
        name, val = self.parse_pair()
        obj[name] = val

        while self.index < len(self.tokens):
            token = self.move_token()
            kind = token.get("kind")
            if kind == COMMA:
                self.move_token()
                name, val = self.parse_pair()
                obj[name] = val
            elif kind == RIGHT_BRACE:
                return obj
            else:
                raise Exception("parse object encounter error")

    def parse_arr(self):
        """
        parse array
        """
        arr = []
        token = self.move_token()
        kind = token.get("kind")
        # '[' ']'
        if kind == RIGHT_BRACE:
            return arr
        # '[' value (',' value)* ']'
        val = self.parse_value()
        arr.append(val)

        while self.index < len(self.tokens):
            token = self.move_token()
            kind = token.get("kind")
            if kind == COMMA:
                self.move_token()
                val = self.parse_value()
                arr.append(val)
            elif kind == RIGHT_BRACKET:
                return arr
            else:
                raise Exception("parse array encounter error")

    def parse_value(self):
        """
        parse value
        """
        token = self.get_token()
        kind = token.get("kind")
        if kind == LEFT_BRACE:
            return self.parse_obj()
        elif kind == LEFT_BRACKET:
            return self.parse_arr()
        elif kind == STRING or kind == NUMBER or kind == BOOL:
            return token.get("value")
        elif kind == NULL:
            return
        else:
            raise Exception("encounter unexcepted token")

    def parse_pair(self):
        """
        parse pair
        """
        token = self.get_token()
        kind = token.get("kind")
        name = token.get("value")
        # STRING ':' value
        if kind == STRING:
            token = self.move_token()
            kind = token.get("kind")
            if kind == COLON:
                token = self.move_token()
                return name, self.parse_value()

        raise Exception("parse pair encounter error")


if __name__ == "__main__":
    # json token 文件路径
    TOKEN_PATH = "./json_tokens.json"
    # 读取 token 序列
    input_tokens = [token for token in json.load(
        open(TOKEN_PATH, "r", encoding="utf-8"))]
    if not input_tokens:
        raise Exception("input token sequence is empty")

    # 调试的时候,用来查表的,很方便定位到 index 走到哪一个 token 了

    for i, tok in enumerate(input_tokens):
        print(f"debug {i:2d} --> {tok}")
    print("\n===========================================\n")
    parser = JSON_Parser(tokens=input_tokens)
    json_obj = parser.parse()
    # 再将 object 转成 json 并格式化后输出
    print(json.dumps(json_obj, ensure_ascii=False, indent=4))

输出结果:

怎么使用Python写一个简单的JSONParser

以上就是怎么使用Python写一个简单的JSONParser的详细内容,更多请关注编程网其它相关文章!

--结束END--

本文标题: 怎么使用Python写一个简单的JSONParser

本文链接: https://www.lsjlt.com/news/206180.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 怎么使用Python写一个简单的JSONParser
    JSON TokenizerJSON 的词法分析,我主要是参考上面这个截图里面的方式,自己写了一个简单的示例。写得比较简单,应该说它只能支持 JSON 的一个简单子集。这里 TOKEN 的种类,参考了 https://json.org,不过...
    99+
    2023-05-14
    Python
  • 如何使用Python写一个简单的JSONParser
    本篇内容主要讲解“如何使用Python写一个简单的JSONParser”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何使用Python写一个简单的JSONParser”吧!JSON Token...
    99+
    2023-07-06
  • 教你使用Python写一个简单的JSONParser
    目录引言JSON TokenizerJSON Parser引言 最近在学习 Python 的正则表达式内容,我看的是官方的文档,在文档的最后有一个例子,勾起了我的兴趣。它是用正则表达...
    99+
    2023-05-14
    Python JSONParser 简单 JSONParser
  • 怎么用Python编写一个简单的游戏
    本篇内容介绍了“怎么用Python编写一个简单的游戏”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!在这个系列中,我们要用不同的编程语言编写相...
    99+
    2023-06-15
  • 用Python编写一个简单的Http S
    原文地址:Write a simple HTTP server in Python http://www.acmesystems.it/python_httpd 例子中源码: https://github.com/tanzi...
    99+
    2023-01-31
    简单 Python Http
  • 用Python写一个简单的api接口
    python框架有很多,例如:Flask,Django,FastAPI 等。本文将使用 Flask 来编写 API 接口。 安装Flask 首先,您需要安装 Flask: pip install fl...
    99+
    2023-10-08
    python 后端 flask
  • 用Python写一个简单公众号
      前言:虽然简单,但是稍稍还是有点可取的地方的,终于可以有一个可以作为项目放在自己的github上了T_T,一个好项目一定是可拔插好扩展的,离好项目至少60%吧,以后再进一步完善了。   说实话,有一个微信公众号还是蛮方便的,可以将一些自...
    99+
    2023-01-31
    公众 简单 Python
  • HTML怎么编写一个简单的表单
    这篇文章主要介绍了HTML怎么编写一个简单的表单,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。我们先来看下常用的表单元素有哪些: 文本域 文本域通过 &l...
    99+
    2023-06-27
  • 如何用python写一个简单的find命
        对一个运维来说可能会经常去查找目录下的一些文件是否存在,最常用的就是find命令,它不仅可以查找文件也可以查找目录,find命令用法查找文件[root@node1 opt]# find /usr/ -type f -name df/...
    99+
    2023-01-31
    如何用 简单 python
  • 写一个简单的webserver
    基于 Python3 写的极简版 webserver。用于学习 HTTP协议,及 WEB服务器 工作原理。笔者对 WEB服务器 的工作原理理解的比较粗浅,仅是基于个人的理解来写的,存在很多不足和漏洞,目的在于给大家提供一个写 webser...
    99+
    2023-01-31
    简单 webserver
  • 怎么使用Python编写一个简单的垃圾邮件分类器
    这篇文章主要介绍“怎么使用Python编写一个简单的垃圾邮件分类器”,在日常操作中,相信很多人在怎么使用Python编写一个简单的垃圾邮件分类器问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么使用Pytho...
    99+
    2023-07-06
  • 怎么用HTML写一个最简单的页面
    今天小编给大家分享一下怎么用HTML写一个最简单的页面的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了...
    99+
    2024-04-02
  • 怎么使用Java编写一个简单的风控组件
    这篇文章主要讲解了“怎么使用Java编写一个简单的风控组件”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么使用Java编写一个简单的风控组件”吧!一、背景1.为什么要做风控这不得拜产品大佬...
    99+
    2023-07-04
  • 用python写一个简单的倒计时软件
    模块:time import time count = 0 a = int(input('time:')) while (count < a): count_now = a - count print(cou...
    99+
    2023-01-31
    倒计时 简单 软件
  • 如何用Python写一个简单的Web框架
    如何用Python写一个简单的Web框架,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。一、概述在Python中,WSGI(Web Server Gateway ...
    99+
    2023-06-17
  • 如何用Python写一个简单的通讯录
    目录用Python写一个简单的通讯录一、构思1、定义空列表和一个空字典来存储 2、定义功能选项3、添加通讯录功能4、 循环,调用所有的函数功能二、整体项目演示用Python写一个简单...
    99+
    2024-04-02
  • Python编写一个简单计算器
    一个计算器最主要的功能是加减乘除,那么用 Python 可以怎样实现呢 #!/usr/bin/env python # -*- coding:utf-8 -*- # @Time : 2018/1/22 22:29 # @Author ...
    99+
    2023-01-31
    计算器 简单 Python
  • Python写一个简单的在线编辑器
    直接奔入主题看下面pywebio程序,实现了Python的简陋在线编辑器 from pywebio.input import * from pywebio.output import...
    99+
    2024-04-02
  • python写一个简单的俄罗斯方块
    # teris.py# A module for game teris.# By programmer FYJfrom tkinter import *from time import sleepfrom random import *f...
    99+
    2023-01-31
    俄罗斯方块 简单 python
  • 利用Python编写一个简单的缓存系统
    目录项目展示不用落地的缓存系统系统应该如何实现铺垫python字典基本操作定义一个不用落地的缓存系统数据如何落地将对象保存到磁盘将对象从磁盘中导入到内存中将数据落地和缓存系统结合起来...
    99+
    2023-05-16
    Python实现缓存系统 Python缓存系统 Python缓存
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作