IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 【python】使用Antlr4实现识别sql中的表或视图名 -> 正文阅读

[大数据]【python】使用Antlr4实现识别sql中的表或视图名

前言

先上成果预览图吧
image.png

作为一个数据库sql开发者,肯定有很多人和我一样,想要有一个工具,能传入任意sql,解析出sql中的所有表。
我之前有一篇文章【AIO】将任意查询sql转换成带远程数据库DBLINK的sql 中就提到了,使用纯文本硬解析会存在很多不确定因素,比如oracle新版本就添加了新的sql语法,有些场景太难处理,而解析器则只需要配置好规则,并且标准化规则的语法,那么扩展性就很强了。

antlr4 https://github.com/antlr/antlr4

Antlr这个老早就有了,如今已经比较成熟,像代码高亮插件prism就是用的这个。
但是,我找了好久,竟然在网上没找到一份有关“识别sql中的表名”的现成完整代码或者程序!解析其他语言的倒是有,但最后解析出来一个树就啥也不提了。
另外也找了很多问答,都是说Antlr4再加grammars-v4就可以解析sql了,但是就是不给代码。
无奈之下,我只能抱着github啃作者的文档,这作者只给了个使用Antlr4解析器最简单的例子,没给个实际开发语言解析的例子,我就只能靠着自己的理解加上看源码来看到底是怎么回事了。

首先,翻了很多文章,了解了Antlr4本身是个java程序,定义为解析器生成程序,而不是解析器本身。
可以编写符合规范的解析文档,文件名后缀为"*.g4",然后使用antlr4对这个g4文件生成其对应的解析器程序,在生成之前,可以指定好要生成哪种开发语言的能用的解析器,比如你想在python用,就传个python的参数进去,它就会生成对应的py文件;想生成java的,它就给你生成java文件。Antlr4支持的目标开发语言(不是指要解析的代码)目前多达9种

Cpp
CSharp
Dart
Go
Java
JavaScript
Python2
Python3
Swift

而理论上,Antlr4能解析的语法是无穷的,因为它本身并不带解析规则,解析规则完全依靠g4文件。

所以为了配合Antlr4,这个作者开了个项目,让大家都来写各种语言的g4文件
grammars-v4
https://github.com/antlr/grammars-v4
好家伙,打开这个项目一看,目前(2021-10-08)有多达240种语言的g4文件!

管他三七二十一,先把这两个项目的代码都下载下来。
然后对着Antlr4的文档,开干
https://github.com/antlr/antlr4/blob/master/doc/getting-started.md

操作步骤(windows)

第1步,安装java jdk

1.7版本以上,已安装请略过,前面说过了,Antlr4是java编写的解析器程序的生成程序,要运行java就得安装java,官方地址
https://www.oracle.com/java/technologies/downloads

第2步,下载Antlr4

地址 https://www.antlr.org/download/
找最新版的,文件名是这个格式的 antlr-4.9.2-complete.jar

建一个项目文件夹,我这里命名为 d:\sql_table,
把下载好的antlr-4.9.2-complete.jar文件,放入sql_table文件夹

第3步,设置环境变量

在系统环境变量中,添加 CLASSPATH 指向 d:\sql_table\antlr-4.9.2-complete.jar

第4步,下载并安装Antlr4的runtime

下载Antlr4的整个库
https://github.com/antlr/antlr4
打开压缩包,解压 \runtime\python3 文件夹至任意目录,
然后打开cmd,进入这个解压后的文件夹,
在cmd中运行

python setup.py install

第5步,获得plsql的语法文件

下载grammars-v4的整个库
https://github.com/antlr/grammars-v4
下载后,解压压缩包中以下几个文件,放到我们的项目目录d:\sql_table中去

  1. sql\plsql\PlSqlLexer.g4
  2. sql\plsql\PlSqlParser.g4
  3. sql\plsql\Python3\PlSqlLexerBase.py
  4. sql\plsql\Python3\PlSqlParserBase.py

第6步,生成解析器程序

打开cmd,定位到我们的项目目录 d:\sql_table
在cmd窗口中依次运行以下三条命令

doskey antlr4vpy3=java org.antlr.v4.Tool -Dlanguage=Python3 -no-listener -visitor $*

antlr4vpy3 PlSqlLexer.g4

antlr4vpy3 PlSqlParser.g4

运行后,目录内会生成以下几个文件

PlSqlLexer.py
PlSqlParserVisitor.py
PlSqlParser.py
PlSqlLexer.tokens
PlSqlLexer.interp
PlSqlParser.interp
PlSqlParser.tokens

至此,原材料才算准备齐全,接下来开始使用这个东西

第7步,测试

在刚刚解压的Antlr4\runtime\python3\bin目录下,有个pygrun文件,是用python语言编写的,把这个文件复制到我们的项目目录 d:\sql_table ,
然后打开cmd窗口,定位这里,在cmd’中执行,注意区分大小写

python pygrun -t PlSql sql_script

然后再输入一个sql,注意必须都大写, 比如

SELECT A FROM B

再 ctrl+z,回车
稍等一会儿,程序就会返回
image.png
有一说一,这个性能真的有点差。

这里提几点,

  1. pygrun 后面的参数中 -t表示生成树显示出来,不加就只解析语法是否正确。
  2. 必填的两个参数为 语法名称 和 开始规则
  3. 语法名称即为PlSqlLexer.py这个文件中, Lexer.py之前的几个字符,如果不匹配就会说找不到
  4. 传入SQL必须大写,作者说是希望规范化,但是实际上大小写混用真的很难识别

这个开始规则传什么,我研究了不少时间,它来源于PlSqlParser.g4文件中,一开始我想的是我要找from后面的表,就传了个from_clause,结果没识别出来,然后我又换成query_block,才识别出来,中间还被sql的大小写坑了,但是我换了个例子,用WITH开头的sql,又识别不出来了。仔细看这个PlSqlParser.g4文件的内容,是分一段一段的,其中有一段这个


subquery_basic_elements
    : query_block
    | '(' subquery ')'
    ;

subquery_operation_part
    : (UNION ALL? | INTERSECT | MINUS) subquery_basic_elements
    ;

query_block
    : SELECT (DISTINCT | UNIQUE | ALL)? selected_list
      into_clause? from_clause where_clause? hierarchical_query_clause? group_by_clause? model_clause? order_by_clause? fetch_clause?
    ;

query_block作为一个开始规则,同时出现在了subquery_basic_elements下面,是不是代表这个是包含关系?
所以我一路找,找到了最顶层的,就是

sql_script
    : ((unit_statement | sql_plus_command) SEMICOLON?)* EOF
    ;

把sql_script带进去,没错了,只是速度会比之前用query_block更慢,但这样兼容性更高

另外,这个pygrun有更新版本,支持界面显示树,加上 -g 参数即可,下载在这里
https://github.com/jszheng/py3antlr4book/tree/master/bin
效果如下
image.png

有了这个例子,我们就要看怎么把我们要的东西挑出来了

第8步,编写获取表名的程序

这里提一个名词 ,叫 面向对象编程, 之前看python教程的时候不觉得咋样,这次是真被折磨了,如果懂java的估计早就习惯了,但我纯自己写java实在太少,属于那种能查问题但不会写的。这个解析器里面用了好多自定义类,进去是啥知道,要不是开了源,压根就不知道出来的是啥,也不知道它有哪些方法(虽然用命令可查,但是我习惯了“记事本编程”,没有一边查定义一边编程的习惯),所以参考它这个带界面的那段程序,是一行一行写进去的,我们不需要界面,只需要知道怎样循环它,怎样拿它的值就行了,说这些,我肯定被java大佬鄙视了吧,这里python的逻辑和java太像了。。。

根据这个界面分析,拿着原始sql,一个个位置数,看哪些关键字用得上。
最后经过多种sql的验证,找出了Tableview_name这一层对应的start和stop中,包含有这个表名的开始位置和结束位置。
因为表名 可能由 “用户名.表名@DBLINK 别名” 这一长串组成,这个解析器会把这些词分成很多截,我需要的是个完整的,但不包含别名的部分,只有Tableview_name中的几个数字才能凑出准确的位置
即start中 第一个 逗号和第一个冒号之间的数字为开始位置,
stop中 ,第一个冒号和第一个等于号之间的数字加1为结束位置

分析到这里,
程序来了

import os
import re
from antlr4 import *
#file_name=r'test.sql'
tb_list=[]

def get_table_position( node):
    if isinstance(node, ParserRuleContext):
        class_name = str(type(node))
        if str(class_name)=="<class 'PlSqlParser.PlSqlParser.Tableview_nameContext'>":
            tb_list.append([re.split(r'[,:]',str(node.start))[1],re.split(r'[:=]',str(node.stop))[1]])
    if hasattr(node, 'children'):
        for child in getattr(node, 'children'):
            get_table_position(child)
    return tb_list

def get_table(l_sql):
    lexerName = grammar + 'Lexer'
    parserName = grammar + 'Parser'
    module_lexer = __import__(lexerName, globals(), locals(), lexerName)
    class_lexer = getattr(module_lexer, lexerName)
    module_parser = __import__(parserName, globals(), locals(), parserName)
    class_parser = getattr(module_parser, parserName)
    #input_stream = FileStream(file_name)
    input_stream = InputStream(l_sql.upper())
    lexer = class_lexer(input_stream)
    token_stream = CommonTokenStream(lexer)
    token_stream.fill()
    parser = class_parser(token_stream)
    parser.buildParseTrees = True
    func_start_rule = getattr(parser, start_rule)
    parser_ret = func_start_rule()
    tb_p=get_table_position(parser_ret)
    return tb_p
    
grammar='PlSql'
start_rule='sql_script'
l_sql='''select COLA C1 FROM U.TAB1 
X,TAB2 WHERE X.COL2=4'''
tb_p=get_table(l_sql)
print('该SQL中含有的表如下')
for i in tb_p:
    print(str(l_sql)[int(i[0]):int(i[1])+1])

直接运行,就得到了本文最开始的那个效果。

有两行注释掉了,可以切换传入文件名

完整程序包

已完成新建文件夹,最近天气不好,有点累,休息一下,以后再弄

我打算把整个过程需要用到的文件,包括安装命令,封一个包出来,然后程序也封装成一个函数,输入文件或者字符串返回结果,另外加上那个自动转换成dblink的功能,再让这个程序兼容在oracle中使用,就完美了。

另外java版本的制作方式也极其类似,只多了一步,在生成解析器程序后,要用javac命令编译生成的解析器程序,我本地已测试成功,大佬们应该比我会玩,就不多说了

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-10-11 17:35:16  更:2021-10-11 17:36:10 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 1:26:49-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码