Python解析xml[xml.dom]
admin
2023-07-31 00:35:59
0

用到的包:xml.dom.minidom 文档

代码托管位置 github-pytools

需求

有一个表,里面数据量比较大,每天一更新,其字段可以通过xml配置文件进行配置,即,可能每次建表的字段不一样。

上游跑时会根据配置从源文件中提取,到入库这一步需要根据配置进行建表。

解决

写了一个简单的xml,配置需要字段及类型

上游读取到对应的数据

入库这一步,先把原表删除,根据配置建新表

XML文件

1234567891011121314151617 name=\”top_query\” db_name=\”evaluting_sys\”> id queryvarchar(200)falsequery pvintegerfalsepv avg_moneyintegerfalse

处理脚本

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859 #!/usr/bin/python# -*- coding:utf-8 -*-#author: wklken#desc: use to read db xml config.#———————–#2012-02-18 created#———————- import sys,osfrom xml.dom import minidom, Node def read_dbconfig_xml(xml_file_path):    content = {}     root = minidom.parse(xml_file_path)    table = root.getElementsByTagName(\”table\”)[0]     #read dbname and table name.    table_name = table.getAttribute(\”name\”)    db_name = table.getAttribute(\”db_name\”)     if len(table_name) > 0 and len(db_name) > 0:        db_sql = \”create database if not exists `\” + db_name +\”`; use \” + db_name + \”;\”        table_drop_sql = \”drop \” + table_name + \” if exists \” + table_name + \”;\”        content.update({\”db_sql\” : db_sql})        content.update({\”table_sql\” : table_drop_sql })    else:        print \”Error:attribute is not define well!  db_name=\” + db_name + \” ;table_name=\” + table_name        sys.exit(1)    #print table_name, db_name     table_create_sql = \”create table \” + table_name +\”(\”     #read primary cell    primary_key = table.getElementsByTagName(\”primary_key\”)[0]    primary_key_name = primary_key.getElementsByTagName(\”name\”)[0].childNodes[0].nodeValue     table_create_sql += primary_key_name + \” INTEGER NOT NULL AUTO_INCREMENT PRIMARY KEY,\”     #print primary_key.toxml()    #read ordernary field    fields = table.getElementsByTagName(\”field\”)    f_index = 0    for field in fields:        f_index += 1        name = field.getElementsByTagName(\”name\”)[0].childNodes[0].nodeValue        type = field.getElementsByTagName(\”type\”)[0].childNodes[0].nodeValue        table_create_sql += name + \” \” + type        if f_index != len(fields):        table_create_sql += \”,\”        is_index = field.getElementsByTagName(\”is_index\”)[0].childNodes[0].nodeValue     table_create_sql += \”);\”    content.update({\”table_create_sql\” : table_create_sql})    #character set latin1 collate latin1_danish_ci;    print content if __name__ == \”__main__\”:read_dbconfig_xml(sys.argv[1])

涉及方法

root = minidom.parse(xml_file_path) 获取dom对象

root.getElementsByTagName(“table”) 根据tag获取节点列表

table.getAttribute(“name”) 获取属性

primary_key.getElementsByTagName(“name”)[0].childNodes[0].nodeValue 获取子节点的值(id 得到id)

2012-02-18

相关内容

热门资讯

Mobi、epub格式电子书如... 在wps里全局设置里有一个文件关联,打开,勾选电子书文件选项就可以了。
500 行 Python 代码... 语法分析器描述了一个句子的语法结构,用来帮助其他的应用进行推理。自然语言引入了很多意外的歧义,以我们...
定时清理删除C:\Progra... C:\Program Files (x86)下面很多scoped_dir开头的文件夹 写个批处理 定...
scoped_dir32_70... 一台虚拟机C盘总是莫名奇妙的空间用完,导致很多软件没法再运行。经过仔细检查发现是C:\Program...
65536是2的几次方 计算2... 65536是2的16次方:65536=2⁶ 65536是256的2次方:65536=256 6553...
小程序支付时提示:appid和... [Q]小程序支付时提示:appid和mch_id不匹配 [A]小程序和微信支付没有进行关联,访问“小...
pycparser 是一个用... `pycparser` 是一个用 Python 编写的 C 语言解析器。它可以用来解析 C 代码并构...
微信小程序使用slider实现... 众所周知哈,微信小程序里面的音频播放是没有进度条的,但最近有个项目呢,客户要求音频要有进度条控制,所...
Apache Doris 2.... 亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0.0 版本已于...
python清除字符串里非数字... 本文实例讲述了python清除字符串里非数字字符的方法。分享给大家供大家参考。具体如下: impor...