Python读写Json涉及到中文的处理方法
admin
2023-08-01 19:35:53
0

今天在帮前端准备数据的时候,需要把数据格式转成json格式,说实话,涉及到中文有时候真的是很蛋疼,除非对Python的编码规则比较了解,不然处理起来真的很蛋疼。

整个逻辑

我们需要处理的是把一些文章处理,生成多个html文件,然后用json来显示文章的列表,图片,摘要和标题。

思路

为了以后的数据扩展,那必须有一个数据库,我的想法就是自己写一个简单的网页做为提交输入,然后post到后台以后录入到数据库中,再写一个展示文章的页面,展示效果正确后,写一个requests动态的把所有的数据都爬下来生成一个一个的html文档。最后的json数据我只要从数据库把数据抽出来生成就行了。

前端

其实前端的东西很简单,最近一直在写网页,所以前端的东西分分钟就搞定了。代码如下:

urls.py

from django.conf.urls import url, include
from . import views


urlpatterns = {
  url(r\'^$\', views.index, name=\'index\'),
  url(r\'add_article/\', views.add_article, name=\'add_article\'),
  url(r\'^article/(?P\\S+)/$\', views.article, name=\'article\'),
}
views.py

# coding=utf-8
from django.shortcuts import render
from .models import Tzxy

# Create your views here.


def index(request):
  return render(request, \'index.html\')


def add_article(request):
  error = \'error\'
  if request.method == \'POST\':
    # 获取前段request的内容
    main_id = request.POST[\'main_id\']
    img_url = request.POST[\'img_url\']
    title = request.POST[\'title\']
    content = request.POST[\'content\']
    abstract = content[:50]
    print main_id
    indb = Tzxy(
          main_id=main_id,
          img_url=img_url,
          title=title,
          content=content,
          abstract=abstract
          )
    indb.save()
    error = \'success\'
    return render(request, \'index.html\', {\'error\': error})
  return render(request, \'index.html\')


def article(request, main_id):
  article_detial = Tzxy.objects.get(main_id=main_id)
  return render(request, \'views.html\', {\'content\': article_detial})

models.py

from __future__ import unicode_literals
from django.db import models
from django.contrib import admin


class Tzxy(models.Model):
  main_id = models.CharField(max_length=10)
  img_url = models.CharField(max_length=50, null=True)
  title = models.CharField(max_length=50)
  content = models.TextField()
  abstract = models.CharField(max_length=200)

admin.site.register(Tzxy)

模板我就随便写了一个简单的表单

index.html




  
  Title
  
  
  


{% csrf_token %} main_id:
img_url:
title:
{% if error == \'success\' %}
{{ error }}
{% endif %}

展示的页面

{% load custom_markdown %}



  
  
  
  
  
  
  
  
  {{ content.title }}
  
  



  

{{ content.title }}

{{ content.content | custom_markdown | linebreaksbr }}

当然,我里面使用了markdown来处理了一些数据。有关markdown的集成,可以移步《Django开发博客(六)——添加markdown支持》
爬数据的小脚本如下,需要使用到requests模块

# coding=utf-8
import sys
import requests
reload(sys)
sys.setdefaultencoding(\'utf8\')


def tohtml(file_name, startpos, endpos):
  \"\"\"
  请求网页数据后把网页源码存储为html格式,启动脚本时要先启动Django的Server
  :param file_name:生成文件名的前缀,最后一位用传入的数字来代替
  :param startpos:开始的数字
  :param endpos:结束的数字
  :return:None
  \"\"\"

  for x in range(startpos, endpos):
    r = requests.get(\'http://127.0.0.1:8000/tzxy/article/\' + file_name + str(x))
    with open(\'/Users/SvenWeng/Desktop/test/\' + file_name + str(x) + \'.html\', \'w\') as f:
      f.write(r.text)
  print \'success\'


if __name__ == \'__main__\':
  tzhtl_name = \'tzxy_tzhtl_h_\'
  djjyy_name = \'tzxy_djjyy_h_\'
  tohtml(djjyy_name, 1, 39)

里面的一些命名自己可以根据需要去修改。

生成json

说实话,json的使用方式很简单,Python对json的支持也很好,不过涉及到中文就有点蛋疼了,我的代码是这样的:

# coding=utf-8
import sqlite3
import json
import sys
reload(sys)
sys.setdefaultencoding(\'utf8\')

list_json = []

conn = sqlite3.connect(\'db.sqlite3\')
c = conn.cursor()
sql = \'select * from Tzxy_tzxy\'
c.execute(sql)
all_thing = c.fetchall()

for x in all_thing:
  dic_member = {\'id\': x[1].split(\'_\')[3],
         \'img\': x[2],
         \'title\': x[3],
         \'abstract\': \'\'}
  list_json.append(dic_member)
conn.close()

final_json = json.dumps(list_json, sort_keys=True, indent=4)
with open(\'test.json\', \'w\') as f:
  f.write(final_json)

代码逻辑是:定义一个空列表,用来装生成的字典信息,然后从sqlite里面把之前存的数据全部抓出来。把数据循环生成自己想要的格式的字典,一个一个的插到列表中。再用Python提供的json.dumps方法把数据转成json格式,再写入文件就行了。
逻辑看上去是没什么问题,实现起来也很完美,但是最后我打开json文件检查的时候发现所有的中文都变成Unicode了。这简直是坑爹啊。

大致查了一下,好像网络上对这块说的内容并不详细,举得例子也都是非常非常简单的那种,直接给中文的,并不是我想要的,最后只能硬着头皮去看官方的说明,最后找到了这么一个东西ensure_ascii=False,在Python转Json的时候带上这个方法,也就是

final_json = json.dumps(list_json, sort_keys=True, indent=4, ensure_ascii=False)

这样处理之后,写入文件就是正常的中文了。

以上这篇Python读写Json涉及到中文的处理方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关内容

热门资讯

500 行 Python 代码... 语法分析器描述了一个句子的语法结构,用来帮助其他的应用进行推理。自然语言引入了很多意外的歧义,以我们...
定时清理删除C:\Progra... C:\Program Files (x86)下面很多scoped_dir开头的文件夹 写个批处理 定...
65536是2的几次方 计算2... 65536是2的16次方:65536=2⁶ 65536是256的2次方:65536=256 6553...
Mobi、epub格式电子书如... 在wps里全局设置里有一个文件关联,打开,勾选电子书文件选项就可以了。
scoped_dir32_70... 一台虚拟机C盘总是莫名奇妙的空间用完,导致很多软件没法再运行。经过仔细检查发现是C:\Program...
小程序支付时提示:appid和... [Q]小程序支付时提示:appid和mch_id不匹配 [A]小程序和微信支付没有进行关联,访问“小...
pycparser 是一个用... `pycparser` 是一个用 Python 编写的 C 语言解析器。它可以用来解析 C 代码并构...
微信小程序使用slider实现... 众所周知哈,微信小程序里面的音频播放是没有进度条的,但最近有个项目呢,客户要求音频要有进度条控制,所...
python查找阿姆斯特朗数 题目解释 如果一个n位正整数等于其各位数字的n次方之和,则称该数为阿姆斯特朗数。 例如1^3 + 5...
Apache Doris 2.... 亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0.0 版本已于...