介绍Python3处理html文档中编码的字符(比洳escape过的引号是" html)的办法如何解码和编码。
-
首先如图是从html文档中截取的片段,可以看到其中有很多html转义编码的字符比如引号变为" html。
-
要解码这种字符串一种旧方法是import cgi,使用cgi的escape()函数但是该方法现在已经废弃。
-
现在推荐的做法是使用html模块首先import html,引用这个模块
-
使用html的成員函数escape(),可以将一段正常带有符号的文本转义为html里的文本
-
使用html的unescape函数,可以将带有html转义的字符串还原为原来的字符串
-
这是html转义序列,還有url转义%开头unicode转义\u开头。
经验内容仅供参考如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士