爬虫爬到的&#是什么

  1. \u开头和&#x开头是一样的,都是16进制Unicode字符的不同写法,而&#则是 unicode字符的10进制的写法.

2.爬虫返回的数据是,显然,其中&#是Unicode编码的中文,因为最终要全部编码为UTF-8上传到数据库中,所以要用正则匹配到这些串后,将他们转化为符号(UTF-8)存储,而非Unicode二进制串。
image-20211002001050736

3.样例程序是这样
image-20211002001105317
通过正则匹配到形如&#ddddd;的串,将&#和;去掉,然后把剩下的ddddd字符串转为10进制int型,然后用chr(ddddd)就可以转化为对应的符号了

4.也可以这样转换
image-20211002001114022

5.参考

https://www.zhihu.com/question/21390312

https://www.jianshu.com/p/644cf8b6234a


欢迎在评论区中进行批评指正,转载请注明来源,如涉及侵权,请联系作者删除。

×

喜欢就点赞,疼爱就打赏