先来说一下我们学校的网站:
以仩便是此爬虫诞生的全部过程的详细记录了有没有很神奇的赶脚?哈哈,开个玩笑需要的朋友参考下吧,自由扩展
用Python写的百度贴吧的网络爬虫
# 将┅些html的符号实体转变为原始符号
# 初始化加载页面并将其转码贮存
# 读取页面的原始信息并将其从gbk转码
# 核算楼主发布内容一共有多少页
#用来核算一共有多少页
# 用来寻觅该帖的标题
# 用来存储楼主发布的内容
# 加载页面数据到数组中
# 获取页面源码并将其存储到数组中
# 将内容从页面代码Φ抠出来
# 程序:百度贴吧爬虫
# 操作:输入网址后主动只看楼主并保存到本地文件
# 功用:将楼主发布的内容打包txt存储到本地。