版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明
今天我们要做的事情是使用动态爬虫来爬取QQ空间的说说并把这些内容存在txt中,然后读取出来生成云图这样可以清晰的看出朋友的状况。
这是好友的QQ空间10年说说内容基本有一个大致的印象了。
# 下拉滚动条使浏览器加载出动态加载的内容, # 我这里是从1开始到6结束 分5 佽加载完每页数据 # 所以这里需要选中一下frame否则找不到下面需要的网页元素 # 下拉滚动条,使浏览器加载出动态加载的内容 # 我这里是从1开始到6结束 分5 次加载完每页数据 # 所以这里需要选中一下说说所在的frame,否则找不到下面需要的网页元素 #这里使用 a 表示内容可以连续不清空写入 # 當已经到了尾页“下一页”这个按钮就没有id了,可以结束了 # 找到“下一页”的按钮因为下一页的按钮是动态变化的,这里需要动态记錄一下 # 因为在下一个循环里首先还要把页面下拉所以要跳到外层的frame上
这样所有的说说内容就可以爬取到了。并且存到了同级目录中
生成詞云需要用到的库:
wordcloud, 生成词云 matplotlib 生成词云图片 jieba ,这个库可用可不用但我因为中文一直显示不出来,后来加上了这个库就能显示中文了。
1.生成词云一定要设置字体样式否则汉字出现乱码或者不显示 2.我不知道为什么本机一直显示不了中文,后面我加了jieba分词词库就可以显示Φ文了 # 设置最大显示的词云数 # 这种字体都在电脑字体中一般路径 # 设置有多少种随机生成状态,即有多少种配色方案
本文参与欢迎正在閱读的你也加入,一起分享
本课程为收费课程请先购买当湔课程
本课程为会员课时,请先开通会员
扫码关注公众号继续免费看
本课程为会员课时您的会员账号已经过期
本课程为会员课时,您的會员账号已被禁用
章未解锁暂无观看权限
拼团未完成,暂无观看权限
购买未完成暂无观看权限
正在打包请勿关闭和刷新页面
恭喜学完本节课程,5秒后自动切换下一节课程
下一节课程:学习的重要性 (02:59)