- 0
- 0
授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里鈈积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里鈈积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
我在用Python源代码写一个小爬虫,在使用Python源代码的urllib来获取网页信息的时候发现Python源代碼得到的网页信息跟我用chrome查看网页源代码得到的信息有点不一样,例如我获取/question/这个页面的信息的一个不同之处如下:
用chrome查看源代码看到的:
请问为什么会出现这种状况呢怎么样才能获取到跟浏览器显示相同的网页源代码?
应该是一样的啊唯一不一样的可能就是JS动态运行後的结果了,这个需要JS引擎了。
还有一点忘记說了用urllib抓取的同一个网页内,有些人的信息可以显示有些人不能显示,应该不是js引擎的问题吧要不然应该都显示不了啊
我知道原因叻,我用浏览器是用账户登陆了的用urllib来获取网页的时候是没有登陆的,所以信息会不一样
你可能需要模拟各种动态比如session、cookie、js等等。
应該是cookie的问题把自己的登录信息加到cookie里再发请求就行了~~
浏览器打开html文件时会自动下载关联的脚本
浏览器中是修改之后的html
你好,我也有一样嘚问题能否恳求你把源代码共享给我?因为我实在是着急然后编程基础实在太差,一天内学不会跪求能分享给我,万分感谢!