如何ftp 限制单个文件蜘蛛爬取单个动态文件内容？

www.51yue.net 2011-04-21 标签：火车票取票时间限制

如何限制百度蜘蛛爬取次数？_百度知道&有关于""的文章列表
解析百度蜘蛛如何抓取网站和提高抓取频率
& & 做SEO的小伙伴对百度搜索引擎和蜘蛛是情有独钟啊，因为目前百度是国内PC端和移动端搜索引擎的老大，seo的小伙伴当然是希望百度蜘蛛能够更多的抓取网站，只有抓取的页面多了，才有可能获得更好的收录、排名和流量。百度蜘蛛：Baiduspider、1818平台& & 下面就先和各位分享一下百度蜘蛛是如何从最原始的策略制定到抓取的。& & 一、百度蜘蛛抓取规则& & 1、对网站抓取的友好性& & 百度蜘蛛在抓取互联网上的信息时为了更多、更准确的获取信息，会制定一个规则最大限度的利用带宽和一切资源获取信息，同时也会仅最大限度降低对所抓取网站的压力。& & 2、识别url重定向& & 互联网信息数据量很庞大，涉及众多的链接，但是在这个过程中可能会因为各种原因页面链接进行重定向，在这个过程中就要求百度蜘蛛对url重定向进行识别。& & 3、百度蜘蛛抓取优先级合理使用& & 由于互联网信息量十分庞大，在这种情况下是无法使用一种策略规定哪些内容是要优先抓取的，这时候就要建立多种优先抓取策略，目前的策略主要有：深度优先、宽度优先、PR优先、反链优先，在我接触这么长时间里，PR优先是经常遇到的。& & 4、无法抓取数据的获取& & 在互联网中可能会出现各种问题导致百度蜘蛛无法抓取信息，在这种情况下百度开通了手动提交数据。& & 5、对***信息的抓取& & 在抓取页面的时候经常会遇到低质量页面、***链接等问题，百度出台了绿萝、石榴等算法进行过滤，据说内部还有一些其他方法进行判断，这些方法没有对外透露。& & 上面介绍的是百度设计的一些抓取策略，内部有更多的策略咱们是不得而知的。& & 二、百度蜘蛛抓取过程中涉及的协议& & 1、http协议：超文本传输协议& & 2、https协议:目前百度已经全网实现https，这种协议更加安全。& & 3、robots协议：这个文件是百度蜘蛛访问的第一个文件，它会告诉百度蜘蛛，哪个页面可以抓取，哪个不可以抓取。& & 三、如何提高百度蜘蛛抓取频次& & 百度蜘蛛会根据一定的规则对网站进行抓取，但是也没法做到一视同仁，以下内容会对百度蜘蛛抓取频次起重要影响。& & 1、网站权重：权重越高的网站百度蜘蛛会更频繁和深度抓取& & 2、网站更新频率：更新的频率越高，百度蜘蛛来的就会越多& & 3、网站内容质量：网站内容原创多、质量高、能解决用户问题的，百度会提高抓取频次。& & 4、导入链接：链接是页面的入口，高质量的链接可以更好的引导百度蜘蛛进入和爬取。& & 5、页面深度：页面在首页是否有入口，在首页有入口能更好的被抓取和收录。& & 6、抓取频次决定着网站有多少页面会被建库收录，这么重要的内容站长该去哪里进行了解和修改，可以到百度站长平台抓取频次功能进行了解，如下图：& & 四、什么情况下会造成百度蜘蛛抓取失败等异常情况& & 有一些网站的网页内容优质、用户访问正常，但是百度蜘蛛无法抓取，不但会损失流量和用户还会被百度认为网站不友好，造成网站降权、评分下降、导入网站流量减少等问题。& & 霍龙在这里简单介绍一下造成百度蜘蛛抓取一场的原因：& & 1、服务器连接异常:出现异常有两种情况，一是网站不稳定，造成百度蜘蛛无法抓取，二是百度蜘蛛一直无法连接到服务器，这时候您就要仔细检查了。& & 2、网络运营商异常:目前国内网络运营商分电信和联通，如果百度蜘蛛通过其中一种无法访问您的网站，还是赶快联系网络运营商解决问题吧。& & 3、无法解析IP造成dns异常:当百度蜘蛛无法解析您网站IP时就会出现dns异常，可以使用WHOIS查询自己网站IP是否能被解析，如果不能需要联系域名注册商解决。& & 4、IP封禁:IP封禁就是限制该IP，只有在特定情况下才会进行此操作，所以如果希望网站百度蜘蛛正常访问您的网站最好不要进行此操作。& & 5、死链：表示页面无效，无法提供有效的信息，这个时候可以通过百度站长平台提交死链。& & 通过以上信息可以大概了解百度蜘蛛爬去原理，收录是网站流量的保证，而百度蜘蛛抓取则是收录的保证，所以网站只有符合百度蜘蛛的爬去规则才能获得更好的排名、流量。& & 作者：霍龙文章来源：
本文地址：/yuedu/jingyan/871.html，转载请保留。
微信备份通讯录在哪？
微信摇一摇搜歌功能怎么用？
微信登陆不了解决办法
支付宝口碑外卖怎么用
《武神赵子龙》赵云是赵子龙吗最后结局是什么_武神赵子龙赵云的扮演者
《甄嬛传》纯元皇后是谁演的历史上真的有这个人吗_纯元皇后的扮演者是谁
《女医明妃传》漏洞百出的十大经典穿帮镜头集锦_《女医明妃传》遭吐槽
《锦衣夜行》夏浔有几个老婆和谢雨霏在一起了吗_锦衣夜行夏浔的扮演者
《中国好歌曲》第三季盲选今晚收官幕后英雄引领音乐盛典
《我是歌手4》第八期歌单排名剧透李玟垫底失声痛哭
朴瑞俊品牌写真公开自然阳光帅气养眼
重庆武隆芙蓉洞一日游Python（20）
1、任务定义：
爬取某动态分页页面中所有子话题的内容。
所谓“动态分页”：是指通过javascript（简称“js”）点击实现翻页，很多时候翻页后的页面地址url并没有变化，而页面内容随翻页动作动态变化。
2、任务难点及处理方法：
1）& scrapy如何动态加载所有“下一页”：要知道scrapy本身是不支持js操作的。
2）& 如何确保页面内容加载完成后再进行爬取：由于内容是通过js加载的，如果不加控制，很可能出现爬到空页面的情况。
处理方法：
1）scrapy+selenium模拟浏览器点击：通过模拟浏览器点击的方式进行翻页，从而获取每一页内部的有效链接。
2）使用WebDriverWait()等待数据加载：即确保对应内容加载完成后，再进行相应爬取任务。
3、基本思路：
1）& 通过模拟浏览器翻页（涉及模拟点击翻页问题），获取每个分页中待爬取页面的url（涉及数据加载问题），将url列表存入文件；
2）& 针对每一个url进行普通的爬取。
4、待爬取页面分析：
举例：爬取中所有子话题的内容。
1）子话题都在ul[@class=&post-list&]标签下，xpath可以写成li[@class]，表示所有具备class属性的li标签。
2）要想爬取所有页面，需要浏览器模拟点击右上角的“下一页”标签（&li&）。具体分析页面代码后发现，最后一页的“下一页”标签不可点击，可以作为停止获取url列表的标志。
最后一页的“下一页”标签：&liclass=&pg_next pg_empty&data-reactid=&XX&&&/li&
其余的“下一页”标签：&liclass=&pg_next&data-reactid=&XX&&&/li&
next_page = response.xpath('//ul[@class=&pg1&]/li[@class=&pg_next&]')
5、Spider代码：
# -*- coding: utf-8 -*-
import scrapy
import time
import base64
from selenium import webdriver
from selenium.webdriver.support.ui importWebDriverWait
from buluo.items import BuluoItem
class buluoSpider(scrapy.Spider):
name = 'buluo_spider'
def __init__(self, bid = None): #示例：bid = 12339
&&&初始化起始页面和游戏bid
super(buluoSpider, self).__init__()
self.bid = bid #参数bid由此传入
self.start_urls = ['/p/barindex.html?bid=%s' % bid]
self.allowed_domain = ''
self.driver = webdriver.Firefox()
self.driver.set_page_load_timeout(5) #throw a TimeoutException when thepage load time is more than 5 seconds.
def parse(self, response):
&&&模拟浏览器实现翻页，并解析每一个话题列表页的url_list
url_set = set() #话题url的集合
self.driver.get(response.url)
while True:
wait = WebDriverWait(self.driver, 2)
wait.until(lambda driver:driver.find_element_by_xpath('//ul[@class=&post-list&]/li[@class]/a'))#VIP，内容加载完成后爬取
sel_list = self.driver.find_elements_by_xpath('//ul[@class=&post-list&]/li[@class]/a')
url_list = [sel.get_attribute(&href&) for sel in sel_list]
url_set |= set(url_list)
wait =WebDriverWait(self.driver, 2)
wait.until(lambda driver:driver.find_element_by_xpath('//ul[@class=&pg1&]/li[@class=&pg_next&]'))#VIP，内容加载完成后爬取
next_page =self.driver.find_element_by_xpath('//ul[@class=&pg1&]/li[@class=&pg_next&]')
next_page.click() #模拟点击下一页
print &#####Arrive thelast page.#####&
with open('url_set.txt', mode='w') as f:
f.write(repr(url_set))
for url in url_set:
yield scrapy.Request(url, callback=self.parse_content)
def parse_content(self, response):
&&&提取话题页面内容，通过pipeline存入指定字段
item = BuluoItem()
item['timestamp'] = time.strftime('%Y-%m-%d %H:%M:%S')
item['bid'] = self.bid
item['url'] = response.url
#item['content'] = response.body.decode('utf-8')
item['content'] = base64.b64encode(response.body) #编码为Base64的网页内容
yield item&
6、爬虫运行：
其余还需配置好settings.py、items.py和pipeline.py等文件，cmd中运行如下命令，即可根据游戏编号爬取想要的子话题内容：
scrapy crawl buluo_spider -a bid=12339
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：9820次
排名：千里之外
原创：47篇
(5)(9)(3)(7)(18)(5)(2)培养蜘蛛定期爬取网站的几个步骤
威望值经验值金钱
要用原创的文章来吸引蜘蛛
威望值经验值金钱
支持，很好的文章
威望值经验值金钱
定时更新文章很重要
威望值经验值金钱
前期每天定时更新
www.beibeitemai.cc
威望值经验值金钱
可以适当的增加网站的内容
威望值经验值金钱
经验之谈。谢谢
__开平二手楼_开平房产网_开平二手房网
威望值经验值金钱
支持原创和精品，希望帮助我们。
威望值经验值金钱
没事养猪猪万
威望值经验值金钱
昨天百度打更了
威望值经验值金钱
吸引高质量的蜘蛛以及外链。百度的外链也是有分ip段的。最好去做高质量的，相关性的外链。比如是站长类的网站就去seowhy网站吸引外链。这方面没必要讲的太细
威望值经验值金钱
赞，支持楼主。
威望值经验值金钱
不高兴！！！！！
威望值经验值金钱
网站优化中遇见的问题要慢慢解决
威望值经验值金钱
蜘蛛也是有习惯的，要学会分析蜘蛛的爬行习惯
威望值经验值金钱
学习了&&坚持更新文章吸引蜘蛛
威望值经验值金钱
培养蜘蛛定期爬取网站
威望值经验值金钱
除湿机&&加湿机
威望值经验值金钱
威望值经验值金钱
怎么才知道百度蜘蛛来了？
专业销售台湾亿光全系
当前热门 /1
站长朋友为什么选择我们？投入产出性价比高，广告资源丰富，精准定位用户行为。
工作日:09:00-18:00 账号或帖子问题请您加QQ: / 广告业务QQ: / SEO培训报班:
Powered by - -

参考资料

随机推荐

网站简介 | 联系站长 | 网站首页 |

本站部分内容系根据指令自动收集于互联网，不代表本站赞成该内容或立场