版权声明:本文为博主原创文章,欢迎指正或者转载。 /qq_/article/details/
现在好多的小说网站只提供阅读,并不提供下载服务,既然能够读,可以在网页上看,那么小说内容一定在网页的源代码中
用浏览器,右键,查看元素,查看网页源代码,以及代码结构(火狐浏览器)
依旧使用Jsoup技术获取网页源代码(Jsoup有个选择器,把带有某种属性的标签选择出来,可以指定属性值),之后进行解析提取出有用的内容
小说网站提供的阅读服务,一个供用户选择章节进行阅读的页面,用户点击章节超链接进去之后,进行阅读,这就是我们要打开的网址
//提取出带class属性值为active的li标签。获取标题 //不进行任何操作,只是捕获异常,跳出本次循环,执行下一次循环,由于链接编号中偶尔会空出一个, //如果之前的网址打开出错,这里就会报错 由于链接地址其中有不是挨个递增的,所以没有这个链接地址出现异常,捕获异常,最后执行finally中的continue跳出本次循环,接着执行下面的操作,不干扰程序的执行结果
每次进行io操作之后,一定要清空缓冲区,因为忘记这个事浪费了好长时间,一直在报错
其实自己从来不读小说的