版权声明:本文为博主原创文章转载请注明出处。 /u/article/details/
现在在做政府网站网站里有很多公开信息和政务咨询的新闻,现在需要做新闻的RSS订阅功能其中有一项是需要处理攵章页的内容。我们后台添加编辑文章使用的是编辑器文章内容会带有很多html标签和css样式。RSS订阅展示新闻列表只需要展示一部分文章内嫆,这就需要处理文章页的html代码去除标签,抓取文章js取html文字信息内容下面讲一下怎么做,主要是java的正则表达式和replaceAll()方法 * 去除文章内容頁页面代码里的HTML标签
main方法运行结果:
少年中国说。红日初升其道大光。河出伏流一泻汪洋。潜龙腾渊鳞爪飞扬。乳虎啸谷百兽震惶。鹰隼试翼风尘吸张。奇花初胎矞矞皇皇。干将发硎有作其芒。天戴其苍地履其黄。纵有千古横有八荒。前途似海来日方長。美哉我少年中国与天不老!壮哉我中国少年,与国无疆!