java 采集器基础【源码】

[复制链接]

该用户从未签到

2380

主题

2433

帖子

9139

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
9139
QQ
跳转到指定楼层
楼主
发表于 2017-6-13 12:03:55 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

想要查看内容赶紧注册登陆吧!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
采用Java爬虫框架WebMagic,灵活,简单;
测试采集地址是:http://www.jfinal.com/project

效果:
java代码:(所用到的jar包在源码里面)
public class SpiderTest implements PageProcessor {
        private Site page = Site.me().setRetryTimes(3).setSleepTime(1000);

        /* 启动蜘蛛 */
        public static void main(String[] args) {
                Spider.create(new SpiderTest()).addUrl("http://www.jfinal.com/project").thread(5).run();
        }

        @Override
        public Site getSite() {
                return page;
        }

        @Override
        public void process(Page page) {
                /* 获取html源码 */
                Html html = page.getHtml();
                /* 使用xpath获得标题和链接 */
                List hrefs = html.xpath("//div[@class='jf-panel-item']/h3/a/@href").all();
                Listtitles = html.xpath("//div[@class='jf-panel-item']/h3/a/text()").all();
                for (int i = 0; i < titles.size(); i++) {
                        System.out.println("标题:" + titles.get(i) + "\t\t\t链接:" + hrefs.get(i));
                }
        }

}


分享到:  QQ好友和群QQ好友和群
收藏收藏
回复

使用道具 举报

快速回复高级模式
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表