【正完成】Java基于Jsoup的网络爬虫工具实现,javajsoup网络爬虫
分享于 点击 21349 次 点评:73
【正完成】Java基于Jsoup的网络爬虫工具实现,javajsoup网络爬虫
Java基于Jsoup的网络爬虫工具实现
一、工具介绍:
首先,先介绍一个好的网页分析工具 Jsoup
工具下载地址:http://jsoup.org/download
中文说明文档:http://www.open-open.com/jsoup/
英文API文档:http://tool.oschina.net/apidocs/apidoc?api=jsoup-1.6.3
二、我们的项目目的:
直接进入正题,我们的需求是搜罗一些手机基本信息
目标网站:手机报价--中关村在线(http://detail.zol.com.cn/cell_phone_index/subcate57_0_list_1_0_1_2_0_7.html)
主页:这里展示了中关村所有的手机链接,并且此网址有上百页内容,我们要做的就是拉取所有手机详细信息。
二级页面:点开任意一个手机链接进入二级页面,下拉会发现“参数”里面有手机的一些详细信息,我们要的就是这个!
三、开始动手做
1.从一级页面抓取所有手机链接,要包含上百页面的所有数据。
1)尝试抓取一个一级页面的所有数据:
我们使用chrome内置的开发者工具(快捷键F12),选择Network,你会发现你刚才的网络请求url和参数,如图。
我们可以通过此工具查看当前网页html代码,找到每条链接的标签信息,如图:
。
相关文章
- 暂无相关文章
用户点评