输入百度搜索的URL,包括三种方式
1、手动输入:在输入框中直接输入URL,多个URL时须要换行分割
2、点击从文件中读取方式:用户选择一个存放URL的文件,文件中可以有多个URL地址,地址须要换行分割。
3、批量添加方式:通过添加并调整地址参数生成多个有规律的地址
步骤2:自定义采集流程
点击创建后自动打开第一个URL进而进入自定义设置页面,默认已经创建了开始、打开网页、结束的流程块。底部模板区用于拖拽到画布中生成新的流程块;点击打开网页中的属性按钮,可修改打开的网址
添加输入文字流程块:在底部模板区中拖拽输入文字块到打开网页块后面附近,当出现阴影区域的时候可以松开鼠标,此时会自动连接,添加完成
生成完整流程图:仿照上面添加输入文字流程块的拖拽流程添加新块
点击开始采集,启动采集就可以了
1、采集任务运行中
2、采集完成后,选择“导出数据”可以把数据都导出到本地文件
3、选择“导出方式”,将采集好的数据导出,这里可以选择excel作为导出为格式
4、采集数据导出后如下图
1、通过去重功能来进行断点续采
直接在启动任务时进行数据去重设置,选择“当所有字段都重复时,跳过继续采集”。
该方案设置简单,但是效率较低,设置之后任务仍然会从第一页开始采集,然后逐个跳过所有已经采集到的数据。
2、通过修改采集范围、修改网址或添加预操作来进行断点续采
当任务停止时,软件的停止界面上会记录当前任务采集到最后一条时的网址和翻页次数,一般情况下,停止网址是准确的,但是翻页次数可能会大于真实的数值,因为如果发生页面卡住的情况会有空翻页的次数。
1、设置起始页和结束页
起始页默认为当前页,结束页默认为最后一页。需要注意的是如果选择自定义设置,当前页为第一页。
2、设置跳过项
在采集中可以跳过每页前多少条或者后多少条。
3、设置停止采集
正常的采集任务会根据上述范围从开始页采集到结束页,此处的停止采集是在采集过程中满足设置条件时提前停止采集。