|
使用教程:
我们需要采集的目标U站为 【卷皮】(http://juanpi.uz.taobao.com)
登录后台,找到:【采集】-【商品采集】->【自定义采集】 选择【添加自定义采集】
第一步:给自定义采集器起一个名字。
解释:名字以自己能分辨为准,自己能知道是干什么的就好。
第二步:确定目标网站的编码。
解释:就是网站中用的编码方式,在国内 一般有三种 ;UTF-8 , GBK ,GB2313 ,最常见的是前两种。
最后一种现在已经很难发现了。
那么如何查看网站的编码呢?
我们可以打开一个网站,在网站上点击鼠标右键,选择【查看网页源码】。在最上方一般都会有
<meta charset="utf-8">
如果找不到,就只能一个一个的试出来了。
第三步:设置需要采集的网址,以及需要采集的页数
解释:拿 卷皮 的女装分类举例。 女装分类第一页 的网址是
- http://juanpi.uz.taobao.com/?spm=a2116.2174385.0.0.CpOWi2&m=index&cat=fushi&page=1
复制代码 女装分类 有很多页,这时候我们可以通过
填写 起始页的范围来决定 让程序去采集那些页。 假如我想采集1-5页,那么就填写 1-5
细心的朋友可以发现,只需要修改 page= 后面的数字就可以实现翻页的效果
这时候我们可以把翻页变量的值用 (*) 来代替。
- http://juanpi.uz.taobao.com/?spm=a2116.2174385.0.0.CpOWi2&m=index&cat=fushi&page=(*)
复制代码
这样以来,程序如果发现网址中含有(*) 就会根据 【起始页数】的设置,把网址中的 (*) 替换成相应的数字。
点击【测试】按钮 看看能否正常替换,这里大家可以测试下替换的结果能否正常访问。
第三步:设置商品单元的匹配规则
解释:
匹配规则的书写格式为:
[需要内容的前面代码] [需要的内容] [需要内容的后面代码]
其中 [需要的内容] 用 这个 {[内容]} 来表示,不论是标题,还是图片,还是价格等都用它来表示。
我们在卷皮女装分类第一页 通过右键【查看网页源码】 。通过观察可以发现,没一个商品都包含在一个<li class=""></li> 之间
这里把 这种一段一段的 包含着一个商品的 相似的代码,叫做一个商品单元。
这样我们可以如此来书写 匹配单元的规则
根据商品说的匹配规则的书写格式。
我们可以把ID,销量这些规则如下书写。
因为旺旺名称,销量,推荐语 无法从【商品单元】中直接获取,我们这里留空。
第五步:设置商品类型,包邮信息的匹配规则。
解释:
这两个数据信息的获取规则和第四步中的几个信息的获取规则书写格式有区别。
这里只需填写能区分。天猫还是淘宝,包邮还是不包邮的 【特征字符串】即可。
比如:如果一个单元中含有 天猫 这种字符串。我们就判定该商品单元中的商品
是天猫商品。当然这种方式有时候是不很准确的。
如果无法判断,可以留空 程序默认是C店
第六步:设置商品信息纠正。
解释:
在前几步中遇到的情况,我们可以使用商品信息纠正来处理。
因为卷皮的旺旺名称,销量,无法获取,因此纠正信息可以这样设置
第七步:测试设置的规则
解释:
前6步完成之后,我们来测试下看看写的规则能否获取到每个商品的信息。
注意:规则测试时,程序仅会获取第一页的数据,同时不会进行商品信息的纠正操作。
点击【规则测试】 等待测试结果
通过观察测试结果,发现 信息没有错误,说明书写的规则正确。如果有部分商品的主要信息不全比如缺少图片 如果想保留这种商品可以打开图片纠正,如果不想保留 就不用打开图片纠正了 程序会自动过滤掉
如果你书写的规则无法获取到商品信息,请重复上面的步骤
第八步:设置商品的添加位置和商品过滤
解释:
获取到的商品必须有一个添加的位置,要知道添加到什么地方。是普通分类 还是品牌呢??
注意:两个位置必须选择一个。
有时候获取到的商品并不是我们都想要的,这时候可以通过设置过滤规 来剔除这些商品
一切都没有问题之后,保存规则。然后就可以采集了。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|