webspider
v0.0.4
Published
可配置的网络爬虫
Downloads
7
Readme
可配置的网络爬虫
可以通过配置 spider.json 来获取json或者html对象。 version (0.0.2) 测试版
#####安装方式
通过 npm install webspider 进行安装。
使用简介
方式一、
webspider ~/User/../../spider.json
方式二、
spider.json配置
方式一使用配置
items [Array] 被爬网站的参数
1.1 description [String] 被爬网站的简单描述
1.2 content [JSON] 需要爬的内容的描述,如果是所爬的网页内容是json,则可配置成 '.data[0..n].abs';如果是html则可配置成 selector|method|attrname,例如: 获取选择器.hx对象的text可配置成:.hx|text,或许input的值可配置为 input|val,获取div的data-xx属性可配置为 div|attr|data-xxx
1.3 targetUrls [Array] 被爬网站的url地址
1.4 page [JSON] 上图配置可以理解成分页参数为 pn=(countKey*当前页数)&rn=10,如果不设置type,则理解为 pn=当前页数&rn=10
1.5 postUrl [String] 每当一个content的内容被爬下来的时候就将content的内容提交给postUrl,不设置则在控制台显示。
1.6 pageType [String] 设置被爬页面的type类型(html|json),默认为html
1.7 charset [String] 被爬网站的编码方式,默认为UTF-8
interval [Number] 每隔多少ms执行一次,不填则执行一次