线点科技垂直搜索产品

(数据采集开发说明)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

北京线点科技有限公司

二零零七年五月

 

 

 

 

 

 

 

 

 

 

 

网易电气产品数据采集

1.URL生成器javascript

var content = crawl.getContent("http://co.163.com/e_p_3.htm","GBK") ;

list1=crawl.getURL(content,"<font[^>]*?>([\\d]*?)</font>");

var m=list1.remove(0);

var n=parseInt(m);

for(i=0;i<n;i++){

   content = crawl.getContent("http://co.163.com/neteaseivp/ecatalog/product.jsp?pageSize=15&way=3&pageIndex="+i,"GBK") ;   

   list2=crawl.getURL(content,"<a[\\s]+?onmouseover=\"[^\"]*?\"[\\s]+?href=\"(/e_pd_[\\d]*?_3\\.htm)\"[\\s]+?target=\"_blank\">"); 

    var num=list2.size();

    for(j=0;j<num;j++){

              var s="http://co.163.com"+list2.remove(0);

        returnValue.add(s);

        }

}

 

2.产品页数据抽取规则

产品名称

<title>([\s\S]*?)</title>

产品图片

<div[\s]*?id=bProPic>[\s]*?<a[\s]*?href="([^"]*?)"

产品简介

class=bfont>产品简介:</span>([\S\s]*?)<div[\s]+?id=zzzdataid></div>[\s]+?</div>

联系电话

[\s]*?话:[\s]*?</span>([^<]*?)</div>

联系地址

公司地址:([^<]*?)<br

联系人

[\s]+?[\s]+?人:([^<]*?)<br

公司网站地址

[\s\S]{1,3}址:<a[^>]*?>([^<]*?)</a>

 

3.采集规则

http://co.163.com/e_pd_[\d]*?_3.htm