爬虫介绍

image这是一个采集程序,不需要登录,根据企业名称抓取企业页面数据。

注:这是一个比较简单的爬虫,基本上只使用代理,不使用其他反爬技术。但是由于爬取的数据量较大,适合刷解析技能的熟练程度,所以高手不要输入

代码已经上传到GitHub有用请给我一个star

python版本: python2.7

编码工具: pycharm

数据存储: MySQL

crawler结构:广度crawler

crawleridea:

iamge先获取需要采集信息的公司: getfromdatabasegetfield:etid,etnamegetdatafromstatetableofTheacquireddatastorage。并更新状态表拼接etname和初始url获取初始url拼接初始URL:将初始url放在一个列表中,如何在获取HTML时出错,将错误的url放在另一个列表中,进行循环采集验证查询的公司是否正确(?)请求解析初始一级页面:将二级url放在一个列表中,获取HTML时如何出错,将错误的url放在另一个列表中,循环获取将二级url放在一个列表中,获取HTML时如何出错,将错误的url放在另一个列表中,循环获取获取待确定的信息请求解析二级页面:创建表将公司的信息存储到数据库中:创建表:创建表:

企业主信息:et_host_info

iamge工商信息:et_busi_info分公司信息:et_branch_office软件版权信息:et_container_copyright_info网站记录信息:et_ convainer_ ICP_ info外商投资信息:et_foreign_investment_info融资融资信息:et_rongzi_info股东信息:et_stareholder_info商标信息:et_trademark_info状态表:et_name_status

看一下部分的结果图:

iamgeiamgeiamgeiamge