# Populus **Repository Path**: mmchen/Populus- ## Basic Information - **Project Name**: Populus - **Description**: No description available - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2015-08-03 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README Populus 是一个用户完全可以自定的,异步式的,多线程爬虫(更新中)。 用户可以在工程目录的conf.ini 中自己定义爬虫的参数 全局参数 --global parameters depthfirst=false 网页抓取的方向 depthfirst = ture 是深度优先 = false 是广度优先 maxdepth=3 设置最大抓取的深度 maxintervalperreq=5 设置每两次抓取之间的间隔 s the time to crawl timeduration= 100 设置爬虫运行的时间(单位 秒) threads=4 设置爬虫可以同时运行的线程数目 爬虫抓取的内容保存设置 本爬虫可以设置把内容存于本地文件,也可以存于面向文档的MongoDB中 data storage parameter set here ----设置文件目录 和每个目录中的最大文件个数 filedir="e:/workdirbio/trans" maxfilesperdir=100 ---- 设置数据库连接参数 dbdriver="" dbuser="mingchen" dbpassword="password" host="localhost" port=27017 爬虫还可以限制爬取网页的类型 pageext=html,htm,shtml page 文件类型 【以后还可以支持更多类型 under developing】 imageext=jpeg,gif,png 可以下载图片类型【under developing】 设置代理 运行爬虫 proxyhost=192.168.1.105 proxyport=111