2018年9月开启V3版本的研发,彻底进行重写,欢迎关注本项目 通用性强的开源用户及后台管理系统,非常适合全新系统的开发。 基于ThinkPHP开发,遵循与ThinkPHP相同的开源协议。 欢迎关注我的另一个项目:http://git.oschina.net/yhtt2020/OpenSNS-V2
最近更新: 7年多前基于Apache Nutch和Solr以及Htmlunit, Selenium WebDriver等组件扩展,实现对于AJAX加载类型页面的完整页面内容爬取、解析、清洗、持久化、全文检索等处理
最近更新: 7年多前牛咖-neocrawler nodejs 的爬虫系统。 特点: 支持web界面方式的摘取规则配置(css selector & regex); 包含无界面的浏览器引擎(phantomjs),支持js产生内容的抓取; 用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽; nodejs none-block 异步环境下的抓取性能比较高; 中央调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量; 支持多种抓取实例并存,定制摘取引擎和存储方式。
最近更新: 接近9年前OneThink是一个开源的内容管理框架,基于最新的ThinkPHP3.2版本开发,提供更方便、更安全的WEB应用开发体验,采用了全新的架构设计和命名空间机制,融合了模块化、驱动化和插件化的设计理念于一体,开启了国内WEB应用傻瓜式开发的新潮流。
基于Apache2.0 开源用户中心,提供了基本的注册登录、权限管理、扩展资料管理、等级头衔、积分机制、用户行为机制、模块装卸、插件机制,提供了完整的后台界面以及安装程序。适合需要开发全新的PHP系统。有需要的朋友可以自行下载研究。目前为开发版。项目主页www.ocenter.cn 开发者讨论区 dev.ocenter.cn
最近更新: 11年前牛抓-neocrawler nodejs 的爬虫系统。 特点: 支持web界面方式的摘取规则配置(css selector & regex); 包含无界面的浏览器引擎(phantomjs),支持js产生内容的抓取; 用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽; nodejs none-block 异步环境下的抓取性能比较高; 中央调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量; 支持多种抓取实例并存,定制摘取引擎和存储方式。
最近更新: 11年多前