🔥🔥🔥 Apache DolphinScheduler是新一代云原生工作流任务调度平台,致力于“解决任务之间错综复杂的依赖关系,让整个数据处理开箱即用”。已经有IBM、阿里、腾讯、360、JD等数千家公司生产上使用,下载最新安装包请去官网。加微信:easyworkflow 进官方用户群
蓝天采集器是一款开源免费的爬虫系统,仅需点选编辑规则即可采集数据,可运行在本地、虚拟主机或云服务器中,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登录实时发布数据,全自动无需人工干预!是网页大数据采集软件中完全跨平台的云端爬虫系统
大数据平台数据服务框架。实现了Kafka实时数据过滤、清洗、转换、消费,实现了Spark SQL对Redis、MongoDB等非关系型数据库的数据的读写;集成了规则引擎,可基于规则引擎实现客户标签、画像等相关功能。
分布式爬虫系统,简单使用,高级配置。可扩展,减轻开发量,能docker化,适应各种急切需求核心框架:WebMagic, Spring Boot ,MongoDB, ActiveMQ ,Spring + Quartz,Spring Jpa , Druid,Redis, Ehcache ,SLF4J、Log4j2, Bootstrap + Jquery 等,不详细列举了