扒网站工具,看好哪个网站,指定好URL,自动扒下来做成模版。所见网站,皆可为我所用!
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
webmagic 是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
爬虫项目,微信公众号文章爬虫,网站文章爬虫,群发邮件系统
不懂数据采集技术,也可轻松采集海量数据!简单易上手,人人可用的数据采集工具!
CasperMagic是基于PlantomJS&CasperJS和WebMagic的一个整合。CasperJS可以很方便对动态网页进行测试,但Javascript不太容易执行数据持久化和数据分析,而一般的爬虫很难抓取动态网页的内容或对页面进行操作并爬取。
专门用来解决爬虫采集相关网站数据时模拟自动登录,验证码自动识别的问题;欢迎加入一起开发完善。
squirrel(聚哩猫)是一款基于Java语言开发,借助webmagic框架实现的聚合科技资讯爬虫项目,享受24H科技新闻速览。
分布式爬虫系统,简单使用,高级配置。可扩展,减轻开发量,能docker化,适应各种急切需求核心框架:WebMagic, Spring Boot ,MongoDB, ActiveMQ ,Spring + Quartz,Spring Jpa , Druid,Redis, Ehcache ,SLF4J、Log4j2, Bootstrap + Jquery 等,不详细列举了
运行于java环境的一个免费开源的企业信息采集器(简单的java网络爬虫)。
信息采集完成后自动导出Excel表格。
基于Jsoup+Poi+Sqlite开发完成。