系统设计
StreamSpider爬虫之代理
分布式的爬虫系统怎么可以没有代理呢?整个系统基本构建完之后就开始考虑这些附加的特性。
HttpClient无法正确重定向到含有中文的网址
HttpClient的BUG
以为解决完URL中编码的问题StreamSpider爬虫之中文URL编码 之后就不用再考虑中文的问题了,然而现实是填完一个坑又有一个新的坑在等着我。
StreamSpider爬虫之中文URL
告别中文乱码,自动检测网页编码的JAVA爬虫
Docker(Swarm) WEB管理面板调研与对比
不是所有人都喜欢命令行的
基于GlusterFS设计 Docker(swarm) 集群存储方案
一个去中心化的分布式存储方案,搭建起来还比较容易哦。
基于Docker Swarm搭建Spark集群
什么是Spark
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。
首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。
Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。
Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。
除了Map和Reduce操作之外,它还支持SQL查询,流数据,机器学习和图表数据处理。开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。
(http://www.infoq.com/cn/articles/apache-spark-introduction)
支持自定义url模式(参数)的第三方访问量统计服务
基于Docker Swarm搭建Apache Storm集群
Storm介绍
Apache Storm是一种侧重于极低延迟的流处理框架,也许是要求近实时处理的工作负载的最佳选择。该技术可处理非常大量的数据,通过比其他解决方案更低的延迟提供结果。
(http://www.infoq.com/cn/articles/hadoop-storm-samza-spark-flink)