鱼喃

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。
与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势。
首先，Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。
Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍。
Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。
除了Map和Reduce操作之外，它还支持SQL查询，流数据，机器学习和图表数据处理。开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。
(http://www.infoq.com/cn/articles/apache-spark-introduction)

支持自定义url模式（参数）的第三方访问量统计服务

Posted on 2017-04-07

又造了个轮子

网站（页面）访问量统计是一个很有用的东西，但是每一个网站都自己实现一遍感觉很蠢。就为了统计访问量，明明一个select就能解决的事情偏偏还要跟上一个update，大部分时间都花在了不那么重要的事情上了（尽管这个时间短到可以忽略不计）;而且这个访问量统计统计的应该是真人的访问，内置在网站程序中结果就是大部分的浏览量都是爬虫，访问量沦为一个意义不大的数字。

基于Docker Swarm搭建Apache Storm集群

Posted on 2017-04-07

Storm介绍

Apache Storm是一种侧重于极低延迟的流处理框架，也许是要求近实时处理的工作负载的最佳选择。该技术可处理非常大量的数据，通过比其他解决方案更低的延迟提供结果。
(http://www.infoq.com/cn/articles/hadoop-storm-samza-spark-flink)