鱼喃

听!布鲁布鲁,大鱼又在那叨叨了

含有中文字符的网址404问题

用浏览器访问网址的时候,浏览器会默认编码URL,例如把中文、空格改成类似%xx的形式,服务器接收到之后再解码得到原URL,这个过程对用户来说是透明的。

Read more »

什么是Spark

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。
首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。
Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。
Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。
除了Map和Reduce操作之外,它还支持SQL查询,流数据,机器学习和图表数据处理。开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。
(http://www.infoq.com/cn/articles/apache-spark-introduction)

Read more »

又造了个轮子

网站(页面)访问量统计是一个很有用的东西,但是每一个网站都自己实现一遍感觉很蠢。就为了统计访问量,明明一个select就能解决的事情偏偏还要跟上一个update,大部分时间都花在了不那么重要的事情上了(尽管这个时间短到可以忽略不计);而且这个访问量统计统计的应该是真人的访问,内置在网站程序中结果就是大部分的浏览量都是爬虫,访问量沦为一个意义不大的数字。

Read more »