在测试过程中遇到各种各样的问题,在不断调整中总结出以下一些常见的问题和解决(缓解)方案。因为有时一个设计会同时影响到不同的部分,或者说它们本身就是存在联系的,所以内容上会有重叠的地方。
StreamSpider爬虫之系统设计
Posted on
系统设计
StreamSpider爬虫之代理
Posted on
分布式的爬虫系统怎么可以没有代理呢?整个系统基本构建完之后就开始考虑这些附加的特性。
HttpClient无法正确重定向到含有中文的网址
Posted on
HttpClient的BUG
以为解决完URL中编码的问题StreamSpider爬虫之中文URL编码 之后就不用再考虑中文的问题了,然而现实是填完一个坑又有一个新的坑在等着我。
StreamSpider爬虫之中文URL
Posted on
告别中文乱码,自动检测网页编码的JAVA爬虫
Posted on
Docker(Swarm) WEB管理面板调研与对比
Posted on
不是所有人都喜欢命令行的
基于GlusterFS设计 Docker(swarm) 集群存储方案
Posted on
一个去中心化的分布式存储方案,搭建起来还比较容易哦。
基于Docker Swarm搭建Spark集群
Posted on
什么是Spark
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。
首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。
Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。
Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。
除了Map和Reduce操作之外,它还支持SQL查询,流数据,机器学习和图表数据处理。开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。
(http://www.infoq.com/cn/articles/apache-spark-introduction)
支持自定义url模式(参数)的第三方访问量统计服务
Posted on