What is the best way to learn big data technologies?

Answer by Brent Bai:

I have to say, my career of big data start with "small" data.
You need real big data in hand to understand why these technologies designed.
Most of the big data frameworks are slower than centralised solution when it is about hundreds gigabyte.

Big data is an expensive toy.

What is the best way to learn big data technologies?

还要不要做大数据

我5月14日发了一条微博，后面的评论和私聊引起了我很多反思。这条微博是这样的：“我从0.16版本开始用Hadoop到现在已经5年了，一直相信大数据会是未来决胜的关键。但是，这个未来看来还有很远。或者说我们遇到的问题不同，是这些发明大数据的老外难以理解的，我们已经超前了很多。”

大数据这个话题近些年越来越热，我其实觉得它热过了头，所以我这里是想泼冷水的。

历史

估计会看到这个内容的大多数是我以前的同事，你们都知道我进这行不晚，2008年在人人网开始搭Hadoop，用0.16.3，那时候还没有什么人谈大数据，第一本Hadoop的书[1]也是2009年6月才出版的。那时候我们也没有概念要怎么用这个东西，唯一的目的就是改变“打点统计Log”模式，一开始就把生产服务搞死了三次。

那时候的服务叫ActiveLog，每一个PV记录一行，格式跟Apache Combined Log很类似，我们把WebServer的日志集中记录在统一的Server上（是的，比Facebook开源Scribe早半年[2]）。为了存储空间的问题，引入了Hadoop，分布的存储在几百台服务器上。也就是这个结构，运行MapReduce占交换机带宽过大就会把生产集群挤死。

我记得最早的一个完整24小时Log文件的日期时2008年3月15日。那时候的日志是196GB/天。

当然后来大数据火了，我们有了更多的内部用户，也有了独立服务器甚至独立的机房，千兆直连核心交换机，到我2012年离职时集群已经有700台的规模了。

反思

饮水思源，这些年大数据概念红火带来了项目的红利，受这个影响我自己职业发展也不错。但是，掩盖不了一个一个具体问题的产生，应用范围一直是我最困扰的难题。

这让我回到源头去重新审视自己设计的系统和整个应用体系，然后我才发了最开始的那条微博。

数据量

多大的数据量敢叫大数据呢？Wikipedia里面有一句话：As of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set.[3]

2008年人人网的Log数据一个月有6TB，将就着算half dozen吧，偶尔也要算整年的数据。

所以我只敢说我做过Hadoop，实在不敢说成大数据。现在在谈大数据的书和文章，有多少作者是处理过上PB数据的？国内PB级容量的集群又有几个呢？

几百G就用awk吧，几T其实也可以用数据库的。

应用范围

谈到大数据应用就涉及三件事：1) Distributed/Parallel computing. 2) Data mining 3) Business Intelligence

这三个是互相依赖的，直接的需求来自BI，间接的需求来自数据挖掘，实现在Computing上。可是现实的情况给我的切身感受用一句老话来比喻：粗放型经济向集约型经济转型。现在谈集约的下一步绿色经济，还为时尚早。

我们的互联网有几乎取之不尽的用户，打擦边球都能上市的公司，我们真的在乎数据吗？

炒作完大数据概念，真的应用到业务里，产生了利润吗？能挣回成本吗？

我知道国内大多数互联网公司的PM是不用数据做决策的，在谈大数据之前，应该从“小数据”开始。

这个切身体会我是到国外工作以后才有的，发那条微博前一周，我转了大概8%的现金到另一家银行开户，第二天，我的客户经理就要约我谈谈“投资需求”。要知道我去招行销金葵花可都没人问原因，销户一个月我的客户经理还打电话跟我说“因为我是金葵花客户，所以邀请办百夫长黑卡”，这是多么大的差距。

但是这还是“小数据”，这些事情还没办法做好，国内的大数据怎么做，做出来给谁看，谁又真的会看？

其实我觉得这个问题是无解的，市场决定了这个粗放的大环境，短期内是不会改变的。

现实能做的，不是去贩卖大数据的概念和技术，而是实实在在的让“小数据”先得到应用。
[1] http://wiki.apache.org/hadoop/Books
[2] http://en.wikipedia.org/wiki/Scribe_(log_server)
[3] http://en.wikipedia.org/wiki/Big_data

使用Hive做数据分析

在大规模推广streaming方式的数据分析后，我们发现这个模式虽然入门成本低，但是执行效率也一样低。
每一个map task都要在TaskTracker上启动两个进程，一个java和一个perl/bash/python。
输入输出都多复制一次。

经过了一系列调研后，我们开始将部分streaming任务改写为Hive。

Hive是什么？

Hive是单机运行的SQL解析引擎，本身并不运行在Hadoop上。
SQL经过Hive解析为MapReduce任务，在Hadoop上运行。
使用Hive可以降低沟通成本，因为SQL语法的普及度较高。
Hive翻译的任务效率不错，但是依然不如优化过的纯MapReduce任务。

数据准备

原始日志文件是这样的：
1323431269786 202911262 RE_223500512 AT_BLOG_788514510 REPLY BLOG_788514510_202911262

分别对应的字段是 <时间> <操作人> [[说明] [说明]……] <操作> <实体>
上面的例子对应的含义是：

<时间>： 1323431269786
<操作人>： 202911262
[说明]： RE_223500512
[说明]： AT_BLOG_788514510
<操作>： REPLY
<实体>： BLOG_788514510_202911262

扩展Hive的Deserializer

要用SQL分析数据，Hive必须知道如何切分整行的日志。Hive提供了一个接口，留给我们扩展自己的序列化和反序列化方法。


import java.util.Properties;
import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hive.serde2.Deserializer;

import org.apache.hadoop.hive.serde2.SerDeException;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

import org.apache.hadoop.io.Writable;
public class RawActionDeserializer implements Deserializer {
  @Override

  public Object deserialize(Writable obj) throws SerDeException {

    // TODO Auto-generated method stub

    return null;

  }
  @Override

  public ObjectInspector getObjectInspector() throws SerDeException {

    // TODO Auto-generated method stub

    return null;

  }
  @Override

  public void initialize(Configuration conf, Properties props)

      throws SerDeException {

    // TODO Auto-generated method stub
  }

}
三个函数作用分别是：

initialize：在启动时调用，根据运行时参数调整行为或者分配资源。
getObjectInspector：返回字段定义名称和类型。
deserialize：对每一行数据进行反序列化，返回结果。

定义表结构

在我们这个例子中，字段是固定的含义，不需要在initialize方法配置运行期参数。我们把字段的定义写成static，如下。
private static List structFieldNames = new ArrayList();


  private static List structFieldObjectInspectors = new ArrayList();

  static {

    structFieldNames.add("time");

    structFieldObjectInspectors.add(ObjectInspectorFactory

        .getReflectionObjectInspector(Long.TYPE, ObjectInspectorOptions.JAVA));
    structFieldNames.add("id");

    structFieldObjectInspectors.add(ObjectInspectorFactory

        .getReflectionObjectInspector(

            java.lang.Integer.TYPE, ObjectInspectorOptions.JAVA));
    structFieldNames.add("adv");

    structFieldObjectInspectors.add(ObjectInspectorFactory

        .getStandardListObjectInspector(

            ObjectInspectorFactory.getReflectionObjectInspector(

                String.class, ObjectInspectorOptions.JAVA)));
    structFieldNames.add("verb");

    structFieldObjectInspectors

        .add(ObjectInspectorFactory.getReflectionObjectInspector(

            String.class, ObjectInspectorOptions.JAVA));
    structFieldNames.add("obj");

    structFieldObjectInspectors

        .add(ObjectInspectorFactory.getReflectionObjectInspector(

            String.class, ObjectInspectorOptions.JAVA));

  }

@Override public ObjectInspector getObjectInspector() throws SerDeException { return ObjectInspectorFactory.getStandardStructObjectInspector( structFieldNames, structFieldObjectInspectors); }

定义解析函数

为了能够让Java MapReduce任务复用代码，我们在外部实现了一个与Hive无关的类，这里不再贴代码。这个类定义了与日志字段相同的成员变量，并且提供一个static的valueOf方法用于从字符串构造自己。
@Override public Object deserialize(Writable blob) throws SerDeException { if (blob instanceof Text) { String line = ((Text) blob).toString(); RawAction act = RawAction.valueOf(line); List

Category: Hadoop

What is the best way to learn big data technologies?

还要不要做大数据

历史

反思

数据量

应用范围

使用Hive做数据分析

Hive是什么？

数据准备

扩展Hive的Deserializer

定义表结构

定义解析函数

[Updated] Hive for Hadoop 0.21.0

Hadoop reduce 慢

Hadoop存在的问题

中小规模Hadoop集群优化

Hadoop技术沙龙感想