还要不要做大数据

我5月14日发了一条微博，后面的评论和私聊引起了我很多反思。这条微博是这样的：“我从0.16版本开始用Hadoop到现在已经5年了，一直相信大数据会是未来决胜的关键。但是，这个未来看来还有很远。或者说我们遇到的问题不同，是这些发明大数据的老外难以理解的，我们已经超前了很多。”

大数据这个话题近些年越来越热，我其实觉得它热过了头，所以我这里是想泼冷水的。

历史

估计会看到这个内容的大多数是我以前的同事，你们都知道我进这行不晚，2008年在人人网开始搭Hadoop，用0.16.3，那时候还没有什么人谈大数据，第一本Hadoop的书[1]也是2009年6月才出版的。那时候我们也没有概念要怎么用这个东西，唯一的目的就是改变“打点统计Log”模式，一开始就把生产服务搞死了三次。

那时候的服务叫ActiveLog，每一个PV记录一行，格式跟Apache Combined Log很类似，我们把WebServer的日志集中记录在统一的Server上（是的，比Facebook开源Scribe早半年[2]）。为了存储空间的问题，引入了Hadoop，分布的存储在几百台服务器上。也就是这个结构，运行MapReduce占交换机带宽过大就会把生产集群挤死。

我记得最早的一个完整24小时Log文件的日期时2008年3月15日。那时候的日志是196GB/天。

当然后来大数据火了，我们有了更多的内部用户，也有了独立服务器甚至独立的机房，千兆直连核心交换机，到我2012年离职时集群已经有700台的规模了。

反思

饮水思源，这些年大数据概念红火带来了项目的红利，受这个影响我自己职业发展也不错。但是，掩盖不了一个一个具体问题的产生，应用范围一直是我最困扰的难题。

这让我回到源头去重新审视自己设计的系统和整个应用体系，然后我才发了最开始的那条微博。

数据量

多大的数据量敢叫大数据呢？Wikipedia里面有一句话：As of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set.[3]

2008年人人网的Log数据一个月有6TB，将就着算half dozen吧，偶尔也要算整年的数据。

所以我只敢说我做过Hadoop，实在不敢说成大数据。现在在谈大数据的书和文章，有多少作者是处理过上PB数据的？国内PB级容量的集群又有几个呢？

几百G就用awk吧，几T其实也可以用数据库的。

应用范围

谈到大数据应用就涉及三件事：1) Distributed/Parallel computing. 2) Data mining 3) Business Intelligence

这三个是互相依赖的，直接的需求来自BI，间接的需求来自数据挖掘，实现在Computing上。可是现实的情况给我的切身感受用一句老话来比喻：粗放型经济向集约型经济转型。现在谈集约的下一步绿色经济，还为时尚早。

我们的互联网有几乎取之不尽的用户，打擦边球都能上市的公司，我们真的在乎数据吗？

炒作完大数据概念，真的应用到业务里，产生了利润吗？能挣回成本吗？

我知道国内大多数互联网公司的PM是不用数据做决策的，在谈大数据之前，应该从“小数据”开始。

这个切身体会我是到国外工作以后才有的，发那条微博前一周，我转了大概8%的现金到另一家银行开户，第二天，我的客户经理就要约我谈谈“投资需求”。要知道我去招行销金葵花可都没人问原因，销户一个月我的客户经理还打电话跟我说“因为我是金葵花客户，所以邀请办百夫长黑卡”，这是多么大的差距。

但是这还是“小数据”，这些事情还没办法做好，国内的大数据怎么做，做出来给谁看，谁又真的会看？

其实我觉得这个问题是无解的，市场决定了这个粗放的大环境，短期内是不会改变的。

现实能做的，不是去贩卖大数据的概念和技术，而是实实在在的让“小数据”先得到应用。
[1] http://wiki.apache.org/hadoop/Books
[2] http://en.wikipedia.org/wiki/Scribe_(log_server)
[3] http://en.wikipedia.org/wiki/Big_data

历史

反思

数据量

应用范围

Comments

Leave a Reply

More posts

Remote access my home lab from Tesla

Keychron使用体验

TL-R479GPE-AC设置VLAN

Share bluetooth mouse between dual boot Win10/Linux