关于数据

数据,一个我过去的2019年思考最多的词汇,几乎涵盖了整个人类当代史。

有人说数据是一种能源,没错。

作为一个看不见摸不着的虚拟的东西,为什么数据有如此巨大的威力呢?

这就要从数字化和计算说起,数字化是伴随着人类电子技术的进步而诞生的一个现代化过程,以计算机的诞生为最关键标志。从通用计算设备出现开始,计算机就要读取数据,计算,写入数据,没有数据,计算就没有了价值,即使如加法这么简单的工作,没有了输入,加法这个动作也变得毫无意义,映射到物理世界,如果没有了相互作用物,也就是没有了具体的参与者,任何过程都是毫无意义的,一个化学过程,物理过程,每一步能计算的东西,都离不开类型、数值,规律只是应用其上的法则和步骤,不同的输入会得到不尽相同的输出。一阵风吹动树叶,也要和树叶的位置,质量,面积,风的大小各种各样的数据有关,有了这些数据才能计算接下来的运动走向。

无论是物理、化学以及其背后的数学,我们发现如果要模拟这个世界,就要学会计算,没有计算就没有预测的能力,就没法掌握规律,就无法完成各种各样的任务,只是很多情况下,所谓的计算只是对可复现过程的物理过程的简化,这种简化是抛弃了物质世界的复杂性,利用简单性原则,可以分析事物的某个属性,比如我们研究天体运行规律时,就关注其整体质量和距离,不关心其上面是什么元素构成,是铁元素多还是镍元素多,量化是进行事物分析的基础。整个世界的运转,整个科学的基础就是基于这些数据和计算过程的。这也是计算机如此强大的原因,它可以模拟,可以推理,可以在各个抽象层次上计算。而计算的基础是量化的数据。

所以我们说第三次工业革命既是信息革命也是数字化革命,是传统的物质世界的过程,科学研究的方法,都搬到计算机世界的过程。无论是计算器、互联网还是个性化推荐引擎。数字化是一个内涵相当丰富,涉及极为广泛的概念。任何思想逻辑首先要以数据为基础。

我们从数据的角度看整个互联网的发展历程,第一次以雅虎为代表的目录型网站,是将互联网上的网站信息进行人为编辑后呈现出来,第二次以谷歌为代表的搜索型网站,是用PageRank算法将互联网上的网站进行自动化的汇总和整理,并建立一个大型的可检索的数据库,让用户通过搜索的产品形态来获取个性化的数据,第三代以FaceBook为代表的社交性网站,是将人类大脑的想法以文字的形式在互联网上呈现出来,分享出来,是人的思想的数字化,我们称之为UGC,如微博、微信、知乎、twitter、facebook都是大众想法的数字化,记录生活的瞬间,记录脑中的灵感,抑或向他人推荐,抑或维持好友关系,人们将传统的基于声波的沟通方式,以数据的形式借助互联网进行传播和沟通,这种单纯的数据传播的本质是什么呢?我称之为消除信息不对称,当数据可以轻易地到达需要的人那里,信息不对称消除平台的任务就完成了使命,而数据的使用者登上舞台。

我们将数据相关的过程可以梳理为:数据生产、数据采集、数据流转、数据处理、数据分析。这个过程可以贯穿到任何过程,因而参与数字化的公司、组织和个人都只能在一个领域或环节上工作,有的专长数据的生产、有的专长流转、有专长处理、有的专长数据分析,然后在一个逻辑框架下完成数据的相关工作。举例如下:

1、搜索引擎:使用爬虫数据收集器,获取互联网上的网站的文本数据,进行索引,当用户输入想要的关键词时,从数据库中搜索对应的网页列表,甚至直接给出想要的网页,最好直接给出答案。输入问题,得到答案,输入的是数据,输出的也是数据,输出后的数据会被人脑这个数据处理器再次吸收处理使用再产出新的动作,这些动作本身就是数据,也是新数据生成的前置。

2、游戏:这个最难理解成是数据相关的应用,其实人脑是重要的数据处理器,计算机应用与人脑看成一个整体的话,就能看懂整个数据的流转视角了,开发者制作的各种视觉元素本身是人脑数据处理的依赖物,比如一个美女战士,一个酷炫宝刀,都是直戳人心的数据,游戏的各种ph值、经验值、积分、奖励系统都是围绕搭建一个数据世界,充分利用目标驱动理论,将人的思维元素在其构造的链条之上,一个升级打怪的过程,就是一个人高度参与的数据处理过程。

3、推荐引擎:淘宝和头条为代表的个性化推荐,仍然是以数据为基础,借助数据分析人类喜好,借助机器学习,进行精准推荐的过程。这里面机器学习是典型的数据依赖型技术。

4、O2O:无论是Airbnb、美团点评还是滴滴打车、亦或是好大夫、58同城、贝壳,首要就是解决信息不对称的问题,即重点解决数字化和数据流转问题,GPS给了位置数字化的机会,UGC给了物理实体数字化的机会,人在数据的链条上被串了起来。

5、支付:解决货币的数字化与交易的数字化问题

6、云:解决数字化的基础设施问题

7、在线教育:大脑重度参与型的应用都容易被忽略其中间的数据因素,除了O2O特性,像流利说这种是进入到个人学习状况数字化,基于此进行推荐和个性化教学。VIPKID就更多是基础的将人进行数字化,然后解决信息不对称和自动匹配过程。

8、数据设施提供商:围绕着数据有各类的数据工具和基础设施、大数据技术的各类工具从各类公司里诞生出来,比如Google、Airbnb、LinkedIn,这些公司本身也有大数据处理的需求,而很多公司没有处理数据的能力,这些数据资源就变成了浪费,因而一些没有大数据处理能力的公司,就会寻求一个服务商,购买他们的数据解决方案,早期小数据量时,搭个MySQL或Oracle就可以搞定,但海量数据时代,必须要上大数据集群,有了talking data、明略、亚信、数云、达观,在垂直领域,很多特定领域的数据处理过程,也有人又各种各样的需求,因为也诞生了像神策这种垂直化领域的BI和大数据解决方案提供商。