大数据这个概念听说过挺久的了,但一直没有系统了解,由于工作需要,想做点深入了解,于是翻了关于大数据的经典之作《大数据时代》,猛然发现这本书出版于2012年,已是七年前的著作了。
《大数据时代》这部书算是易懂的,因为它是从宏观的角度讲了大数据时代带来的思维变革,还有很多丰富详实的案例,但并不涉及数据处理细节那些琐碎的东西,所以对于非专业人士来讲读起来并不困难甚至可以说是有趣的。
与大数据对应的是小数据,在小数据时代,由于技术条件的限制,人类无法获取大量的数据,即便获取了,也无法快速处理那些数据,为了解决这一难题,聪明的人类发明了随机采样法。在随机采样中,由于一切都是随机的,它本身就综合了各种因素,又排除了人为因素,所以它的结论也大致满足需求。但是在大数据时代,样本=总体。
要所有数据,不管这数据是对的还是错的,有意的或无意的,有用的还是无用的,全要。一个最简单的例子是翻译软件的发展,在最开始的版本中,翻译学家想要把一切语言规则都内置到软件中,他们认为这样软件就会实现自动翻译,结果他们发现自己得到了一坨屎。
当下的翻译软件则不然,它的“师傅们”不再是一堆语言规则,而是全世界人民!首先,开发人员先把馆藏双语对照的书籍植入计算机中,其次每个人每天在网络上发的双语对话都会被计算机记录并学习,目前的计算机已经可以实现深度学习,即不要内置规则,它根据大量的输入自己学习规则。
在这个简单的例子中已经彰显出大数据的三个特点:
- 更多:不是随机样本,而是全部数据;
- 更杂:不是精确性,而是混杂性;
- 更好:不是因果关系,而是相关关系。
首先第一点“要全部数据”很好理解,本来就是大数据嘛,其次第二点“不是精确性而是混杂性”这点也容易理解,这个世界本来就是混乱的,想要秩序不过是人类的一厢情愿而已,从混乱的世界中得到的数据自然也是混乱的、不精确的,但这样的数据才能更真实地反映世界的本来面目,何必追求精确呢?在翻译软件的例子中,当计算机去识别网络上的语句时,它是无法保证每个人写的都是正确的,但正是这种多样性的存在才更能赋予计算机翻译的智能性。
最不好理解也最有争议的就是第三点,用相关关系替代因果关系。相关关系顾名思义,当一种现象发生变化时,另一种现象随之改变,这说明两种现象是相关的,但这里并不强调二者之间有什么逻辑上的因果性,因果关系则不然。
在心理学上有个第三变量问题,说当两个现象具有相关关系时,人们往往会把它误当作因果关系,而忽略第三变量。一个典型的例子是说私立学校和公立学校教育水平问题,一般来讲,人们只看到私立学校教出来的学生更优秀就认为他们的教育水平更好,而往往忽略上私立学校的孩子家庭条件更好,父母的受教育程度更好,而这才是影响孩子学习成绩的关键因素。
从大数据的角度来讲,取消因果关系是明智的,因为当数据庞大了以后,想要分析因果关系势必登天,因为它牵扯的因素太多了,根本无法分析,更重要的是,人们需要因果关系吗?人们只需要知道这件事发生了以后接下来会发生什么就足够了,至于为什么会发生,谁关心呢?上帝吗?
关心这个问题的大概都是哲学家。哲学家们会担心,没有了因果关系,人在计算机面前就会像傻子一样任人摆布,这是一种堕落。
但不管如何,大数据时代的特点就是这样,接受它你就迈入了大数据时代。在这样的背景下,数据开始值钱了,但也不是说谁有数据谁就能雄霸天下。有的公司空有一堆数据但不会处理,有的公司知道怎么处理数据但却缺少创新思维,不知道拿来何用。最好的是那些既有数据又知道怎么处理数据还具备创新思维的公司,但这样的公司又极易沦为数据主义。
数据主义即只认数据,唯数据是从,极端情况就类似于电影《少数派报告》所展现的场景了,在电影里有三个人具备预知能力,警方用他们的超能力实施罪前打击,当一个人想要犯罪还没有犯罪的当口抓住他,而在数据时代,当一个人奉数据为圭臬时,他可能六亲不认只认数据,当数据预测到某人要犯罪时,是直接抓他坐牢还是坐等他犯罪?这是个问题。