从互联网进入人们的生活开始,我们接触的数字文献或者逐渐多了起来。随着大家对数据的使用和应用越来越频繁,生产数据的能力随着横向的联动在迅速增长。
关于大数据的,我的理解是体量大、多样化、快速化和价值密度不高。虽然它的价值密度低,但是把大量的数据集成以后我们可以去做很多后期分析。而这些数据从哪里来,我想到的是数字化。在过去10年左右的时间里,有大量的数字化工程或者相关的数字化采集课题出现。这些数字化工程要把大量实体以数字文件的形式存储起来,那它是不是大数据?个人的理解是过去10多年做的数字化工程工作是在把我们实体当中的概念、理念和文化向虚拟世界进行迁移,我们把过去实体的存在形态通过扫描或者数字化建模的方式进入数字世界,再把这个实体形态进行静态迁移。在现实世界当中有行政区划结构,有单位的实体和个人智囊实体,但是有这些实体还不够,大家还在发生交互。而现实世界和数字世界同样也在发生交互,在这两个世界当中有一个共同的角色,就是我们。
那么,数据从哪里来?其实在里面数据有两种类型,一种是从实体到数字世界的静态迁移,过去我们所做的数字化工作是大数据的一部分,它为我们构建了大数据时代里的静态数据结构。在接下来的时间里,我们会更关注在数字社会里我们的文化或者其他的人类活动的交互,这是大数据理念下的第二个重要数据来源,有了静态加上实体的动态活动,我们对社会或者人类活动的全程模式,甚至新的生活方式的分析才会有完整的数据来源。
如何发挥数据的价值?从分析的层面来看,光靠技术是不够的。如果想让我们的数据发挥价值,还要综合其他手段,这样我们收集上来的数据才能够真正发挥价值。
关于大数据在文化领域当中的应用,过去我们认为文化是不太容易琢磨的形态,但是我建议在尽可能的情况下尝试去做一些文化量化研究工作,因为要进入大数据当中,如果没有一种可以量化的方式和标准,我们的技术手段很难上去。另外,大数据不是一个百米冲刺,不是某个阶段就能建设完成的项目。事实上应用产生数据、价值和价值应用这样一个闭环是大数据建设的一种可能的形态和模式,数据需要长期的累积和闭环循环。