(二)数据要素的主要特征和分类
1.应用场景成为数据要素鉴别标准
数据本质上是信息的记录,但数据并非都是要素。有学者提出首先需依照应用场景分清四类具有不同性质的数据:第一类数据本身就是最终商品或服务,比如在线读资讯、看视频——作为最终消费品的数据不是生产要素;第二类数据是直接进行交易的生产要素,比如大数据交易所里打包交易的数据;第三类数据帮助提升最终产品或服务的性能或生产效率,是企业内部生产要素,比如引流、效果广告、配送优化等,但并没有在市场中直接进行数据交易;第四类数据作为生产要素在兼并收购或战略合作中有价值体现,但并非直接交易数据。
2.数据要素的三种类型
就作为生产要素的数据来说,数据类型丰富多样,而这些数据可以划分成结构化数据、非结构化数据和半结构化数据三个不同类型。
(1)结构化数据
结构化数据,也被称为“定量数据”,是高度组织和整齐格式化的数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。其一般特点是:数据以行为单位即一行数据表示一个实体的信息;同时每一行数据的属性是相同的。结构化数据是可以轻易放入表格和电子表格中的数据类型。在项目中,保存和管理此类数据的一般为关系数据库,当使用结构化查询语言或SQL时,计算机程序很容易搜索这些术语。
结构化数据的存储和排列是有规律的,对查询和修改等操作很有帮助,但是在日常生活中不易找到。结构化数据的扩展性也不好,比如,如果字段不固定,关系型数据库的使用也是比较困难的。
典型的结构化数据包括:信用卡号码、日期、财务金额、电话号码、地址、产品名称等。结合到典型场景中更容易理解,比如企业ERP、财务系统、医疗HIS数据库、教育一卡通、政府行政审批,以及其他核心数据库。
(2)半结构化数据
半结构化数据是结构化数据的一种形式,却并不符合通过关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,半结构化数据也被称为“自描述的结构”,其应用有日志文件、XML文档、JSON文档、电子邮件等,包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、Web集群、教学资源库、数据挖掘系统、档案系统等等。这些应用对于数据存储、数据备份、数据共享以及数据归档等存在基本存储需求。
半结构化数据中,同一类实体可以有不同的属性(即使他们被组合在一起),而这些属性的顺序并不重要,且属性的个数不一定一样。以树或者图的数据结构存储的半结构化数据可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据具备很好的扩展性。
(3)非结构化数据
数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据就是“非结构化数据”。本质上,非结构化数据是结构化数据之外的一切数据,其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。用它不仅可以处理结构化数据(如数字、符号等信息),而且更适合处理非结构化数据(如全文文本、图像、声音、影视、超媒体等信息)。它不符合任何预定义的模型,因此存储在非关系型数据库中。它可能是文本的或非文本的,也可能是人为的或机器生成的。简单地说,非结构化数据就是字段可变的数据。
非结构化数据不是那么容易组织或格式化的。收集、处理和分析非结构化数据也是一项重大挑战。这产生了一些问题,因为非结构化数据构成了网络上绝大多数可用数据,并且它每年都在增长。随着更多信息在网络上可用,并且大部分信息都是非结构化的,找到使用它的方法已成为许多企业的重要战略。更传统的数据分析工具和方法还不足以完成这项工作。
典型的人为生成的非结构化数据包括:
· 文本文件:文字处理、电子表格、演示文稿、电子邮件、日志。
· 电子邮件:电子邮件由于包含元数据而具有一些内部结构,我们有时将其称为半结构化。但是,消息字段是非结构化的,传统的分析工具无法解析它。
· 社交媒体:来自新浪微博、微信、QQ、Facebook、Twitter、LinkedIn等平台的数据。
· 网站:哔哩哔哩、照片共享网站。
· 移动数据:短信、位置等。
· 通讯:聊天、即时消息、电话录音、协作软件等。
· 媒体:MP3、数码照片、音频文件、视频文件。
· 业务应用程序:MS Office文档、生产力应用程序。
典型的机器生成的非结构化数据包括:
· 卫星图像:天气数据、地形、军事活动。
· 科学数据:石油和天然气勘探、空间勘探、地震图像、大气数据。
· 数字监控:监控照片和视频。
· 传感器数据:交通、天气、海洋传感器。
(4)结构化数据与非结构化数据的区别
除了存储在关系数据库和存储在非关系数据库之外,结构化数据与非结构化数据之间最大的区别在于便利性上的不同:针对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具还处于发展的阶段中。因为与结构化数据相比,非结构化数据相对较多,占企业数据的80%以上,如果没有工具来分析这些海量数据,企业数据的巨大价值都将无法发挥。
随着储存成本的下降,以及新兴技术的发展,行业对非结构化数据的重视程度得到提高。比如,物联网、工业4.0、视频直播产生了更多的非结构化数据;同时,人工智能、机器学习、语义分析、图像识别等技术方向更需要大量的非结构化数据来开展工作。