本文共 3310 字,大约阅读时间需要 11 分钟。
区块链和大数据都是顶尖的新兴技术,有望彻底改变多个行业,从根本上改变企业和组织的运营方式。人们可能会认为这些技术是互斥的:每种技术都会形成独特的路径,且彼此独立地应用。
但你要是这么想的话,你就将会错得离谱了。
就像数据科学一样,区块链正在逐步改变一些行业的运作方式。虽然数据科学侧重于利用数据进行适当的管理,但区块链却是通过维护分散的账本来确保数据的可靠性。
问题是,这两个概念是否存在相交的地方呢?
当这两种技术同时应用时,将会实现什么呢?
简单地说,区块链如何颠覆数据科学?
要回答这些问题,就有必要更好地理解区块链和数据科学之间的区别。
区块链基本上就是一种不可信的账本,它记录经济交易,这样就不会被操纵了。这项技术之所以引人注目,是因为人们对比特币和加密货币普遍感兴趣,但此后人们发现,区块链不仅与加密货币交易相关,而且与任何有价值的交易都相关。了解这种新兴技术的能力后,开发人员和技术爱好者已经开始为区块链设计一个又一个用例。
在过去几年中,区块链开发人员越来越抢手,就像开发不同区块链应用的项目一样。据来自 UpWork 等自由职业平台的报告,他们将区块链技能保留为最需要的技能。同样地,法律研究等其他领域的专业人士如果拥有区块链技能,或者至少对区块链技术有所了解,就会被认为有很大的竞争优势。
数据科学寻求从结构化和非结构化数据中提取知识和见解。该领域包括统计、数据分析、机器学习和其他用于理解和分析使用数据的实际过程的高级方法。
用经济学的术语来说,数据经常被描述为新的石油,这就是为什么包括著名的 GAFA(即 Google、Amazon、Facebook 和 Apple)在内的领先企业控制着大量数据的原因。在互联网引擎协议、数字广告和推荐服务中可以看到数据科学的一些常见应用。数据分析是数据科学的一个重要方面,人们发现,数据分析在医疗行业中,与跟踪患者的治疗和设备流程相关;数据分析在旅行游戏中能够提高消费者的体验;数据分析还能用于能源管理以及许多其他部门。
企业对数据科学家也有一种似乎永无止境的需求,因为他们可以提供更多关于数据的洞察力,帮助解决更多的问题。当考虑大数据时,这一点尤为明显,大数据是数据科学的一个高级方面,处理的是传统数据处理方法无法处理的海量数据。
与金融技术、医疗保健和供应链等区块链现在非常熟悉的领域不同,区块链技术在数据科学方面并没有得到广泛的探索。对某些人来说,这些概念之前的关系就算存在,但也是不清晰的。
首先,区块链和数据科学都处理数据:数据科学分析数据以获得可操作的见解,而区块链则记录和验证数据。区块链和数据科学都利用为管理与各种数据段交互而创建的算法。你很快就会注意到的一个共同主题是:“数据科学用于预测;区块链用于数据完整性。”
与任何技术进步一样,数据科学也有其自身的挑战和局限性,这些挑战和局限性一旦得到解决,将会释放其全部能力。数据科学面临的一些主要挑战包括无法访问的数据、隐私问题和脏数据。
对脏数据(或错误信息)的控制是区块链技术能够在很大程度上对数据科学产生积极影响的一个领域。据 2017 年对 1.6 万名数据专业人士的调查,包括重复或错误数据在内的脏数据被认为是数据科学面临的最大挑战。通过分散共识算法和密码学,区块链对数据进行验证,由于需要巨大的算力,使得数据几乎不可能被操纵。
同样,区块链技术通过其去中心化系统确保了数据的安全性和隐私性。大多数数据都存储在集中式服务器上,这些服务器通常是网络攻击者的目标;几份关于骇客攻击和安全漏洞的报告显示了这种威胁的程度。另一方面,区块链将数据控制权恢复给生成数据的个人,使得网络犯罪分子大规模访问和操纵数据成为一项艰巨的任务。
Janexter 的 Maria Weinberger 说,如果数量很大,那么区块链就是质量。这是基于这样的理解:区块链专注于验证数据,而数据科学或大数据设计从大量数据中进行预测。
区块链带来了一种全新的数据管理和操作方式:不再是从集中所有数据的中心的视角来看,而是从去中心化的方式来看,数据可以直接在各个设备的边缘上进行分析。区块链集成了其他先进技术,如云解决方案、人工智能和物联网。
此外,通过区块链技术生成的经过验证的数据是结构化的、完整的,而且正如我们之前提到的那样,它是不可变的。区块链生成数据成为大数据推动力的另一个重要领域是数据完整性,因为区块链通过其链接链确定了数据的来源。
总的来说,区块链数据至少有五种具体方式可以帮助数据科学家。
记录在区块链上的数据是可信的,因为它们必须经过一个确保质量的验证过程。它还提供了透明度,因为可以跟踪在区块链网络上发生的活动和事务。
去年,Lenovo 展示了区块链技术的这一用例:检测欺诈性文档和表格。PC 巨头使用区块链技术来验证用数字签名编码的物理文档。数字签名由计算机处理,文档的真实性通过区块链记录进行验证。
大多数情况下,当关于数据块的起源和交互的详细信息存储在区块链中,并在对其进行操作之前自动验证(或验证)时,可以确保数据的完整性。
因为区块链使用共识算法来验证事务,因此单个单元不可能对数据网络构成威胁。开始出现异常行为的节点(或单元)可以很容易被识别并从网络中剔除。
由于网络是如此分布式的,因此一方几乎不可能产生足够的算力来更改验证标准并允许系统中出现不需要的数据。要更改区块链规则,就必须将大多数节点汇集在一起以创建共识。这可不是一个骇客凭一己之力就能做到的事。
和其他类型的数据一样,区块链可以通过进行分析来揭示对行为、趋势的有价值的见解,因此可以用来预测未来的结果。更重要的是,区块链提供从个人或个人设备手机的结构化数据。
在预测分析中,数据科学家基于大量数据,来准确地确定社交事件的结果,如客户偏好、客户终身价值、动态价格与企业相关的流失率等。然而,这并不局限于商业洞察力,因为几乎任何事件都可以通过正确的数据分析来预测,无论是社会情绪还是投资指标。
由于区块链的分布式特性以及通过它可获得的巨大算力,即使在较小的组织中,数据科学家也可以承担广泛的预测分析任务。这些数据科学家可以利用连接在区块链网络上的数千台计算机的算力作为基于云端的服务,以一种其他方式无法实现的规模来分析社会结果。
正如在金融和支付系统中所展示的那样,区块链也支持实时跨境交易。几家银行和金融科技创新公司现在正在探索区块链,因为它能提供快速、实时的巨额结算,而不受地域限制。
同样地,需要对大规模数据进行实时分析的组织也可以启用支持区块链的系统来实现。通过区块链,银行和其他组织可以实时观察数据的变化,从而能够快速作出决策,无论是阻止可疑交易还是跟踪异常活动。
在这点上,从数据研究中获得的数据可以存储在区块链网络中。项目团队不会重复其他团队已经执行的数据分析,也不会错误地重复使用已经使用过的数据。此外,区块链平台可以帮助数据科学家通过交易存储在平台上的分析结果将他们的工作货币化。
正如人们所指出的,区块链还处于萌芽阶段,但由于区块链技术在短时间内收到了大肆炒作,它可能不会出现在人们眼前了。公众预计,随着技术的成熟和更多的创新,将会发现和探索更为具体的用例,对数据科学领域而言,将会从中获益。
话虽这么说,但它在数据科学的影响,特别是需要处理大量数据的大数据,也提出了一些挑战。其中一个担忧就是,在这方面的区块链应用将会非常昂贵。这是因为与传统方法相比,区块链上的数据存储成本很高。与大数据和其他数据分析任务的每秒收集的大量数据相比,数据块处理的数据相对较少。
区块链将如何发展到能够解决这些问题并继续颠覆数据科学领域,这将是特别有趣的事情,因为正如我们所看到的,区块链技术有巨大的潜力,可以改变我们管理和使用数据的方式。
原文链接:
转载地址:http://yomko.baihongyu.com/