这3种数据处理范式,未来会大规模改变数据市场。
区块链是一个多方共同完成总帐本记录过程的技术,参与的多个计算方将设备连接成网,形成了对外开放的区块链网络,诸如比特币、以太坊、波卡等等,各个计算参与方共享资源,供开发者和用户使用。
在这样的运行规则里,“数据流动”贯穿了每一个运行步骤。
从底层节点的通信到区块打包、复制、确认,再到应用层的交易转账。从网络中的转账交易到每个节点的余额、账户数据以及数据上链。
正是如此,区块链对数据处理的范式是对比传统数据库中数据处理的最大优势。
这里,不得不说的是,在漫长的互联网周期里,数据已经被企业确认为其价值核心,而与此同时,大量的数据处理和管理问题亟待解决,可喜的是,诸多区块链项目正在尝试利用区块链技术以及与其他技术结合,形成基于区块链的数据解决方案。
例如,在区块链的数据结构外增加了多元的结构设计和多样的计算形式。
本文中,白计划将把目前区块链项目处理数据的3种范式一一阐述,其中包括:最常见的区块链数据结构范式,阐述案例是预言机网络Chainlink;基于硬件的数据流动范式,阐述案例是日本物联网项目Jasmy;以及目前实现最难的基于可信计算的数据流动范式,阐述项目为数据可信计算网络PlatON。这3种范式,未来一定会大规模改变数据市场。
1.基于区块链数据结构的基础和进阶
区块链网络的数据流动过程是这样的,节点发现交易(数据),然后将交易打包后形成区块,继而由打包节点开始广播,参与共识的节点开始复制区块保存起来(或者共识节点确认保存后,其他全节点开始复制)。
这样,区块链上的数据变成了可信的(公开透明,且无法篡改)。
数据是保存在区块里,因为区块大小有限,所以区块里往往都是小字节大小的信息,例如比特币转账交易,以太坊的转账和合约调用消息。
我们可以把这些交易信息等替换成其他信息,例如商品溯源流通信息。还可以替换为任何可以公开的信息,例如广告点击、公益捐款使用情况、银行共管账户信息等等。
但由于其他信息的字节较大,更适合存储进区块的就是交易数据一类的小字节信息。经过区块链的多方确认后,这些公开的数据,是可信的,可以读取使用。
这个模式目前应用最多的示例,是Oracle预言机。例如Chainlink。
2.Chainlink的预言机网络数据结构
Moadrona旗下两支新基金完成6.9亿美元募资,专注于Web3等领域投资:金色财经报道,总部位于西雅图的风险投资公司Madrona宣布旗下两支新基金完成6.9亿美元募资,其中Madrona Fund 9完成4.3亿美元募资,Acceleration Fund 3完成2.6亿美元募资。新基金将重点投资Web3、应用人工智能/机器学习、现代数据堆栈和 DevOps、金融科技等领域,Madrona Fund 9将投资pre-seed、种子轮和A轮阶段阶段的初创公司,Acceleration Fund 3则专注于B 轮或 C 轮阶段的初创公司。Madrona最新参投了Web3数据应用程序SPICE AI,还投资了专为青少年和父母构建的加密货币应用程序Stack。(nftgators)[2022/9/14 13:28:06]
我们都知道Chainlink已经成为很多DeFi应用的价格输入源,因为其网络中提供的喂价足够安全可信,据Chainlink的技术文档查阅,Chainlink网络连接了很多的价格输入点,例如Karken Rates,而输入的每个价格由接入Chainlink的多个独立Chainlink Oracle运算符更新,汇总后再进行链上处理。
Chainlink的价格处理模型
链上处理后会形成可信的价格数据,可以被DeFi应用发现并使用,根据使用数据次数,向网络支付LINK代币作为酬劳,提供该喂价的价格提供方最后会收到该价格带来的奖励收入。
在这个模型里,Chainlink网络外部输入的数据,经由汇总后进行链上处理,最终流转到需求者方实现价值。
这个过程里,还有很多关键部分,例如每个价格喂价要分散的Oracle进行更新。每个价格喂价要获取分散在很多处的价格,最终汇总处理,并且,每个价格喂价的预言机分散数量数量各不相同。例如,在ETH / USD的价格喂价中,有21个预言机喂价源。
为了随时更新最准确的数据,处理喂价的智能合约,至少要收到21个预言机中至少14个预言机提供了该价格数据,才会顺利更新数据。
以上的操作里数据是否是正确的,可信的,是极为重要的,否则就会出现劫持预言机对DeFi应用进行价格攻击的事件。
所以要具有一定处理异常的规则,其中包括:对价格进行平均值的取用;价格偏差很大会重新开始价格更新;有指定的价格聚合时间等。
观点:马斯克相信与购买特斯拉股票相比 购买比特币收益增长更快:对冲基金Great Hill Capital LLC管理成员Thomas Hayes表示,(特斯拉斥资15亿美元购买比特币表明)马斯克相信,与购买特斯拉股票相比,购买比特币获得的收益将增长更快,能为股东带来更好的回报,在我看来,这不是对特斯拉股票的巨大信心。不过这无疑是对比特币的巨大信心,因为现在其他公司也将开始考虑是否应该将部分资金配置到比特币中。(金十)[2021/2/9 19:16:13]
Chainlink塑造了基于区块链共识实现可信数据(简单数据)的最佳示例,而DeFi的崛起,预言机功不可没,其为DeFi塑造了基础的安全性,也将区块链数据结构输出了一个流支付的商业化模式,当然,这还是一个去中心化的商业化模式。
3.基于硬件获取的数据流动
Chainlink的模式应用非常广泛,但在上文最基础的结构里,如果我们谨慎推敲,可以明显的看到一些不足,例如数据经过链处理变成可信的,但“数据上链”的过程以及上链前并非可控。而更大的问题是,Chainlink处理的都是简单数据,即字节较小的,公开性较强的数据。
所以,这样的数据模型,可以做出一些流程的改造,最终塑造出一个这样的数据流程:
终端(数据产生源)加密--数据存储--存储数据哈希上链--链上的数据流动
这样的流程可以描述为基于硬件端、分布式存储与区块链网络结合的数据流动,目前以物联网网络的融合应用见长,今天我们的阐述举例是起源于日本的物联网网络Jasmy。
该网络与Toyota丰田汽车、出行服务供应商Witz曾完成一次合作,将智能汽车的终端数据通过平台的模型完成处理,在规避个人信息合规的基础上,挖掘数据价值。
我们来解剖一下其数据处理范式。
首先是物联网终端,物联网设备终端包含了智能设备、手机、电脑等具备终端计算能力的设备,可以利用边缘计算的方式管理在终端的数据。包含了加密和一些管理的集成。
Jasmy对于硬件终端的管理举例
在这个部分因为要管理大量的终端设备,所以需要将物联网设备连接起来组建一个物联网平台,主要负责设备的管理。
下一步的处理,是因为数据类别是复杂的,并且在设备端已加密,为了实现数据可以调用,便需要将数据上传到一个开放的网络环境里,并保证数据的随时可查,可下载,但其所有权和使用权需要控制。
在美上市区块链中概股跌多涨少:今日美股收盘,在美上市区块链中概股跌多涨少。嘉楠科技收跌3.31%,人人网收涨0.79%,中网载线收跌6.41%,寺库收跌3.42%,迅雷收跌12.58%,猎豹移动收跌1.54%,兰亭集势收涨7.87%。[2020/11/19 21:17:15]
所以为了处理大量数据,就将运用到分布式存储,最方便的示例是基于IPFS的数据存储结构。
在完成数据分布式存储后,也就满足了与区块链网络中的ID、所有权以及激励的绑定条件,分布式存储的文件哈希也可以存入区块链,公开透明。
4.物联网技术融合的数据处理范式
这个过程与Oracle实现的形式,最不同的是使用了物联网终端完成了边缘端的加密,基于端的加密,去完成后续的流转。
Jasmy的流程如下:
1.物联网平台负责管理终端物联网设备,运用Jasmy的SKC服务和SG服务实现终端的数据加密和管理。
2.终端的数据存储在Jasmy的个人数据柜中进行分布式存储,SKC和SG技术在这个过程里可以将数据定位给个人ID或设备ID。
3.分布式存储的文件哈希上链,链上的ID和文件哈希绑定。
4.基于区块链网络开发的数据交易应用,可以进行数据价值的流转,即数据所有权以及数据使用权的交换。
5.数据使用方可调用分布式存储个人数据柜中的数据。
这样的流程,得益于Jasmy的几个特点,Jasmy有日本硬件制造商索尼在硬件领域的加密技术和物联网领域的供应链能力,其他普通区块链创业者无法实现的物联网优势上,可以轻松实现。例如SKC的核心技术是在日本应用多年的非接触式芯片加密技术FeliCa,该技术在为索尼产品提供安全性保证。这恰恰是Jasmy结构里增加的新计算方式。
此外还有Jasmy可以和硬件制造商推出具备终端安全性和计算能力的设备,以参与到网络中,例如Jasmy推出了Jasmy Secure PC。
这样的架构,已经开始为日本的企业服务,包含前文的丰田汽车、Witz、VAIO等。
Jasmy塑造的数据价值实现模式
对比上一种Chainlink Oracle的形式,Jasmy的优势就在于物联网终端的加密和分布式存储个人数据柜的实现,如果不考虑分布式数据存储,Chainlink也在走向硬件辅助数据源安全的网络结构,其在尝试利用具备可执行安全环境的硬件作为Oracle数据源实现数据端的可信。与Jasmy在硬件端的实践如出一辙。
5.基于数据可信计算的数据流动
从Jasmy的设计模型里看到了,将区块链的简单模型进行一些技术加持后可以实现很突出的效果,如果再把更多技术进行整合,可是实现什么?
对于数据来说,数据最需要的是所属权的归属,以及基于数据所有权进行的数据可信流动,也就是数据实现可用不可见等等一系列保证数据所有者权益的要求。
这个范式,我们可以定义为基于可信计算模型的数据流动,可以拆分为分布式存储、数据所有权定义、可信执行。这个部分我们用PlatON来阐述。
在PlatON的网络结构里,有一层单独用来实现可信计算的layer2,layer2可以理解为链下部分,负责计算和存储。所以说PlatON的数据可信计算,同样是在layer1的区块链结构外,实现了对数据的处理,然后利用区块链网络带来的权益归属、激励等等。
PlatON的分层逻辑和功能分配
在上图中,我们可以看到在layer2的计算网络里,存储着State,这就是数据存储的载体节点,而在这个结构里,是账户模型和数据存储一起的融合应用。
据PlatON的技术文档可知,在状态取用里,PlatON虽然沿用以太坊的账户模型存储数据,但状态数据因为数据量较大,选择不保存在帕特里夏树里(以太坊的存储结构),而是单独保存在另外一个不存储历史状态的SNAPDB(数据库)中。
PlatON认为,链上存储需要充分考虑成本,只有有价值的、需要所有账本做出共识的信息才应该被存储到公共账本上,有价值的信息包括:区块、交易、账户数据。
PlatON的数据存储模型
所以PlatON的存储分为账户数据存储(statedb)和快照存储(snapshotdb),很明显一个位于链上layer1,一个位于layer2。
但在layer2里,还对数据进行额外的处理,充分发挥其数据计算特性,处理是由可信计算设备和技术完成的,其中包含可验证计算(VC)算法可实现非交互证明的链下计算扩容方案、安全多方计算(MPC)结合秘密共享(SS)和同态加密(HE)实现隐私计算协议等。
此外,还存在MPC虚拟机来执行可信的智能合约计算,这是整个网络里智能合约运行的基础。
通过这些layer2层的实现,最终实现数据流动以及数据应用的时候,既可以不泄露原始数据且能进行协同计算和结果验证的计算。
值得非常注重的是,接入layer2的计算设备需要具备专用的计算能力,才可以执行某些应用场景的需求。其要求计算能力超强,并且具备可信能力。因此PlatON会启用FPGA/ASIC等研发的高性能计算设备接入网络,满足这一过程的需求。
对比Chainlink和Jasmy的两种范式,PlatON的不同点显而易见,其在技术融合应用上,在layer2付诸了非常大的研发力量,其技术落地难度更具挑战。
6.三种数据处理范式的应用分析
以上3种范式,是主流的基于区块链的数据处理方式,但这三种范式的应用如何呢?
首先我们来看,不容置喙的是,第一种简单模式其应用数量最广泛,因为很针对性的使用到了金融领域,正如在DeFi的发展里,Chainlink发挥了巨大的作用,以此为代表的模式,还有溯源等链的应用。
Chainlink的部分节点可提供的喂价展示
不过Oracle是面向简单高频数据的范式,这个模式简单,好应用,但对于互联网社会的遗留问题,并不善于解决。
例如数据隐私问题,Oracle更多是公开的数据可信,而完全不擅长于特有的数据部分。
基于物联网的数据流动是明显面向生活化和商业化数据处理的范式,例如Jasmy的应用,已经针对了互联网App数据,企业办公数据,以及某些硬件生态的数据。
这是一个从用户端到平台和商业生态流动都有设计的范式。这也是目前来讲,应用最多的范式结构。
而最后的可信计算是主要面向数据资产商业化的范式,这个部分最难解决的,是商业化数据的合作场景中数据可用不可见,并且是巨量数据的的可信,不只是要求技术,而是要求可信技术和计算能力、存储的并重。
所以,这三种范式各有千秋,Oracle的范式最适合加密货币领域的DeFi。而以Jasmy举例的应用边界最广泛,可以切入除金融简单数据之外的应用领域。技术相对完善,不过仍需要进行数据更详细的定义和规范。可以向第三种范式趋势性发展。
而第三种数据范式,技术上已经可行,但落地应用还需要过程,其中对于数据权益归属更详细的定义和规范,以及技术上实现高并发和高速计算处理,是应用落地更难的部分。
7.写在最后
数据问题猛于虎,但解决方案在创新者的实践里已经准备充足,一旦区块链项目落地进程加速,以上3个范式会创造更多的商业价值。
例如Jasmy将企业数据进行了机密设计和终端端数据管理,可以增加边缘数据的可利用价值,企业数据利用率也会增加。PlatON实现数据的可用不可见,可以继而应用在AI隐私计算领域,帮助机器学习过程中的数据应用,这个过程是很多产业的突破口,例如AI+医疗、AI+出行、AI+互联网应用等。
数年前,我们会在感叹AI技术出现的时候说一句“未来已来”,而笔者认为,如今,解决完数据问题,我们才确确实实可以放心的说一句“未来已来”,因为这是一个让数据归于所有者的新未来,是互联网的数据混沌时代无法代表的新未来。
撰文:白计划团队
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。