9uu最新官网数据存储方式的优势和不足

  9uu最新官网把我们的业务数据保存起来。从宏观角度看,大致包含三大类技术:B-TREE,LSM&SSTable,列式存储。虽然主流的关系型数据库,如Oracle、MySQL(innodb)都是采用B-TREE,但是两者其实并没有绑定关系,比如TokuDB,作为MySQL的存储引擎之一也是使用LSM作为其核心思想;NewSQL中的DB虽然也是基于关系模型的,但是底层的存储引擎使用RocksDB,也是基于LSM&SSTable。底层技术处于互相学习和融合之中。

  B-TREE和关系模型同步出现于70年代,到90年几乎占领了所有的数据库市场。B-TREE简单的理解就是多叶节点的树,每个叶节点并非是每行数据,而是数据库的的数据块。这么设计的原因是树的层次影响着搜索性能,而且磁盘的读写是基于块(BLOCK)的,使用块可以大大减少节点数量,进而减少树的层次。

  B-TREE的特点在于读写性能比较稳定,响应时间和磁盘随机读写的时间成正比(10ms)。并且由于B-TREE对应到数据库的每条记录,可以很容易的实现事务、行锁和隔离级别。读性能略高于LSM算法。而且B-TREE基于块的存储方式,可以很容易的把内存中的块和磁盘上的块一一对应起来,很容易的实现缓存。在实际应用中,前2-3级节点内都可以在缓存中读取,由此大大提高了访问效率。

  而不足在于真正面对海量数据时(如数据量进入到百亿级别时),由于树层数和缓存比率的减少,会导致性能逐步下降。此外由于B-TREE在写入时也需要通过搜索定位到叶节点,因此相对于LSM,其写入时开销较大。PS:其实现在已经出现了分布式的B-TREE,比如oracle的localeindex。

  目前主流的存储架构还是磁盘+内存,磁盘顺序读写的性能高于随机读写三个数量级,而在内存中进行随机读写的的性能也大于磁盘的三个数量级,可以得出用磁盘当做磁带一样只做顺序读写,而把内存当做磁盘,提供所有的随机读写访问的总体思想,这也就是出LSM-Tree的算法。

  简单说就是在内存中维护一张MemTable,把所有最新的数据都写到其中,所有数据依据key值进行排序(随机读写)。当MemTable的大小到大阈值之后,把它写到磁盘上,形成一个个的SSTable(顺序写)。每个SSTable构造一个索引,由于SSTable中的数据都是排好序的,所以索引较小,可以保存在内存里面,所以所有的索引搜索动作都是在内存进行的(随机读)。

  每次查找的过程如下:首先在MemTable中搜索(内存随机查找),如果没有依次在每个SSTable的索引中查找(内存随机查找)。把查找从磁盘随机动作变成了基于内存的随机动作。随着SSTable的增多,搜索的次数会增加,为了提高性能,后台会把多个SSTable合并为一个(如HBase、LevelDB等等)。并且提供布隆过滤器(BloomFilter)来过滤掉不需要的SSTable。从总体效果上看,写入的效率大大高于基于B-Tree的存储引擎,而读取性能接近于B-Tree。

  LSM&SSTable在写入密集型应用中有较大优势,同时在读取方面也有不错的表现。不足之处在于上面提到的,不定期对增加的SSTable进行合并时,对于数据库会产生一定压力。

  由于这些特点,LSM&SSTable大量应用于许多组件中,比如HBase、LevelDB等KeyValue数据库中,同时也在消息引擎Kafka和搜索引擎Solr使用。

  以上两种存储引擎主要适合于联机场景,如有大量的基于客户各类行为数据的批量计算的推荐系统中,以及预计客户的流动性缺口等等。在这些场景中,列式存储在性能上有非常明显的优势。随着各类大数据应用的扩展,列式存储从和Hive共生的ORC,到和Spark共生的Parquet也被应用到了各个数据分析应用中。

  从传统的数据分析类应用,到人工智能应用,都需要遍历整个数据集,上面也提到磁盘在顺序读写和随机读写性能方面的巨大差距,所以所有的数据仓库都会在全表遍历中采用磁盘顺序遍历。所以遍历的文件空间越小,性能越高。列式存储按列对数据进行保存,以减少数据库每次访问的文件尺寸。

  首先,分析应用一般局限于对于表中的部分字段都分析,列是存储可以让引擎只访问部分字段,减少吞吐量。其次,列式存储数据压缩能力更强。因为行级别的存储方式压缩是基于数据块,压缩比大致为50%-70%左右,而且压缩比越大,解压缩对于CPU的占用也越大。由于单列内的数据非常类似,9uu最新官网尤其是各种码值类的数据,比如性别(男、女、其他),行数越多,压缩比越大。10亿客户的性别,也可以简单的表达为如下这样:“连续100个男性、连续50个女性、又连续80个男性、连续70个女性”,按照每行的位置依次表达下去。

  再次,同样由于列内数据的取值范围有限,也可通过位图来表达,比如10表示男,01表示女,因此只用2个bit就可以表示出来,从而进一步增加压缩比。在在许多场景中能够把以前数G的数据压缩为几百K。由此可以显著降低批量计算时对于存储的吞吐压力和提升计算效率。

  当然列式存储也并非完美,在更新时列式存储相对行式存储,很难直接做到就地修改的效果,往往需要把整列锁住,重新计算,重新生成整个列。所以列式存储更多的适合于数据分析时需要全表遍历的场景。

  综合考虑上面三种存储方式的优势和不足。推荐系统根据应用访问数据的特点把数据分布到了不同的存储机制中。

  对于需要提供事务、锁,数据量不特别大的场景中,采用基于B-TREE的存储机制,例如合约签订,合约执行等业务需要数据库提供多行的事物处理,而且数据量和交易量不是特别大,把数据保持在传统关系型数据库中,也正好利用了B-TREE的优点。

  对于访问数据量,以及每日新增、修改量特别大的场景,采用LSM&SSTable作为存储引擎,例如客户的标签数据,数据量达到百亿级,每日增量也可达上亿记录,数据保存在HBase数据库中,可以较为轻松,在数十分钟之内就可完成批量更新,而查询响应时间也没有随着数据量的增加而变慢,仍然保证在几毫秒以内。

  最后是列式存储,它适合于数据分析类场景,如进行客户流动性预测、客户投资方案生成这类分析场景中,需要对于数据进行反复遍历的操作,最终采用的方案是把数据从原来的产品数据库中导出后存到Hadoop集群的HDFS中采用Parquet格式存储数据,后继采用Spark来访问时,遍历数据的时间可以控制在数分钟级别。

  对于PLC程序的编写,我认为无须天马行空的标新立异,也无须花枝招展的炫弄技巧。只要在内容和质量这两方....

  我们巧妙的利用了RTSO自带的消息队列,我们可以把每一个接收的数据看做一个消息元素。 先回顾一下知识....

  #过去的20年里,半导体市场大规模增长的主要驱动力是笔记本电脑、台式电脑和家庭影音娱乐系统;在随后的....

  大家为了更好地避免 消防泵锈蚀,返潮,也是为了更好地不许离心水泵工作中出现异常,如今全是配置了消防巡....

  ODBC数据源管理程序(32位)中缺少Driver do Microsoft Access(*.mdb;*.accdb)

  最近在学习LabVIEW数据库操作方面的知识,在尝试通过ODBC连接到数据库时发现ODBC数据源管理程序(32位)中...

  据介绍,“十三五”期间,合肥集成电路、新型显示、人工智能入列首批国家战新产业集群。深入实施“2833....

  这里,我重点讲解如何结合RTOS进行处理数据。我们巧妙的利用了RTSO自带的消息队列,我们可以把每一....

  计算机的发明,不仅将人类从繁重的脑力劳动中解放出来,而且也让信息存储形式发生了根本性的变化。

  企业数据存储是一个集中的信息存储库,通常提供数据管理,保护和共享功能。由于企业处理海量的关键业务数据....

  山东莱恩德智能科技有限公司叶绿素测定仪 仪器用途: LD-YD叶绿素测定仪根据叶绿素光谱吸收规....

  医用纺织品气流阻力测试仪主要用途: 医用纺织品气流阻力测试仪用于测定纺织品以及絮棉、太空棉等的空气穿....

  从垂直行业维度看,政府、通信、金融排名前三,这三大行业占据中国SDS市场将近60%的市场份额,交通、....

  数据存储作为大数据的核心环节之一,可以理解为方便对既定数据内容进行归档、整理和共享的过程。自磁盘系统....

  创新是华为公司的DNA,追求卓越、敢于领先、坚持做技术创新的引领者,华为与学术界携手,推进科学家研究....

  近年来,我国新能源汽车产业发展迅速,成为汽车产业的重要增长点,据2018年新能源车销量统计显示,TO....

  相对执行速度快,大部分是单周期指令,需要的存储空间也相对小,大部分是一个存储空间 (我这里的一个存储....

  为深入贯彻落实“探索加强新兴业态和互联网党建工作”要求,探索党建工作新形式,近日,河南移动安阳分公司....

  托普云农的NL-5G农田小气候观测站,该仪器广泛应用于气象、设施农业、林业、园艺、畜牧业等领域,实现....

  互联网时代,数据已经成为了企业的核心资产,大数据时代的数据被称为未来的“石油”。而区块链的分布式存储....

  12月25日消息 企查查 App 显示,近日,北京奇艺世纪科技有限公司公开了区块链的相关专利,专利名....

  根据敦煌研究院的一项研究,每40个游客参观半小时,洞内的二氧化碳值就会升高7.5倍,空气相对湿度上升....

  当前,智慧城市的建设与发展迅速,作为近年来新兴的城市公共设施,智慧路灯整合城市各类基础设施与新型设施....

  大数据在信息系统的生命周期中,从数据源到最终产生有价值的可视化信息,主要经历6个步骤,分别是数据收集....

  他还说:“面对大环境变动,数据存储和传输面临巨大压力,智微已经做好万全准备,透过完整的产品线,为客户....

  Memblaze 联合创始人兼CEO 唐志波表示:“此次D轮融资将进一步扩大Memblaze在企业级....

  位置、位置、位置,这并不只是房地产界的核心词。为了满足人工智能(AI)和机器学习应用的需求,这个词被....

  外媒报道称,根据Scality的研究,容器化和云本地应用将定义2021年的数据存储格局。根据IDC的....

  近日,瑞士洛桑联邦理工学院的研究团队在 Nature 上发表了题为《通过原子厚度半导体材料构建存储和....

  作为“新基建”的一部分,工业互联网行业近日迎来诸多利好,随着疫情的日渐好转,在后疫情时代,利用人工智....

  关于存储器件,在数月之前我们提到过NOR FLASH,并简略地将之与EMMC、SRAM、NAND F....

  随着云计算浪费的增加,企业正在寻找一线希望。云计算服务使企业和开发人员可以组织资源并通过网络远程运行....

  流媒体服务的迅速崛起是不可否认的。如今,Netflix、Amazon Prime Video和Dis....

  在这一点上,无线充电器市场已经非常饱和,因此很难从人群中脱颖而出。像mophie和Anker这样的公....

  全闪存阵列在百行百业中已经走过了多个年头,随着全球数据存储行业规模的扩大,全闪存应用也进入了企业用户....

  此外,在线购物的突然激增也影响了供应链。如今,这些互联的事物正在帮助使用它们的人,但是在将来,越来越....

  传统的数据库例如MySQL,Oracle等关系数据库,都采用的是行存储引擎,在基于行式存储的数据库中....

  数据存储设备是将信息数字化后,再以利用电、磁或光学等方式的媒体加以存储的设备。计算机中的全部信息,包....

  我们日常使用的电脑,点开“我的电脑”,都会有C盘、D盘之类的硬盘显示。无论是下载的应用,还是文件,都....

  数据仓库,有一个被广泛接受的定义:数据仓库(Data Warehouse)是一个面向主题的(Subj....

  《数据新视界》调研同时显示,在可用的企业数据中,32%被投入使用,剩余的68%并未得到利用。

  超过十八年的发展时间,有着这样长期积累的中国企业级存储厂商,屈指可数。 浪潮存储坚守在数据存储领域,....

  近日,IDC发布《中国软件定义存储(SDS)及超融合存储(HCI)系统市场季度跟踪报告,2020年第....

  现在我们在做一款NAS存储和AI语音相结合的智能硬件,并通过嵌套在主机中的加密芯片,实现了数据的非对称加密、数...

  人工智能安全系统能够在编程时自主完成任务,同时采用机器学习技术通过分析可观察模式来调整其操作行为。安....

  人工智能和机器学习技术的出现,正通过物联网、自动驾驶汽车、实时成像处理和医疗领域的大数据分析等新应用....

  据外媒报道,将数据存储在磁带上,听起来可能会让人觉得很复古,但实际上,由于磁带的数据密度很高,它仍然....

  一般双活情况下,两个 KV 集群会分布在不同机房,单元化的业务服务会各自读写本机房 KV 的数据,两....

  文件存储:将数据存储在文件中。文件存储根据位置不同,可以存储在应用的包下,也可以存储在公共的sd上,....

  随着互联网、尤其是物联网的发展,我们需要把各种类型的终端实时监测、检查与分析设备所采集、产生的数据记....

  数据结构,直白地理解,就是研究数据的存储方式。 我们知道,数据存储只有一个目的,即为了方便后期对数据....

  伴随人类社会拥抱数字化的脚步不断加快,算力已经成为新的生产力,数据则是类似于土地、人力资源的重要生产....

  周跃峰表示,OneStorage解决方案的核心是新一代数据管理引擎DME(Data Manageme....

  Pure Storage今天宣布收购数据服务平台Portworx,希望借此涉足到面向云原生和Kube....

  目前使用哈佛结构的中央处理器和微有很多,除了上面提到的Microchip公司的PIC系列芯片,....

  数据备份:一直以来,备份给传统企业的IT人员带来很多困扰,比如他们会面临数据恢复慢、成本高、运维管理....

  请问,我有4个轴的当前位置需要保存,每移动到一个位置便将这4轴的当前位置进行保存,一共保存12个位置,然后再将这保...

  随着物联网(IoT)的快速增长及对数据存储的高要求,处理和传输将成为项目可持续性的一大问题。因此,如非绝对强制,任...

  在当今的嵌入式多媒体应用中,系统控制(通常的MCU作用)和信号处理(通常的DSP作用)之间的交互性不断增强。现在推...

  如图片所示,16个DBL显示的数据,并且不断更新.我想用一个文件实时记录下来.不知道用什么控件可以实现. ...

  在综合验光仪的验光过程中,用户会根据不同的测试需求和习惯设置一些系统配置参数,这些参数需要保存起来;更为重要的...

  大数据、云计算、物联网的爆发让存储市场火爆异常,价格一涨再涨,从手机、电脑、汽车、到玩具,几乎所有电子产品等离...

Copyright © 2002-2021 9uu官网 版权所有
  技术支持:  
友情链接: 9uu官网_最新 9uu官网_welcome