浅谈数据密集型数据资源云平台的构建论文
2019-12-10 15:21:01 144
福布斯杂志说:“现在,在浏览新闻网站或参加行业会议时,几乎不可能看到或听到'大数据'一词。”数据已成为人们关注的热点。工业,科学和政府部门。近年来,《自然》,《科学》等国际顶级学术期刊相继发表专刊,以促进大数据的研究。中国,美国和其他政府也已经启动了大数据的研究和部署。业界已率先认识到大数据的巨大价值和战略意义。亚马逊,谷歌和IBM等IT巨头已经探索了解决大数据的解决方案。云计算已逐渐成为他们共同的探索方向。科学界也逐渐意识到大数据的影响。相信随着大数据时代的到来,科学研究已进入数据密集型科学研究的阶段,中国科学范式的转变已成为科学界研究的重点。本文探讨了数据密集型科学研究的内涵和特点,以及科学界面临的挑战,并建立了一个数据资源云平台,以帮助研究人员解决数据密集型科学研究中的问题。
1数据密集型科学研究的内涵和特征
数据密集型科学研究是一种直接从海量数据中发现科学规律的研究范式。大数据环境中实验科学,理论科学和模拟科学的继承和发展。它包括三个基本活动:科学数据的收集,管理和分析。数据来源主要是大型国际实验,跨实验室,单实验室或个人观察实验,个人生活等。在这种新的科学研究范例中,使用科学仪器或模拟方法收集数据,然后通过计算机硬件和软件设备执行数据管理和分析,并将处理后的数据,信息和知识存储在计算机中。信息科学贯穿于科学活动中,研究人员对数据的检查始于整个科学活动中相对较晚的步骤。数据密集型科学研究作为大数据环境下科学研究的一项新进展,具有以下三个特征:
(1)数据驱动而不是假设驱动。在传统阶段,实验科学,理论科学和模拟科学可获得和使用的数据相对较少。只能采用假设驱动的研究方法。首先,假设基于前人的研究结果和他们自己的知识,然后通过设计实验,理论推导或计算机模拟等定义明确的方法来获取相关数据并检验假设。现在,科学研究已从数据稀缺的时代过渡到数据泛滥的时代,数据密集型科学研究不再需要模型和假设,研究人员的重点已经从“如何验证这个假设”变为“我可以从这些数据中获取信息。”有什么联系?”数据已成为研究活动的起点和动力。
(2)强调可重复性。科学研究是人类了解世界,改造世界的重要手段。确保科研成果的可靠性和真实性是科学研究的前提,可重复性是检验科研成果的可靠性和真实性的最有效手段。在数据密集型科学研究中,技术的进步使数据发布更快,更广泛,并且影响更大。因此,为了更好地保证科学研究的可靠性,必须更加重视科学研究活动的可重复性。性,以便尽快识别错误或伪造的科学研究成果,以最大程度地减少负面影响。 中国
(3)相关性,不是因果关系。数据密集型科学研究通过对科学数据的分析和挖掘,直接从科学数据中发现科学定律,并了解事物之间的关系。它的本质在于客观,但不能像实验科学,理论科学和模拟科学那样进行逻辑检验。因果关系。但是,科学研究是人类了解世界的一种手段。其目的不仅是发现科学定律,而且是探索法律运作的根本原因。在获得相关性之后,有必要通过结合前三种科学方法来解释因果关系。
数据密集型科学研究是对前三种科学的继承和发展。它被视为科学探索的新范例。它具有巨大的价值和意义,当然也面临一些新的挑战。挑战。
2数据密集型科学研究所面临的挑战
2. 1科学数据方面的挑战
科学数据面临许多方面的挑战但是,从研究的角度来看,根本的挑战在于它的规模,复杂性和特异性。
(1)规模是科学研究数据最明显的特征,也是研究人员面临的主要问题,主要表现在原始数据规模和数据增长规模上:1原始规模数据性别。科学研究是一项持续不断的活动,传统科学已经产生了大量的数据积累。例如,澳大利亚的平方公里阵列射电望远镜项目自发射以来每天产生数PB的数据。 2数据增长率规模。随着研究人员的研究方法和研究手段变得越来越先进,科学研究可以生成和获取的数据量也在增加。数据的增长速度已经超过了数据存储容量的增长速度,从而导致了数据存储和处理能力的提高。与不断增长的数据量之间的矛盾变得更加尖锐。
(2)复杂性是科学研究大数据的重要特征,给科学数据共享带来很大困难,主要是数据类型的复杂性和数据结构的复杂性:1数据类型的复杂性。国家科学理事会从研究类型的角度将科学数据分为四个基本类别:预测,计算,实验和记录。这种划分模糊了在特定学术活动下收集的数据类型的复杂性。 。计算机技术和科学方法的进步使研究人员能够结果数据类型越来越复杂,例如磁共振成像,基因序列,电子显微镜数据等。 2数据结构的复杂性。传统的科学数据以结构化的方式存储在关系数据库中,但是随着研究人员访问数据的渠道和方法的多样化,非结构化数据成为科学数据的主流形式。与结构化数据相比,非结构化数据的组织更加混乱和复杂,给数据处理和共享带来了挑战。
(3)特异性是区分科学数据与其他数据,挑战科学数据共享和学术信息交换的一项关键功能,主要在于识别的特异性和价值的特异性:1性别。由于科学数据与客观世界是分离的,因此对科学数据的理解不可避免地是主观的。数据收集者认为这是数据的收集。接收者可能不这么认为,观察数据或模拟数据可能是或至多是“供认证据”; 2价值的特殊性。作为可重复使用的非消耗性资源,科学数据具有附加值,需要研究人员加以实现。有两个因素影响科学数据的欣赏程度。一是科学数据本身的价值,它决定了理论欣赏的最大程度。第二是数据用户确定实际赞赏程度的能力,而科学数据的交换和共享可以实现数据。多方的使用促进了科学数据价值的指数增长,因此如何实现科学数据共享已成为科学界的当务之急。
2. 2科研挑战
首先,研究人员缺乏将数据转化为知识的意识和方法。一方面,中国没有意识到科学数据的价值特异性。随着科研人员的退休,项目的结束等,大多数科学数据将被废弃,其他人将无法使用。另一方面,数据密集型科学研究没有参考依据,科学研究方法需要从传统的假设驱动转变为数据驱动,研究人员必须培养以数据为基础的数据敏感性,并转变其研究方法以获得数据价值。最大化。
其次,研究人员缺乏设备和技术支持。目前,这些研究项目是金字塔形的,第一层项目可以由国际财团或美国国家科学基金会资助以获得超级计算和存储资源,而第二和第三层项目中的大部分获得的资金相对较大。资金。数据密集型科学研究的资源需求有限,难以满足。研究人员无法获得确保该项目处于平等地位所需的资源,拖延知识创新的过程,并且不利于科学的可持续发展。
最后,数据共享存在障碍。一方面,不同地区,不同学科之间没有统一的交流平台。尽管科学研究的地理分布和跨学科性质正在加剧,但仍有近87.5%的数据未能形成供研究人员使用的数据源。 。另一方面,不同实施级别的数据共享将涉及各种利益,策略,系统等。这些因素导致了原始数据和研究方法无法真正共享的事实。跨国项目在这方面的问题尤为突出。因此,完善的科学传播体系值得科学界和国际社会的关注。
3分析数据密集型科学研究中云计算的必要性
云计算是一种基于Internet的,按需,按需和便捷的访问方式共享资源池(例如计算设施,存储设备,应用程序等)的计算模型,Gartner的2014年技术成熟度曲线,云计算处于泡沫的底部,并且已经过了最危险的预期扩展期人们对云计算已逐渐变得更加理性和成熟。业界不再热衷于推测云计算概念,而是将实现云计算的成熟和规模应用作为努力的方向。 Gartner在2014年个人云时代和规模IT的十大技术和趋势选择中都使用了云计算。云计算真正与实际应用程序和环境集成,从探索到应用程序的转变,成为大数据时代的个人和企业。数据管理的必然选择。
在数据管理的使用和理解中,许多科学领域至少落后于商业领域10年。云计算在商业领域的广泛应用具有科学领域的参考价值,而云计算在数据密集型领域的应用在科学研究中是可行和必要的。
首先,帮助研究人员应对科学大数据规模带来的存储挑战。超大规模是云计算的最基本特征。它的底层由成千上万甚至数百万个服务器群集组成。例如,谷歌云计算中心拥有数百万台服务器,而云计算中心则通过运维管理和资源管理。这些机制集成并管理了这些巨大的计算机集群,并具有海量数据存储能力,可以有效应对科学大数据的规模。另外,与传统的垂直扩展方法相比,云计算采用水平扩展模式,即增加更多的逻辑单元资源,而传统的垂直扩展方法是提高单个逻辑单元资源的性能。 中国横向扩展模式的成本较低且部署周期短。短,灵活等优势,可以更好地应对科学大数据增长的规模。
其次,为研究人员提供了处理非结构化数据的灵活性,以应对科学大数据的复杂性。作为云计算系统中关键的数据处理组件,MapReduce具有两个核心概念:第一,解决问题,分布式处理是面对海量数据时的首要选择;其次,用移动计算代替移动数据,避免了数据传输过程中产生的大量通信开销。 MapReduce最初设计用于处理大量的非结构化数据,并部署在大规模的基础架构上,使云计算具有处理科学大数据的规模和复杂性的能力。结合虚拟化技术在云计算,云表中的成功应用它可以根据用户的实际使用情况计算资源的动态分配,及时满足用户对计算资源需求的变化,帮助研究人员应对突发事件。
第三,实现数据的长期保存和可用性,为科学数据共享提供保护。根据科学研究活动的过程,科学数据可以分为原始数据,派生和组合数据以及文献。这些数据是数据密集型科学研究的核心要素,因此必须保证科学数据的完整性,安全性和可用性。云计算中心拥有完善的保障措施。在硬件方面,它采用了诸如计算节点同构互换性,网络和能量冗余设计之类的措施,并且软件使用了多个容错和心跳检测副本来确保数据可用性。获得并安全。而且,科学数据由云计算提供商进行管理,打破了数字资源分散的原始局面,有利于资源的有效流通,利用和共享,实现了科学数据的价值特异性。
第四,建立统一的科研活动平台,使所有研究人员能够平等享受各种服务。服务是云计算的核心概念,也是云计算与传统并行计算,分布式计算和网格计算之间的主要区别。云计算旨在允许用户平等且透明地使用云计算资源,就像使用诸如水力发电这样的基础设施一样容易。云计算通过向用户提供统一和集成的平台,将传统的应用程序集成概念扩展到服务集成,从而实现资源和服务功能,例如数据收集服务,数据存储服务,数据管理服务,数据处理服务和数据参考服务。集成到云计算系统中。
4数据资源云平台的构建
但是,云计算技术并未提供完整且通用的解决方案,无法满足可重复性,数据共享的要求在信息资源管理领域使用相关技术的需求可以帮助研究人员在更大程度上应对科学大数据的挑战。因此,数据资源云以云计算为基础,以数据密集型科学研究为主体,并辅以信息资源管理相关技术,以数据为中心,面向科学活动和面向数据服务的服务平台。 。
4. 1云基础服务平台
云计算基础服务平台是整个数据资源云的基础。物理基础架构是根据云计算平台标准构建的,为上层服务提供硬件。在支持和环境保护方面,研究人员可以充分利用平台提供的软件和硬件设施,轻松构建大型应用程序。虚拟化技术是研究人员像使用本地资源一样使用数据资源云的关键技术。它可以分配和封装计算资源,存储资源,网络资源,科研设备等,并为用户提供接口。该表格可供研究人员使用。研究人员可以将存储在本地磁盘上的数据传输到数据资源云,然后将其移交给专业人员进行集中管理,以实现长期数据保留。也可以通过该接口访问和使用各种大型仪器和设备,以平等地访问项目所需的资源。
4. 2科学数据处理和服务层
4. 2. 1科学数据处理
考虑到数据密集型科学研究的特征,数据资源云并不是传统的想法是建立,但要遵循以数据为驱动的概念,以数据为起点,经过科学数据资源的科学数据处理步骤之后,研究人员要进行研究,因此在科学数据处理中,数据资源云已经采用了流程和技术。与传统的假设驱动平台不同。
首先,必须获取原始数据,例如实验数据,模拟数据和科研人员信息。资源数据可以在后续操作中产生更大的价值。数据集成消除了数据之间的异质性,消除了重复数据,从逻辑上封装了关联数据,并减少了后期处理中的资源开销。为了满足数据密集型科学研究的可重复性,数据沿袭管理已成为科学数据处理过程中必不可少的部分。数据沿袭通常出现在包含多个数据集的应用程序中,并用于描述随时间推移数据生成和演化的整个过程。对于项目实施者,数据沿袭与分布式文件系统的灾难恢复备份机制配合使用,以在发生故障时正确,快速地恢复数据。对于数据用户,他们可以充分了解数据的演化过程,加深对实验结果的了解,有助于实现科学研究成果的重现,并确保研究活动的可靠性和可重复性。
其次,科学数据分析是科学研究活动中的关键环节,包括海量语义分析,科研人员需求分析和海量数据挖掘。语义技术可以定义概念,术语等的机器编码定义,并且可以对它们之间的相互关系进行声明性和条件性定义,从而使研究人员,学生甚至普通人都可以使用跨区域,跨学科的数据。公众的理解和使用是促进数据共享的关键。在海量数据中挖掘规则是数据密集型科学研究的重要手段。数据资源云可以为研究人员提供灵活的计算功能。 MapReduce在海量数据和非结构化数据处理方面的功能已得到各行各业的认可。云科学工作流程在重复性和流程工作方面更为出色,并且可以为研究人员提供可视化建模工具,以便研究人员即使没有编程知识也可以根据实际需求设计云科学工作流程模型。任务与科学工作流任务之间的关系。因此,将MapReduce与云科学工作流程结合起来可以帮助研究人员应对科学数据的规模和复杂性。此外,为了提高后续服务的质量,有必要根据研究者和环境的问题,使用数据挖掘方法和工具来分析其学习水平,研究经验,研究方向等。他们所处的位置,并探索他们的兴趣点和知识需求点隐藏的需求分析文档可为后续的推送服务提供基础。
最后,研究人员判断并检查处理结果的价值。在数据密集型科学中,研究人员不再直接参与科学数据的处理和分析。该任务由数据资源云完成。他们的任务是检查和筛选整个科学活动中的分析结果。或将有价值的结果作为知识处理,发布到数据资源云中。如果结果没有实际价值或未能达到预期的结果,研究人员将反馈到上一个链接,数据资源云将根据研究人员的反馈信息通过重新选择数据来对数据进行重新处理。并调整云科学工作流程模型。获得满意的结果。
4. 2. 2数据服务
鉴于数据密集型科学研究的数据驱动性,可重复性,仅提供给研究人员的知识已不足以满足其资源需求。在数据密集型科学研究中,数据的获取和重组已经成为同等重要甚至更为重要的研究资源。数据资源云将数据服务作为特殊服务。在保留传统的云服务平台为用户提供知识服务项目的同时,还创造性地将原始数据,派生和重组数据添加到服务内容中,并努力为用户提供更全面的信息。数据服务可满足研究人员在数据密集型科学研究中的需求。
5结论