搏击

数据密集型计算的“黑匣子”

2019-09-11 12:20:52来源:励志吧0次阅读

10月27日,2016年全国高性能计算学术年会(HPC China 2016)在西安举行。刚刚斩获《2016年中国高性能计算机TOP100排行榜》厂商份额8连冠的中科曙光,在大会期间发布了国内第一个“科学大数据引擎”。用曙光公司董事总裁历军的话说,科学大数据引擎旨在集结曙光在大数据技术领域的优势力量,积极应对科学大数据发展对传统HPC系统提出的挑战。

“科学大数据的时代已经来临。”历军告诉《中国科学报》记者,数字化作为一项群体性技术革命,已经深入到互联网大数据、科学研究、工业制造、现代农业、服务业等各个应用场景,有力地带动了产业升级和技术革新。而大数据技术给科学研究带来的影响更为深远——科学发现将依赖数据计算来驱动。

面向科学大数据

近年来,大数据技术在各个领域广泛应用,大数据的时代特征已十分显著。在科学研究领域,图灵奖得主、关系数据库的鼻祖Jim Gray提出,“数据密集型科学”正逐渐成为继实验科学、理论科学、计算科学之后的第四种科学发现新模式即“第四范式”。“第四范式”强调数据将成为科学发现的基础,而数据的采集、存储、处理、分析和可视化则成为科学研究的新手段和新流程。

数据密集型科学的例子不胜枚举:“千人基因组计划”每月产生1万亿条碱基序列信息,我国30多个在轨民用航天平台每年有超过3PB遥感卫星数据,FAST 射电望远镜的数据产出速度是6000亿条记录/年,大型强子对撞机实验每年产生15PB原始数据……

“科学研究正变成一个又一个的大数据问题。”在“科学大数据引擎”发布会上,曙光公司高性能产品事业部总工程师戴荣说,“未来,基于对科学大数据的处理和分析将成为发现新知识的基本特征。”

中国科学院软件研究中心姚继峰博士告诉《中国科学报》记者,科学大数据的海量、分散和异构的特征,向HPC系统发起了全新的挑战。“多数科研项目的数据量非常巨大且快速变化,且往往是分布、异构的,传统的数据库管理系统已不能满足需要;此外对科学大数据的‘计算’包括了从数据获取、管理到分析、理解的全过程,传统的高性能计算亟需将服务向外延拓展”。

作为诞生于科研国家队、多年服务于科研领域的HPC企业,中科曙光洞察到科学大数据对计算提出的更高要求,已经将“服务科学大数据”列入公司“数据中国加速计划”战略,戴荣说,这为“科学大数据引擎”的进一步开发和提高提供了保障。

计算模式走向融合

针对科学大数据“数据量大且变化快、分布式异构多源、数据多维关联、不同学科领域数据差异大”等特征,曙光公司提出,“科学大数据引擎”要充当连接数据源和业务应用的“黑匣子”,将计算、分析一体化,“一条龙”解决数据的清洗转换、存储与管理、数据处理与挖掘、数据分析及可视化等工作,架起从科学数据到科学发现的桥梁。

戴荣介绍说,科学大数据引擎的“黑匣子”部署着曙光全系列数据计算技术及服务产品,包括存储系统、高性能计算平台、深度学习计算平台、大数据处理平台以及相应的运维管理平台。

“科学大数据引擎融合了高性能计算、认知计算、大数据分析计算等多种模式,是高性能计算与数据分析和挖掘的有机结合,可提供科研工作者一个实现科学数据存储、分析和管理的一体化解决方案。”戴荣评价说,科学大数据引擎是一个“基于超融合架构的数据密集型计算平台”。

这一平台已经在“空天大数据”的计算处理中展现了实力。“遥感数据有着数据量大、快速更新、隐含信息大等特点,随着卫星越来越多、分辨率越来越高、更新层次越来越密,传统的系统架构的瓶颈就凸显出来。”航天星图科技(北京)有限公司总裁助理唐德可在发布会上说,“类似‘科学大数据引擎’特别适用于我们的科学计算,它能从数据存储、高性能计算、智能分析等方面提升我们的‘产能’,真正实现自动化、集成化和智能化。”

“科学计算的领域,用于科研的系统集中度越来越高,符合将来发展趋势。”姚继峰对记者说,在大数据处理与挖掘方面,BAT等互联网公司因其在软硬件、人才等方面的优势,已经领先一步应用,科研领域才刚刚开始。

“会有越来越多的用于科学计算的HPC系统登上TOP100的榜单,类似‘太湖之光’这样的HPC用于科研上的数据处理,我并不会感到奇怪。”姚继峰表示。

2个月婴儿咳嗽怎么办
汉森四磨汤适用人群
宝宝感冒咳嗽流鼻涕怎么办
热淋清颗粒效果怎样
分享到: