魏东琦,江宝得,张静雅.非结构化地质数据内容存储方法研究[J].西北地质,2021,54(4):266-273 WEI Dongqi,JIANG Baode,ZHANG Jingya.Research on Content Storage Method of Unstructured Geological Data[J].Northwestern Geology,2021,54(4):266-273
非结构化地质数据内容存储方法研究
Research on Content Storage Method of Unstructured Geological Data
投稿时间:2021-04-15  修订日期:2021-05-24
DOI:10.19751/j.cnki.61-1149/p.2021.04.022
中文关键词:  地质大数据;非结构化数据;数据建模;内容存储
英文关键词:geological big data;unstructured data;data model;content storage
基金项目:中国地质调查项目“国家地质大数据汇聚与管理”(202009000000180722),地理信息工程国家重点实验室基金资助项目、实验室开放基金(SKLGIE2019-Z-4-1)。
作者单位E-mail
魏东琦 中国地质大学(武汉)国家地理信息系统工程技术研究中心, 湖北 武汉 430074
中国地质调查局西安地质调查中心, 陕西 西安 710054 
 
江宝得 中国地质大学(武汉)国家地理信息系统工程技术研究中心, 湖北 武汉 430074
地理信息工程国家重点实验室, 陕西 西安 710054 
jiangbaode@cug.edu.cn 
张静雅 中国地质调查局西安地质调查中心, 陕西 西安 710054  
摘要点击次数: 139
全文下载次数: 122
中文摘要:
      地质工作已迈入大数据时代,但地学信息被记录成的报告、图件等非结构化数据,仍按照较为简单的方式组织归类到一起并存储在文件系统中,形成很多个内部构成复杂的数据集。这种方式不能很好的表达非结构化数据承载的丰富地学信息,也不便表达信息之间的复杂关系,更不利于发现跨数据集存在的深层知识。为尝试解决这个问题,笔者提出了多粒度级别内容树模型和支持演化的数据建模方式。这些特性使得通过模型可以对数据内容进行不同尺度的拆分,对信息的精确定位,还可以使模型根据数据主体需要,拓展主体特征描述的维度,逐步发现数据包含的信息和建立信息与信息之间的关系。考虑到地质大数据的特点,设计了以HBase为核心的数据模型持久化方式,以达到使用大数据技术体系下技术分析处理数据的目的;最后给出了对成果地质数据进行建模的实例,将文档、图件等非结构化数据以内容实体为最小单元进行拆分和重构,达到了较好的内容组织和信息表达效果。
英文摘要:
      Geological work has entered the era of big data, yet the unstructured data, such as reports and maps carrying geosciences information, are still classified in simple ways and stored in the file system, forming a lot of data set with complex internal structures. This method cannot well deliver the abundant geosciences information carried by unstructured data or the complex relationships with information, nor can it discover the knowledge deeply existing across data sets. To solve the problem, this paper proposes a multi-granularity level content tree model and a data modeling method that supports evolution. The model can split the data content at different scales and accurately locate the information and meanwhile expand the dimension of the subject's feature description according to the need of the data subject. The information contained in the data is finally discovered and the relationship with information is thus established. This paper designs a persistence method of data model with HBase as the core to achieve the purpose of processing data under the big data technology system. A modeling example shows preferable effect in content organization and information conveying, with the unstructured data of documents and maps split and reconstructed as the smallest unit of the content entity.
查看全文    下载PDF阅读器
关闭