许建军 沈文林
摘要:本文分析了档案大数据的产生、存储和应用,并以浦东新区为例,提出基于档案大数据管理与云技术应用平台分布式文件系统、云桌面技术与服务器虚拟化的一揽子方案,形成了数字档案馆的方案框架。
关键词:大数据 云计算 数字档案馆
档案是人类活动的真实记录,是人们认识和把握客观规律的重要依据,具有特定而广泛的社会价值和经济价值。借助档案,我们能够很好地了解过去,把握现在和预见未来。档案大数据是在档案方面涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为辅助决策的重要信息。
一、档案大数据的产生、存储和应用
档案大数据的战略意义在于对这些有较高价值的饱含历史意义的数据进行专业化处理。方法和手段不一样,产出的价值是不同的。档案大数据具有数据量巨大、数据类型繁多、价值密度低、处理速度快的特点。从档案本身属性来看,还表现在一方面可以提供政府企业运行的依据,支持核心生产力与应用,另一方面档案仍对合规、电子取证、安全、诊断以及其他支持性应用程序有相当大的价值。
(一)档案大数据的产生
过去,档案检索主要依靠手工著录、卡片检索。随着信息技术的进步、数据库技术的发展,计算机辅助档案管理使档案管理变得更为快捷和方便。档案数据主要来源于两个方面:1、各业务部门通过业务系统产生的业务数据转为档案数据;2、档案部门通过人工填写、录入、搜集归类后转为档案数据。
新形势下业务系统产生的档案数据具有及时、广泛、数据量大、内容繁杂的特点。较为智能的业务系统能够随时将业务数据输送至档案部门存档,如OA办公系统、财务管理系统,当文件办毕时,数据(文件)可立刻转为档案数据。不同职能的业务部门产生的档案更具有广泛性,如法院卷宗、医院病历、人事档案等,不同的立档部门产生不同的业务档案,如城市建设档案,房产产证档案等。日常工作业务系统时刻运行时,意味着每时每刻都会产生档案数据,因此档案数据量会大得惊人。即便是同一个业务部门产生档案数据,也会由于档案门类、信息元不同,形成的档案数据流不同。
档案管理部门除了采用业务系统收集档案数据以外,还采用人工方式生成档案数据。最常见的是将馆藏的实体档案通过数字化技术转为档案数据,如扫描、拍照等。现在档案数字化工作在各个地方广泛开展,原生电子档案不断接收进馆,未来几年档案信息化将得到快速发展,数字档案信息将呈几何级增长,形成真正意义上的档案大数据。
因此,我们应从档案大数据的源头充分考虑未来的应用范围,把握档案数据“快、广、大、乱”的特点,把来得“快”的档案数据及时处理,把产生“广”的档案数据各个击破,把存量“大”的档案数据化整为零,把内容“乱”的档案数据有序归类。
(二)档案大数据的存储
档案大数据给传统数据仓库架构带来了一系列的冲击和挑战,仅从存储层面来审视,仓储的构建者不得不面对来自两方面的焦虑:一是数据规模急速增长,现有的共享磁盘架构能否适应海量数据的存储;二是数据结构复杂多样,现有的基于结构化数据为主体的存储方案能否兼容无模式的非结构化数据。
从现有数据库存储架构和实践研究来看,一个大而全的存储架构不能完美地解决大数据的存储。大部分企业更应该偏向于让不同种类的数据存储在最适合他们的存储系统里,再将不同类型的数据进行融合,最后在融合的数据基础上做分析。
首先,必须有足够的空间存储数据。对于大数据,当企业在快速增长数据的背景下要保持数据的一种平衡状态并实现易扩展,应采用分而治之的思想,即构建分布式存储系统,方便增加节点实现稳步处理。
其次,兼有多种结构的存储引擎。大数据的结构复杂多样使数据仓库面临的源数据太过繁杂,此时应改变目前以结构化为主体的单一存储方案,对非结构化数据采用分布式文件系统进行存储,对结构松散无模式的半结构化数据采用面向文档的分布式key/value存储引擎是最适合的解决方案。
最后,建立分布式存储与分布式文件系统之间的关系。存储多元化的数据主要是为了集成分析,而多种结构的孤立存储显然不是集成分析的最佳选择。通过构建连接器,使得非结构化数据在处理成结构化信息后,能快速融通和分布式数据库中的关系型数据,达到对大数据敏捷分析和利用。
(三)档案大数据的应用
传统的档案数据管理一直停留于档案目录管理、分类、归档、存储及简单的统计查询,档案大数据的关键信息需通过一定的技术方法进行提取,并针对提取出的有效信息根据一定的规律进行挖掘。只有满足不同档案用户的信息需求,数据挖掘技术才会发挥巨大作用。在海量的档案数据信息挖掘中主要采用文本数据挖掘技术。我们可以把对文本数据的分类、融合、压缩、摘要以及从文本中抽取发现知识与信息都看做是文本数据挖掘。通过这些技术使得我们在搜索档案时从大数据范围变成从小数据范围进行检索,从而大大提高其数据处理的效率和准确度。
在档案信息化领域中,档案数据管理的发展主要包括数据信息的认知、信息数据的积累、数据信息的挖掘、运用及档案数据的规范化发展五个步骤。通常结合数据信息的检索、分析及挖掘技术,将信息数据进行适当的分类及抽取或形成一组问答序列,并将这些信息数据进行提取,形成解决某一问题域的数据集合,挖掘出一定的专门的信息数据类别,作为决策和应用的依据。
档案数据信息的输出和评价还需要高效快速的辅助智能检索技术。(1)基于语义检索。提供计算机可以理解人类语言后的一种搜索模式。(2)基于音视频信息内容检索。可以直接对音视频档案资料内容进行检索,自动识别关键帧,能够区分定位出一个视频中的不同的两段内容,以减轻低效人工处理的工作量,提高对声像档案的处理能力。(3)档案数据智能化辅助分类。可从历史分类中智能提取档案分类,提高用户声像资料整编效率,实现文献的自动分类;系统可自主根据已有档案分类进行处理,促进以后辅助分类的准确度;支持多维度的动态分类;支持用户自定义分类展示。
因此,档案管理大数据系统平台总体架构应按照实际内容应用的流程实现,即从数据的采集、智能处理、数据挖掘与智能搜索应用平台三个层次实现。通过多类型数据采集平台进行数据采集,在智能数据处理平台上对这些非结构化信息、多媒体信息和用户信息进行分析,最后建设档案大数据信息应用平台上提供数据挖掘结果的搜索平台和多媒体自动编辑处理和搜索利用平台。
二、基于档案大数据支撑平台的数字档案馆建设框架
(一)浦东新区档案大数据的现状
目前,浦东新区共管辖36个街镇,辖区面积达1210多平方公里。档案馆接收全区立档单位的各类档案,包括城建档案,政府公文,民生档案,照片、音视频档案等综合档案,同时对接收进馆的传统载体档案进行数字化,目前接收的全区城建档案和综合档案总计320万卷,合计超过6.9亿页的纸质档案,其中有220万卷,合计4.8亿页的纸质档案需要进行数字化加工。已经完成数字化加工转换的纸质档案也达到6千万页级。
如此庞大的档案数据,通常是按照档案分类要求进行分类管理,各种类型的档案相对是独立的,目前应用最为广泛的就是民生档案,包括婚姻档案,独生子女档案,知青档案,知青回沪档案,农民建房档案,产证档案及城建档案等,还有很多分散在部门和机关的民生档案信息还未进馆和供利用。这些档案信息从某种意义上都存在着一定的关联性,然而在未进行大数据分析之前都无法真正实现更深层次的利用。
随着社会的进步,需要由档案馆来进行永久保存的档案类型将会不断增加,档案的总量也会激增,伴随着照片,声像等多媒体档案纳入档案接收的范围,档案的存储量,对于这些大数据,要引入分析过程。在大数据时代,政府成为最大规模的信息采集者,国家档案馆作为天生的数据集散地,其电子档案收集范围必将进一步扩大,移交时限也将进一步缩短。而在“开放政府数据”的倡议响彻全球的年代,电子档案的开放时限也将在既有框架中不断寻求突破,变得更加灵活。对大数据的分析处理和增值应用,将成为未来档案开发利用的重要内容,档案馆坐拥庞大的数据资源应该成为巨大社会价值的产出地。在这种情况下,对于档案管理工作进行一场技术革新也是在所难免的,大数据时代的来临相比其他信息技术则更加契合档案管理工作的需要。
(二)档案大数据带来档案管理观念的转变
档案业要积极应对大数据时代带来的种种变化,研究数据收集、管理和利用的新模式、新方法。
1、档案数据利用方式。在档案管理过程中,人们一直在探讨如何在收集环节把好关口,要避免档案实体涨库,克服档案信息存储空间的限制,又要防止有价值的档案被淹没在价值低甚至毫无利用价值的海量档案中间;而在利用环节,人们追求档案如何在需要时应有尽有、无所不包,同时要能被快速、准确地检索出来。档案工作者长期以来就在这个像悖论一样的命题中间“带着镣铐跳舞”。而大数据或将轻松化解这个难题。在数据化的环境中,对档案收集选择性的要求会大大降低,毕竟保存数据的成本比保存档案实体低得多,而在大数据时代也很难预判什么样的信息有价值、什么样的信息没有价值。对档案数据的利用也将发生翻天覆地的转变,不但查准、查全变成了小菜一碟,深入的数据处理将赋予档案数据更大价值。
2、档案收集的质量标准和整理要求方面容忍不精确。在大数据时代允许不精确的出现已经成为一个新的亮点而非缺点。人们需要与各种各样的混乱作斗争,这种混乱也可以指不同的数据格式,如要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。
在日常的档案收集工作中,档案馆确实花了大量的时间和精力在与“不精确”作斗争。除了就整理、鉴定的标准与要求与各移交单位进行反复沟通以外,在某些时候甚至帮移交单位做一些具体而细微的“手工活”。在未来,对档案整理的要求将日益趋于简单和便利。“虽然如果我们能够下足够多的功夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会给我们带来更多好处。”也就是说,要实现档案管理全程效益最大化,在收集环节科学地“包容错误”将成为大数据时代一种现实的选择。
当然,即使在大数据时代,接收工作必须要坚持一定的质量标准。如果待移交档案中存在一些不能忽略的基础性问题,进馆后将影响档案收集以及后续工作的科学推进。在包容错误与坚持标准之间踩准节拍,底线应该是不影响进馆数据后续的关联分析。
3、以数据化代替数字化。在大数据时代,传统载体档案将面临全面的“数据化”而不仅仅是“数字化”。“数字化”可能是僵死的信息存储,而“数据化”则是可检索和可以进行关联分析的活数据。
就目前大部分档案馆的状况而言,纸质档案数字化的方式主要是将档案原件扫描成图形文件存入电脑,因为这些图形并没有被数据化,无法进行关键词查询和检索,也无法用于进一步的数据关联分析处理。而数据化之后,这些海量的档案文件可以更方便地被人和计算机运用。不仅是纸质档案,各种载体的音视频档案未来同样也能够实现模拟信息、数字信息数据化的跨越。在大数据时代,世间万物都将被数据化并进而创造更大价值的尝试。
(三)浦东新区档案信息平台升级的框架研究
浦东新区档案局的信息系统支撑平台又称为硬件平台,为浦东新区档案局的所有信息化应用系统提供运行、技术、存储、备份的物理环境。数字档案馆主要面向四类用户,分别是政府机关领导、档案局(馆)、各级建档进馆单位和部门及公众用户人群,他们在数字化档案馆建设中所对应使用的各系统平台现状情况如图1:
图1四类用户所对应使用的系统平台(现状情况)
三、分布式文件系统、云桌面技术与服务器虚拟化相结合的一揽子方案
随着接收档案的范围不断扩大,档案数字化进程不断推进,现有硬件平台已无法满足大数据环境下对性能的要求,现有应用系统平台的功能也无法满足对相关档案进行大数据分析的要求,因此对现有的信息化平台借力云计算进行升级非常有必要。
云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用,二者之间相辅相成。
目前我们已经在使用的云计算技术包括服务器虚拟化和桌面云,这些技术在档案行业还停留在试点的范围,在档案大数据时代到来前,云存储的使用还没有提上日程,但针对档案历史保有量的统计和未来档案的每年增量预估,我们不难发现,传统的存储方式越来越不能满足快速增长的数据存储需要,亟待有新的存储方式来替代传统的存储方式,从而更好地在档案大数据时代到来时为数据挖掘和数据分析提供有力的支持。
浦东新区将在使用云计算技术的经验下,逐步推广云计算技术,扩大使用范围,将服务器虚拟化、桌面云、云存储的技术全面展开,贯穿于档案的基础平台建设以及应用软件建设,包括档案管理核心业务类应用,档案业务协同保障类应用,档案资源服务扩展类应用,档案资源知识管理类应用,将全部应用系统分阶段逐步整合到服务器虚拟化系统中,并补充相应的硬件设备,保障各系统高效率不间断地提供服务。
针对公众对于民生档案利用的需要,提高档案利用的便民性、惠民性,减轻公众办事的往来奔波之苦,我们将在全区各村居委社区推广民生档案就近查档出证的惠民措施。由于民生档案关系到个人隐私,属于需要保密的档案,为了保证档案的安全利用,我们在政务网中采用桌面云来实现档案数据在信息中心,查档在云端,所有的操作都在桌面云平台内完成,在保证档案安全的同时也方便了公众的就近查档需求,同时也不需要增加太多的投入来实现和维护。
档案的种类繁多,数量更是达到上亿,如果保存到存储设备中占用的空间将会达到PB(1000TB),如此大规模的数据对存储设备性能的要求就会比较高,如何快速,准确地找到相关数据,一直是大数据对实时性能的最低要求,采用分布式存储的云存储方式,对于数据的请求将会分发由多个存储服务器去处理,从而可以快速得到想要的数据,来实时响应数据分析提供有价值的信息。
从档案安全,技术实现,业务软件系统功能等各方面考虑,设计了数字档案馆框架图。如图2:
图2浦东数字档案馆方案框架图
网络系统原来采用的是CISCO解决方案,安全系统虽然在防火墙、入侵检测、入侵防御、安全审计等方面做了防护,但是由于设备使用年限较长,总体性能瓶颈问题无法避免,需要整体对网络系统和安全系统进行升级改造。在采用服务器虚拟化之前,使用了大量的物理服务器来为应用提供计算支持,包括SUN小型机和DELL的6650、2850机架式服务器,性能较十年后的今天明显捉襟见肘,可以将部署在这些服务器上的业务应用系统迁移到服务器虚拟化平台,方便管理和利用。
目前根据实际需要增加了存储设备来扩容,但总体可用存储容量不到50TB,今后随着档案数据的大量增加,将来会达到PB级,可在原有SAN架构的存储体系中进行扩容,当达到一定规模后,可以采用分布式文件系统来管理海量数据,保证数据存储的效能。
对于需要在全区范围内部署的档案应用系统,可以在政务网中采用云桌面技术,在保证档案安全的同时也减少了政府投资。
在十年前,操作系统、中间件、数据库和全文检索等软件技术国内还没有成熟的产品,和国际水平相差得也比较远,如今国家大力扶持,国产软件从性能和安全上都与国际水平相当,有些指标还高于国际水平。随着云计算技术的兴起,国内也有成熟的厂商提供云计算服务。档案是国家的财富,数据的安全性是我们首要考虑的,建立自主可控的信息平台是数字档案馆建设的关键。
结论
大数据技术是云计算技术的延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、NoSQL数据库、实时流数据处理以及智能分析技术如模式识别、自然语言理解、应用知识库等。档案大数据除了数据总量大之外,还有跨历史时期长,种类繁多,相对孤立等特点,利用大数据技术,将会很好的解决海量数据存储问题,解决跨历史时期,跨门类档案的相互关联性,通过智能分析技术生成对社会进步和经济发展有价值的信息。
传统的运行平台,数据都保存在单一的存储设备内,存储的容量上限取决于存储设备可扩展的规模,如果扩展性较差,当档案数据量达到一定规模,或者说需要处理大数据的时候,性能会明显降低,而且存储满了,只能再重新购置设备,虽然容量可以增加,但是给管理却带来了麻烦。如果采用云存储来保存数据,所有数据是由多台云存储服务器去管理,通过分布式的方式来优化存储结构,可以随时扩容和无限扩容,而且不会影响存储系统的性能。
基于云计算技术的信息化处理平台,可以充分利用各种资源,将传统的相互孤立的各个基础架构形成一个统一的有机整体,由平台来处理需要大量耗费人力资源的繁重的重复性工作,减少时间耗费和降低成本,提高工作效率。在云计算时代背景下,档案数据中心需要向集中大规模共享平台推进,档案数据中心能实现实时动态扩容,实现自助和自动部署服务。
浦东新区将根据档案的特点,充分利用现有资源和先进技术,在档案数据存储方面采用分布式文件系统,解决海量档案文件保存问题;在对公众就近查档出证服务方面,采用云桌面技术,在保证档案安全的同时,更好地为广大群众服务,减轻群众办事的来往奔波之苦;整合服务器资源,采用服务器虚拟化技术,针对不同的系统应用动态调配处理计算的资源,便于统一管理,提高工作效率。
(浦东新区档案局,上海,200135)