德赛数字加工系统

DESi数据加工系统集成了数据加工制作过程中从系统管理、扫描加工、制作上载、任务分配、资源加工、一直到资源审核、资源发布等多项任务,能对任务进行分配,并对任务的完成情况进行统计分析。
DESi数据加工系统的将所有数据进行统一的存储和管理,用户使用起来更加方便;既适合多人的制作小组分别进行流水作业,也适合小型图书馆不分配任务一人独立完成全部任务的制作方式;多种选项的设置使得管理员使用起来更加得心应手。
DESi数据加工系统不仅能处理扫描图书、电子文档,还能将多媒体文件链接进来,充分发挥电子文件的优势,使读者体验图文并貌、影音共现的阅读乐趣。
系统的业务流程图如下:
下面,我们针对每一个功能进行详细的介绍:
系统管理模块

DESi数据加工系统系统管理模块包括分类管理、资源库管理和用户管理三部分。
分类管理
系统提供分类管理功能,分类为资源查找提供导航。资源库可以支持多种分类导航方式。
资源库管理

系统管理员可以根据自己单位的实际需要,建立不同元数据字段、不同分类导航的资源库。系统内置12种常用模版,系统管理员可以选择最适合的模版来建立库结构,并针对自己实际情况做修改。
对每个资源库,管理员可以设定任务设置,即是否需要元数据标引、目录制作、分类或者多媒体链接功能,也可以设定是否需要做任务分配和是否允许通过网络方式上载元数据和全文。
用户管理
系统管理员可以通过用户管理界面对不同的操作人员、不同的资源库设置不同的操作权限。
制作上载模块
制作上载模块主要可以将各种形式的文档转换成CEB文件并上载到服务器端。

对于扫描而得的图象文件,可以通过“新建扫描文档”来整理扫描纸张文档顺序,将所有文档的图象文件统一合并成为一个CEB文件。本模块可以按文件名称自动整理图像文件的顺序,可以方便地设置封面、封底、可以对其中的图片进行多种角度的旋转(90度、180度、270度,对于横向插页的调整有用),同时,还可以手工插入某些插页的图片、调整前后次序,是将图像文件整理成册的方便的工具。
对于其他格式的电子文档,如DOC、PDF、S2、S72、PS、WPS等多种文件格式,都可以通过“新建其他文档”来转换为CEB文件,同样可以支持对源文件的拆分、合并。所有格式的文件,只要是可以打印的,都可以通过虚拟打印的方式转换成CEB的格式。转换前,可以根据对清晰度、压缩比例的要求选择相应的模版。转换过程中,如果没有安装相应的字体,软件会自动用常用的字体替换掉。
制作上载模块还可以批量转换一系列的电子文件,并可以部分的OCR其中的内容。比如只OCR识别目录页。
对于一些资源,如mp3、flash等,没有必要或者不能转换成ceb文件的,可以通过“增加其他文件”来直接上载到服务器端,保存在DESi的数据库中。
任务管理模块

任务管理模块是指管理员将元数据标引、目录制作、分类、多媒体链接制作四项任务分配给不同的操作员,每个操作员只能看到分配给自己的任务;同时管理员可以统计分析各操作员的任务完成情况,便于管理员进行管理。
同时,考虑到不同用户的不同模式,管理员也可以设置不启动“任务分配选项”,则只要有权限的操作员都能看见所有的文档,适合小型图书馆各个任务都只有一个人,不需要分配任务的情况。
资源加工模块

资源加工模块包括元数据标引、分类、目录制作和多媒体链接几个工序。
元数据标引
元数据标引是对文档的元数据进行标引的工具。不同的库有不同的元数据,图书库和论文库的元数据就不相同。在标引时,可以方便地直接从文档中选取相应的文字而减少了录入工作造成的效率低下。
上图为元数据标引的界面:
同时,对于无法拷贝文字的资源,如MP3、EXE等文件,也可通过直接输入的方式来标引元数据信息。
分类

分类是将图书库中的图书分到某种分类法的一个类目中去的工具。我们系统中内置了中图法第四版,可以直接录入分类编码或者分类名称快速定位分类号,也可以通过鼠标点击分类树进行分类工作。对于系统管理员根据自己的资源库设置的其他分类方法,同样可以通过这种方法来做分类工作。
上图是分类的界面:
目录制作
目录制作模块是制作精美目录的专用工具。制作好的目录可以在两个地方展现:网站上显示文档的详细信息时,以及下载阅读文件时。目录是一个树形的可多层显示的结构,与我们常见的图书的目录结构相同。
目录制作时,对于电子文档,将从CEB文件中抽取前数页的文字;对于纸张扫描文档,将抽取从前数页的图片中OCR出来的文字。系统根据抽取出的信息构成一个目录结构,制作人员可以在此基础上进行手工调整,形成最终的目录结构。
目录制作也支持灵活的手工调整,包括调整目录条目对应的页数、调整目录条目的层次结构、插入修改或删除目录条目等。
多媒体链接制作
链接制作是指在CEB中制作多媒体链接、文档内链接的工具。

多媒体链接是指将视频和音频文件(avi文件、wav、midi文件)链接到CEB文件之中,与CEB文件合为一体,读者下载或借阅时,可以同时阅读或播放多媒体文件。
文档内链接是指可以将某个区域或文字链接到指定的页码,读者点击该区域或文字时,可以跳转到指定的页码。
即将发布的新版多媒体链接制作工具还增加了对mp3、rm、rmvb、wmv、swf等常用格式的支持。
数据审核模块
数据审核模块是指文档制作的质量检查人员对元数据标引、分类、目录制作、多媒体制作进行检查的工具。如所有任务均没有问题,可以标识为“记录正确”,否则,可以标识某一项错误,错误的记录将返回原操作员的“错误条目”之中。
通过检查,能有效提高数据制作的质量。
下面是检查的界面:
资源发布模块
资源发布模块是将库结构、分类和加工完成的数据进行输出和发布的模块。对于大多数用户,可以使用直接发布的功能,制作完成后可以在发布系统上直接展现出来。
对于有的用户,制作完成的资源是保存在光盘中而不是发布到服务器上的,有的单位制作用的内网和发布用的外网是隔离的,可以通过资源输出到文件目录的方式导出,然后客户可以把这些输出的文档进行备份或者拷贝到其他网络上发布用。
数据导入导出工具
数据导入工具可以将已有的其他格式的元数据和分类信息导入到DESi相应的数据库中,这样就不必将以前用其他软件做好的数据库元数据重新制作一次。该工具支持的数据源有SQL Server、Access、Excel、XML、文本文件、CNMARC等格式。
德赛网络提交工具
网络提交工具允许操作员以WEB方式将资源的主文件及元数据提交到服务器中,这个工具的功能类似方正的TASi论文提交系统,只是可提交的元数据和正文可以由系统信筒管理员在后台自定义。上传的资源同样可以进行标引、分类、目录制作、多媒体连接制作等工作。
资源查重工具
资源查重工具通过元数据(如书名、作者等)、制作信息(如制作时间、制作人等)进行查询,达到查看某资源是否已经在库中制作的目的,从而可以避免重复制作。
文字识别模块

全文OCR软件支持对扫描的图像文件进行文字识别,生成文本文件。
特点
能够实现对图像资源的动态监视,实时自动进行数据转换。
具有2万多汉字字符集的识别核心,使识别率更高,减少校对工作量。
生成双层结构的高保真全息数字化文件,可以恢复原图像的任何一点细节,使信息得到最完整的保留。
版面拼接功能支持对大幅面图像的识别。
具有超强的识别核心,可以识别简、繁体汉字2万多,识别的语言包括中文简、繁体、英文、日文、韩文,自动版面分析能力大大增强,最大限度减少手工操作量。
光盘发布模块
光盘发布工具提供DESi制作的元数据和资源文件发布到光盘上进行存储。
德赛发布系统
德赛Core/Score发布模块
Core/SCore发布模块是将制作好的数据发布到网络上,供广大读者进行查询、检索、借阅,供管理员进行推荐、上架下架、下载量统计等多种管理的平台。
发布系统分为Core和Score两种。两者功能基本一样,区别就是上载到Core发布系统的文档不能进行加密;S-core是安全核心(Secure core)的简称,上载文档时可以对文档进行加密,从而达到防止二次传播、保护知识产权的目的。主要功能如下:
实现自建数据库、自建分类导航的网络发布
读者可以在线检索、导航、下载自建数据库资源
建立不同资源库之间字段的关联关系
用户分组,给不同的读者分配不同的访问阅读权限
新闻、公告栏、论坛、FAQ、友情链接等模块
支持与自动化系统的无缝连接
日志、统计功能,供分析读者使用情况
提供OAI、OID、METS等接口
Score还可提供信息的安全保护机制,可以自由设置信息阅读者的范围,未经许可的计算机不能阅读、拷贝、打印有关信息
支持多种查询、检索方式:
可以指定元数据项进行查询,如作者是xxx。
全面检索:即只要字段中出现,都可以检索到,而不用关心是哪个字段,提高检索的效率全文检索:可对文档进行全文检索,并可以按检索命中的页数倒排序。对于扫描图书,可以对自动OCR识别出来的文字进行全文检索,制作起来省时省力。
跨库检索:对发布在Apabi发布系统上的所有资源,可以通过跨库检索对公有字段做一个统一的检索。检索结果为各个库中符合检索要求的所有记录信息。
备份恢复工具
可以通过备份恢复工具备份数据库中的数据,防止由于黑客或者病毒引起系统崩溃造成的数据丢失。
CNMARC数据生成工具
元数据生成工具是生成CNMARC的数据工具。能够生成库中所有电子书的MARC数据,生成自上次生成后新入库的电子书的MARC数据,生成某时间段内入库的电子书的MARC数据,可指定生成MARC数据时,生成图书的或所有的MARC数据。包括生成CNMARC数据、重定向页面生成等。
生成CNMARC数据
(1)导出数据范围:
☆ 生成所有:生成所有时间段入库的图书,不对时间段做限制。
☆ 仅新入库:只生成上次生成MARC数据以后的所有新入库图书。
☆ 入库时间范围:可在下拉框选择。生成的数据包括在这两天中入库的图书。
(2)查看数量:系统根据当前的数据范围和数据类型,查看共有多少条记录。
全文检索管理器
全文检索指对于填写的某一个检索词,如果某书的内容中含有该词,系统将能查出该书。
全文检索管理器是为数字图书系统下载站点中的CEB和XEB图书建立和维护索引库功能的工具。由图书系统的系统管理员对电子书进行全文检索的创建和维护。
输入系统管理员的用户名和登录密码,按下“登录”按钮后,如果具有足够的权限,将会启动全文检索管理器。
eBook数据库最多可以包含255个全文检索数据库,每一个全文检索数据库最多存放5000本书。
整体系统业务流程图