档案之窗

扫一扫关注

当前位置: 首页 » 技术 » 档案信息化 » 档案数字化 » 正文

网络档案搜索引擎

放大字体  缩小字体 发布日期:2018-12-25 17:25:00    浏览次数:77    评论:0
导读

网络中的信息资源具有数字化、多类型、多媒体、跨时空、跨行业、信息源分散无序、内容特征抽取更加复杂化等特点。

网络档案搜索引擎

随着因特网的迅猛发展、Web信息的增加,网络成为信息的海洋。网络中的信息资源具有数字化、多类型、多媒体、跨时空、跨行业、信息源分散无序、内容特征抽取更加复杂化等特点。网络信息资源的纷繁芜杂使得对其开发利用受到一定程度的阻碍。搜索引擎可以在一定程度上改变这种局面,它可以为网络用户提供信息检索服务,成为网络信息检索的重要方式。

不同的网络“冲浪者”所关心的内容各不相同。一个利用者上网查看某些档案信息,首先就要对这些信息进行定位,搜索到相关的网址。这种搜索有不同的完成方法:正如利用者知道他要去某个档案馆一样,他若事先已知道这些资源的位置,则输入相关网址即可;当他想利用某些档案信息却又无法确定其存在的具体位置时,就要利用搜索引擎。

搜索引擎是一种信息发现服务系统,用以实现对网络中各类信息资源的搜索、定位,或称为对网络信息资源的发现。其实质是查找特定信息相关网址的工具。搜索引擎以一定的策略在互联网络中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。其针对的对象是静态页面文件信息,检索后返回的值是统一资源定位器,即相关网址。

搜索引擎包括信息搜集、信息整理和用户查询三部分。信息搜集是利用自动跟踪的计算机程序(如:Robot机器人、Spider蜘蛛、crawlers爬行者等)通过各种链接定期在网上漫游,搜集有关站点的最新文档和服务器信息。所收集的信息可能只包含主页的名字和地址,也可能包括主页的内容、基于文本文档的命令和多媒体文件信息。信息整理是将搜集到的信息存储在数据库中,并对这些信息进行分类等加工,组织形成索引数据库,供用户查询和访问。用户查询主要接受用户提交的搜索请求,然后从数据库中找出匹配的信息反馈给用户。用户再根据这些信息访问相应的网站,进一步查找自己需要的信息。信息库及其索引是搜索引擎在逻辑上的核心部分。搜索引擎工作的主要特点是采用基于Web浏览器的用户界面、检索结果按相关性排序并分批输出、在很多场合查询方式与浏览方式结合使用。

搜索引擎提供分类目录检索和关键字检索两种方式。分类目录检索可以帮助用户按一定的结构条理清晰地找到需要的信息。它是将网站信息收集起来,根据资源类型不同而分成不同的目录,再一层层地进行分类。某一类(例如档案类)下面排列着属于该类别的网站站名和网址链接,甚至还有各个网站的内容提要。用户找寻需要的信息可按给定的分类一层层进入,最后到达目的地。关键字检索用于查找包含一个或多个特定关键字的网站。关键字检索提供一个文字输入框和一个功能键。用户可以在文字框中输入要查找的字、词或短语(如“档案”),并可进行逻辑组合,然后点击功能键,搜索引擎便会查找包含该字、词或短语的网站的站名、网址和内容提要,然后根据一定的规则反馈给用户,并提供指向这些网址的链接。搜索引擎还能起到其他的信息检索作用,如检索人名、地址、电话、查找软件等。

搜索引擎一般由网络服务商ISP提供。目前图书馆界提倡各馆根据服务需求开发专指性更强,更加灵活、适用的搜索引擎。此外,很多大型网站都提供站内搜索引擎,也就是只搜索本网站内各个网页上的相关内容。许多以页面方式发布的档案信息就依靠站内搜索引擎来进行检索。

现阶段,网络信息检索研究的重点正向某些“中间件”或“智能代理”方向发展。除了新兴的自动标引、自动跟踪、自动漫游等智能化检索技术正在逐步走向完善外,网络专家们又推出了智能浏览器、学习智能体、知识共享智能体等最新的网络信息高度智能化检索技术。网络信息检索将不仅代表着在网络环境下发展起来的一种新型检索模式,而且将发展成为信息检索领域一个重要的学科分支。


 
(文/小编)
免责声明
• 
本文为小编原创作品,作者: 小编。欢迎转载,转载请注明原文出处:http://www.dawindow.com/tech/201812/4918.html 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们kf@dawindow.com。
 

Copyright © 2018 档案之窗(dawindow.com)     深圳司捷科技有限公司    版权所有       粤ICP备18047471号-1