一个专业的论文、出书、专利服务平台

品质、专业的

论文指导服务

CERNET分布式中英文WWW信息发现系统设计刊发论文

时间:2014-12-13分类:软件开发

  摘要:本文首先介绍了Internet及WWW的迅速发展状况,随后分析了Internet信息资源的特点,并说明了Internet不但是信息的源泉同时也是信息的迷宫,必须有信息发现工具协助用户定位所需信息,为了适应Internet的规模,变化性以及自治性等特点,文中介绍了在广域网络环境下设计分布式应用的若干技术和应引起重视的问题。例如:增加应用的容错性,适应Internet自治性,控制分布操作以及广域环境下数据一致性问题等。接着分析了Internet IRTF信息发现研究课题组研制的分布式信息发现系统Harvest,说明了Harvest中许多值得利用和借鉴的技术以及几个影响推广使用的问题。

  关键词: 资源信息发现、 WWW、 搜索引擎

  一、Internet 的发展

  Internet是一个由各种不同类型和规模的独立运行和管理的计算机网络组成的全球范围的计算机网络。它的前身是60年代末,70年代初美国国防部高级研究计划署的实验性网络ARPANET。1983年后,ARPANET中有关军事的部分被隔离为MILNET。其后,1986年诞生的美国国家科学基金会NSFNET对Internet的发展起了划时代的作用。

  90年代初到现在,是Internet增长最迅速的时期,加入Internet的人员、计算机和网络的数量以指数方式增长,Internet上的网络从1985年的100个左右,迅速发展到1992年的5000多个。截止1996年7月,Internet已连接了134346个网络,入网主机1228万台,以及数以亿计的用户。

  二、Internet信息资源的特点

  随着各个国家和组织的网络不断加入,Internet成为一个规模巨大、自治性强、发展变化快,用户访问频繁的国际互联网络。Internet上的信息资源随着Internet的发展也呈现了以下特点:

  ·信息量大而且分散:目前,网上有几千个匿名FTP服务器分布在网上的不同区域,为用户提供了数以百万计的文件资料。我们将在后面提到的WWW技术给每个用户展现自己的机会,这又构成了另一个广阔的信息空间。可以说,Internet是世界范围内的信息量最大的图书馆,为人们提供了丰富的信息资源。

  ·自治性强:作为广域互连的Internet不是也不可能是由一个国家或组织单独管理的。提供何种服务,如何提供,使用何种技术都是由每个接入Internet的组织自己作主。在这种广域网的环境下,要达成广泛的一致意见往往比较困难。

  ·信息资源多种多样: 用户可以通过Internet上的多种服务获得信息,如FTP,Gopher,Archie,WAIS等等,这些信息资源无论从内容还是形式都呈现出多样异构的特点。

  ·信息变化快:首先,随着Internet的增加,新的信息不断涌现,其次,现有的信息也在不断变化。最典型的当属“News”服务,其以GB为单位的信息隔几天就要更新一次。

  ·不一致性和不完整性。例如,一个人的信息可以在个人WWW主页,X.500目录服务等多个信息源中出现,当信息发生改变时,在这些信息源中改动的次序和改动是否完整都会影响信息的一致性和完整性。

  信息发现系统的一个重要目标就是提供给用户一个有组织的一致的信息视图,在设计系统时,我们应当考虑到Internet上信息的特点。

  三、WWW的特点及其迅速发展

  WWW(World Wide Web)是九十年代初Internet上的全球性的网络信息系统。超文本和超媒体是WWW使用的关键技术。它使文本、图象、音频和视频等信息有机地结合起来,提供了丰富的信息表示能力。用户可以用友好、方便多样的界面存取信息,成为人们发布和共享信息的重要工具。越来越多的公司通过自己的主页展示推销自己;越来越多的大学、科研机构也通过网页来交流研究成果;越来越多的个人也拥有了自己的主页,所有这些都导致WWW信息迅速膨胀。在1993年下半年,WWW在不到三个月的时间里翻了一翻,即使现在WWW也以每六个月一翻的速度增长。1995年4月,WWW在网上的流量超过了Internet上其它服务的流量,并一直稳居首位。据不完全统计,1996年初,网上大约有1900万网页,到现在WWW上的网页数决不会低于2亿。

  四、信息发现服务的迫切性

  作为一个无穷无尽的信息源泉,Internet为人们提供了巨大的并且还在不断增长的信息资源和服务,Internet上各种各样的信息源源不断地流向人们。然而在你寻找所需的信息时,Internet又象是一个信息的迷宫,让人感觉无所适从,不知如何迅速定位自己真正需要的信息,仅依靠超文本链在迷宫中漫游,多半会徒劳无功。所以,人们迫切希望有信息发现工具为他们在WWW上搜寻信息提供导航。

  五、Internet信息发现技术的发展状况

  (一)已有信息发现系统的回顾

  随着Internet发展,Internet上的信息发现服务和工具也逐渐发展起来。比较典型的有Archie,WAIS, Gopher,X.500等,另外,还有众多的“搜索引擎”(Search Engine),如Excite,Infoseek,Alta Vista。

  1、Archie实际上是一个大型的数据库,和与这个数据库相关的一套检索方法。Archie数据库存有通过FTP获取的资源信息,包括这些资源的文件名、文件长度、存放该文件的主机名及目录。目前,Archie数据库已存入了大约1200个 FTP服务器、250万个文件的资料。Internet上有三十几个Archie服务器,查询 FTP的任务分布在各个服务器,它们之间通过执行基于扩散(flooding_based)的一致性保持协议,来保证信息的一致性。Archie的开发者把它描述为资源发现和信息获取的低端技术(low_tech)方案。Archie的成功要归结于它的简单性和对已有机制的利用。Archie有点类似于图书馆中的检索卡片。当你去图书馆查阅书籍时,如果你不知道你要寻找的书放于哪一个馆区的哪一个书架,那么,你通常不会挨个书架去找,而是会先查阅图书检索卡片。Archie也一样,如果你不知道您要拷贝的文件放在哪一台FTP 服务器中,你根本不可能挨个FTP服务器去查找,通过Archie,你可以根据文件名比较方便地找到文件存贮的位置。不过,Archie没有针对文件的简要说明,仅通过文件名进行索引,利用Archie检索时,你必须事先知道文件名或文件名的某些部份。Archie 还有另外一个不足的地方,就是它收集的资料还不全面。由于是否把 FTP服务器的资料放入Archie完全取决于自愿原则,错漏或更新不及时的情况就难以避免。

  2、Gopher 与Archie一样,在最初的时候也是为解决查找FTP文件的难题而被研制和开发的。Archie提供了一种根据文件名查找FTP文件的方法,Gopher则提供一种通过文件类别去查找文件的途径。

  Gopher系统最早由Minnesota大学的一群计算机人员开发,按他们的构想,每个信息源的拥有者应为自己的资源建立一个分类目录。 分类目录按一定的层次结构进行组织,并被放入Gopher 服务器中供用户检索。用户是通过一个称为Gopher 客户软件的程序以菜单的方式查阅该目录,直到找到所需要的信息为止。Gopher服务器的另一个功能是服务器之间的互联性,通过一个Gopher 服务器,你可进入另一个Gopher服务器,直接获得该服务器中列出的资源。这样,只要进入任何一个Gopher服务器,您就可以在不同的Gopher 服务器之间漫游,方便地检索和拷贝已建立Gopher目录的任何一台计算机中的信息。

  不过,随着 Gopher 服务器的增多,其目录系统变得越来越复杂,以每个Gopher 服务器有一百条子目录计,1000个服务器就有十万条目录,这样,光是察看目录系统就会占用大量的时间,而且难以找到你所需要的目录,于是,一些帮助用户更好地在Gopher 空间中漫游的工具不断地被开发出来,例如,通过一种称为Veronica 服务,你可以通过输入目录的名称直接进入某个目录,省去了逐级调用目录菜单以及查找所需目录的麻烦。

  3、WAIS 是“Wide area information servers” (广域信息服务) 的缩写。WAIS与Archie,Gopher类似,提供了一种检索Internet资源的方法。Archie通过文件名进行检索,Gopher通过文件类别进行检索,WAIS则按关键字对文件进行全文检索。WAIS是一种基于客户/服务器结构的软件系统。在服务器端,管理员建立一个文件索引数据库。与Archie数据库一样,该数据库包括文件的名称及查找路径,比Archie数据库更进一步的是,该数据库还包括文件内容的全文索引。这样,用户不但可以通过文件名,而且可以通过关键字去检索文件内容。在用户端,用户只需要输入某些关键字,WAIS服务器就会自动查找出现该关键字频率最高的文件,并根据这个频率按一定的加权方法计算文件与关键字的“关联值” ,选中的文件将依据“关联值”进行排列,“关联值”最大的文件目录排在最前面。

  WAIS系统虽面世不久,但已在Internet上得到广泛应用。由于WAIS服务器已相当多,人们建立了一个称为“Directory of servers”的专门收集 WAIS服务器资料的数据库,这个数据库本身也采用了WAIS系统。当用户需要查找某一文件,而又不清楚该文件会放在哪一个WAIS 服务器时, 就可以采用二级查找方法: 先通过“Directory of servers”确定哪些WAIS服务器可能包含要查找的文件,然后在选中的WAIS服务器中进行二级查找。

  4、 X.500是CCITT和ISO在目录服务领域标准化努力的结果。与DNS不同的是X.500的条目由一组属性与值的对构成,它可以接受基于属性的查询。X.500的名字空间被组织成层次结构分布于多个服务器上。这个全球名字空间的各部分的管理权被委派给了不同的自治的组织,这些组织又可以将此子树进一步分派管理权。部分X.500的名字空间通过指定主从服务器的简单复制机制复制到不同的服务器。

  5、随着WWW的迅速发展,Internet上出现了WWW信息查询服务,它们通常被称作搜索引擎。目前网上比较有名的搜索引擎有Yahoo!,Alta Vista,Excite,Infoseek,Lycos等。这些搜索引擎一般是预先由程序自动地在网上递归地访问WWW页面,将访问的信息存入数据库。然后将数据库中的信息建立索引,并提供给用户WWW的查询界面。搜索引擎根据用户的请求查询数据库,并将结果按相关程度排序后输出给用户。这样用户可以很方便地定位所需资源。值得一提的是Yahoo!,它更应被称之为WWW的主题分类目录。它在人工的参与下将WWW信息作了较好的分类,用户可以直接沿着分类目录找到网页。搜索引擎的出现给用户带来了极大方便,吸引了大批用户。下图显示了1998年3月访问各个搜索引擎用户数目的估计。

  近来随着搜索引擎的不断增多,网上又出现了“Meta-search Engine”[14]或者“Search Broker”。它本身并不收集和存储任何数据,只是代理用户同时向多个搜索引擎提交查询,将各个搜索引擎的查询结果通过一定的策略规整后返回给用户。目前,这个领域也在不断发展之中。

  (二)信息发现服务的分类及技术

  Internet上的信息发现模式可以分为两类:一类是基于数据组织提供用户浏览。数据组织是指人工参与下的如何使信息相关联的过程,通常是将数据排序和组织成有向图。如FTP文件系统中的层次目录,Gopher中的菜单条目等。用户可以使用相应的浏览工具来浏览和搜索资源空间。这种方法的有效性依赖于如何有效地组织数据空间,Internet上数据量如此之大,保持一个良好的数据组织是非常困难的。另外,由于不同的用户有不同的需求,何种数据有用,如何有效地组织等,都是很难确定的。

  另一类信息发现系统是基于搜索的。一般是用户提供有关资源的描述,由信息发现系统自动定位。这种方法能较好的适应数据的增长,应用也越来越普遍。

  从系统实现来看,基于搜索的信息发现又可以分为两类:一类是基于服务器的搜索工具,另一类是基于客户机的搜索工具。

  基于服务器的搜索工具由软件自动地在网上发现资源,把搜索的结果保存必要的信息,并建立索引供用户查询。一般,这类系统可以分为收集和检索两个子系统。收集子系统以一定的策略引导信息的发现并处理信息的更新,检索子系统则负责使用户能快速有效地利用收集到的信息,其特点是提供服务,被动地接受用户查询。

  基于客户机的搜索工具是由客户方按照用户事先定义的信息检索要求,在发现满足要求的信息或指定的信息发生改变时主动通知用户。用户无需反复搜索所需信息,减少了用户检索信息的时间。但往往由于客户机能力的限制,对于庞大的Internet只能搜寻极少的部分,而且速度较慢,如果许多用户使用,则对网络资源消耗比较大。

  随着Internet网上的数据量呈指数增长,为了达到适当的性能要求,信息发现服务以及它们的数据必须在成百上千个网络上加以复制。以Internet的News系统为例,News管理的是高度动态(用户可以随时向News发消息),弱一致性,(一个用户的文章在一段时间后才能被其它用户响应),数据量大(可以达到千兆字节)的数据,然而由于News有数千个副本服务器,对用户查询的响应时间却在几秒之内。与此形成对比的是Archie服务,Archie管理的数据要少得多(150MB),响应时间却可能会长达15分钟。这是因为Archie在Internet上只有30多个副本。所以采用分布式系统中的多副本技术、分布协同技术[1]是建立一个扩展性强、可用性高、响应时间合理并具有良好的信息定位能力的信息发现系统的重要技术倾向。

  小编推荐优秀电子期刊 《网络安全技术与应用》网络技术期刊征稿

  期刊信息:《网络安全技术与应用》杂志成立于2003年,先由中华人民共和国公安部主管、中国人民公安大学出版社主办。从2009年起,本刊改由中华人民教育部主管,北京大学出版社主办,是国内网络安全技术与应用领域行业指导性科技月刊,国内外公开发行。本刊系“三高两强”刊物,即信息量高、学术水平高、技术含量高;专业性强、应用性强。

获取免费资料

最新文章