关于“网上淘宝”题目的问题说明及解释
在暑期培训过程中,参赛选手提出了许多问题,我们在此加以整理,并给出解释,希望对参赛选手有所帮助。
1、XML文件(资源描述文件)是否由自己创建?是否需要根据资源的变化修改?
Xml文件不需要自己创建。我们知道,每个资源都有其自己的描述信息,这种描述信息是资源检索的依据,而资源描述信息的提取和保存是一个非常复杂的过程。本题目不要求参赛者自己提取和保存资源的描述信息,资源的描述信息以一个xml文档的形式提供。每个资源服务器上的xml文件保存了这个服务器上所有资源的描述信息,它充当了一个数据库的角色。由于每台资源服务器上的资源是确定的,所以这个xml文档也是确定的,不需要由参赛者创建或修改。
2、xml文档的格式问题?
关于资源xml文档的格式,下面进行一个详细的说明:
<?xml version="1.0" encoding="UTF-8"?>
// XML头部,显式定义文档使用UTF-8作为编码方式,以广泛地支持各种字符集。
<allresource host=”192.168.0.2” remote=”192.168.0.1”>
//资源xml的根元素,代表该资源服务器上所有的资源,它有两个属性,一个是host,代表了这个资源服务器的ip地址,另一个是remote,代表了这个资源服务器需要向哪一个服务器去注册发布自己的信息,具体解释参见问题4。
<resourceitem>
//表示一条资源记录,下面的子结点是这个资源记录的描述信息
<id>1</id>
//为方便检索设置,为新增内容,这个id是该资源服务器上资源的唯一标识,是以1为增量不断递增的一个数字。
<title>07各地高考作文题</title>
//资源的标题信息,是该资源的一个概括性的标题描述
<keywords>作文,高考</keywords>
//资源关键字,3-5个,是从该资源提取的关键字信息
<kind>doc</kind>
//资源类型(资源文件的扩展名)
<describe>07各地高考作文题</describe>
//资源具体详细描述
<date>2007-12-1 8:50:43</date>
//资源在这个服务器上的发布日期
<url>http://192.168.0.122:8080/Query/source/07各地高考作文题.doc</url>
//资源可访问的url地址,通过这个地址可以下载该资源或对这个资源进行预览和播放。
<author>李明</author>
//该资源的作者
<publisher>山东师大</publisher>
//该资源的发布单位
</resourceitem>
<resourceitem>
//下一条资源记录
<id>3</id>
<title>汽车动画</title>
<keywords>汽车,动画</keywords>
<kind>wmv</kind>
<describe>学生作品</describe>
<date>2007-12-1 8:50:43</date>
<url>http://192.168.0.122:8080/Query/source/jc.wmv</url>
<author>王朋</author>
<publisher>山东师大</publisher>
</resourceitem>
</allresource>
3、xml文档中的文件地址问题?
Xml文档中的地址是一个网络url地址。这个地址是用来获取资源的url地址。通过这个地址可以下载资源或进行资源的预览和播放。
4、服务器的IP地址问题?
关于服务器的ip地址问题,对于每一个资源服务器,有一个xml地址与之相对应,由以上的说明,这个xml文档的根元素allresource有两个属性,一个是host,代表了这个资源服务器的ip地址,另一个是remote,代表了这个资源服务器要注册发布的服务器ip地址,也就是说这个资源服务器要想和其他资源服务器共享共检,需要向这个remote上注册发布自己的ip地址,并从这个 remote服务器上获取其他资源服务器的地址,一旦有一个资源服务器在remote服务器上发布了自己的ip地址,这个remote服务器应该通知其他已发布的资源服务器,以使其他的资源服务器知道又有一个资源服务器加入到了共享共检域中。如图:
在这个测试域中,有5台资源服务器,ip地址分别为:192.168.0.1 , 192.168.0.2, 192.168.0.3 , 192.168.0.4 , 192.168.0.5。其中192.168.0.1这个服务器除了充当一个资源服务器之外,它还充当一个资源服务器注册发布的管理者,这个管理者在一个测试域中只有一个,因此这五台资源服务器上的remote都是192.168.0.1。在测试时,这个192.168.0.1服务器首先启动,然后等待其他服务器启动。其他服务器启动后,会通知192.168.0.1服务器(即注册),告诉192.168.0.1服务器自己已经可以加入这个测试域,然后192.168.0.1服务器会通知其他已注册的资源服务器,一个新的资源服务器已经启动,可以对它的资源进行访问和检索。例如:
当资源服务器192.168.0.5启动时,192.168.0.1 , 192.168.0.2, 192.168.0.3 , 192.168.0.4已经启动,192.168.0.5会通知192.168.0.1它已经可以加入该域,192.168.0.1收到通知后,会将这个消息通知给已注册的192.168.0.2, 192.168.0.3 , 192.168.0.4资源服务器,使得192.168.0.2, 192.168.0.3 , 192.168.0.4知道了一个新的资源服务器已经加入,同时192.168.0.1也会把192.168.0.2, 192.168.0.3 , 192.168.0.4的通知192.168.0.5,使新加入的资源服务器可以知道全局的信息。这样,所有的服务器都知道了这个测试域中有哪些资源服务器。
5、xml文件的优化问题?
可以对这个xml文档进行优化,这个xml文档的作用是提供了该资源服务器上所以资源的描述信息,是供参赛者使用以作为检索的依据,可以自主对这个xml文档进行优化,可以检索出其中内容即可。
6、题目需不需要一个客户端?
题目不要求有一个客户端。大部分参赛者使用B/S结构完成这个题目,因此不必要有一个客户端,只需要通过浏览器访问就可以了,当然题目也不排斥使用客户端。
7、视频文件的格式和播放问题?
视频文件包括多种格式:avi,wmv,swf等,只要求调用相应的嵌入式播放器播放即可。
8、xml文档的位置和名字问题?
Xml文档放在服务器的根目录上,名字是test.xml。例如在tomcat服务器中,test.xml会放在webapps文件夹下,资源文件会放在webapps文件夹之下的resources子文件夹下。
9、关于测试资源的数目问题?
测试资源的数目一般是3-5个资源服务器,每台服务器上大约有200-500个资源项。
10、题目是否需要考虑语义问题?
题目不要求考虑语义问题。可以作为题目的拓展提供这个功能。
11、检索一个文档是否还需要检索资源的全文内容?
对于word,ppt等文本形式的文档,题目不要求要从文档的全文内容中进行检索,可以提供这个功能作为题目的拓展。
12、word,ppt的预览问题?预览的比例问题?
Word,ppt的预览是指预览该文档的一部分内容,比例自定。
13、题目的创新意义是什么?
题目的创新意义主要有两点:
一个是xml的数据融合,数据格式是信息交互的一个关键问题,制约了信息共享与数据交换,是造成传统应用间移植性差、集成性差的关键因素之一。XML为数据表达提供一种平台无关的格式,跨平台数据格式为跨平台分布式应用的产生提供了技术保证。通过对资源文件进行XML描述,屏蔽了异构数据源的差异,数据交互统一为标准的XML数据,XML数据具有许多优点,对异构系统间的数据交换提供了天然的支持。
一个是分布式计算环境,分布式计算是未来网络程序发展的主流编程方法,是提交现有资源利用效率的关键技术。如何实现不同服务器之间的资源共享,提高资源的利用效率,避免同类资源的重复开发,是目前网络共享需要解决的问题。
14、题目有哪些商用价值?
商用价值:迫切需要一个平台实现对于企业信息资源的集成整合,提供统一的资源搜索服务,提供企业的资源门户和信息服务门户。
15、题目在做的过程中,应该掌握怎样的应用技术?
分布式计算技术是需要掌握的重要技术,目前主流的分布式计算技术主要包括:Java RMI(EJB), COABA, Web Services, Grid, DCOM等。此外,xml解析与检索技术也是题目中需要频繁使用的技术。关于word,ppt