Personal tools
最新动态 ·  中心介绍 ·  实验教学 ·  实践创新 ·  自主学习 ·  中心建设 ·  共享论坛 管理
文档操作

《网络信息检索》教学大纲

课程代码:0500539

课程负责人:窦奕虹   讲师   博士

课程中文名称:《网络信息检索与应用》

课程英文名称:Retriveal and Usage of Internet Information

课程类别:指选

课程学分数:2学分

课程学时数:36学时

授课对象:新闻学专业网络传播方向本科学生

本课程的前导课程:计算机基础与应用

 

1    教学目的和要求

因特网信息的无限、无序、优劣混杂,缺乏统一的组织与控制等特点给人们有目的的查找和利用信息造成了很大的不方便。本课程系统地介绍因特网信息资源的特点、种类、信息利用价值及评价、鉴选标准;介绍因特网信息检索的基础知识,各类型常网络信息检索工具的特点、比较、评价、使用和检索方法;详细介绍了学术性、研究性及各专门信息的网上检索与查找方法、途径及重要站点。本课程的目的是培养学生网络信息查找与利用能力。

 

2    课程内容与学时分配

 

第一章 因特网信息资源

讲课3学时

第二章 因特网信息检索概述

讲课4学时

第三章 网络信息检索的基本方法

讲课3学时

 

 

第四章 著名搜索引擎

讲课3学时

上机3学时

第五章 元搜索引擎

讲课3学时

上机3学时

 

第六章 网络资源目录

讲课3学时

上机3学时

第七章 其他各类搜索引擎

讲课3学时

上机3学时

 

 

考试

 

 

第一章  因特网信息资源

 

第1节    因特网上的信息内容

 

一、网特网上的主要信息内容

1.政府信息

2.科研信息

3.教育信息

4.文化信息

5.消闲娱乐信息

 

二、因特网上有哪些信息是不能有的。

 

重点讲授:因特网上主要的信息内容

 

第2节    因特网上信息资源的特点及信息利用价值

 

一、因特网上信息资源的特点

1.信息资源极为丰富,覆盖面广;

2.超文本,超媒体,集成式地提供信息;

3.信息来源分散,无序,变化快,难以控制;

 

二、因特网信息的优越性:

1.价廉;

2.新颖,深入;

3.广泛,直接交流;

4.非正式和自由发表园地。

 

三、因特网信息资源的评价

1.评价意义

2.评价的标准

(1)目的

(2)范围

(3)内容

(4)图形和多媒体设计

(5)信息的展示与设计

(6)可操作性

(7)费用

3.评价的方法

(1)定性评价

(2)定量评价

4.重要的评价站点

(1)The Argus Clearinghouse

 

(2)The WWW Virtual Library

 

重点讲授:因特网上信息资源的特点和评价方法。

 

第3节    因特网上信息资源的种类

 

一、万维网信息资源

1.定义

指建立在超文本、超媒体技术的基础上,集文本、图形、图象、声音为一体,并以直观的图形用户界面展现和提供信息的网络资源形式。

2.几个相关概念:

(1)HTTP

(2)HTML

(3)URL

(4)home page

(5)link

(6)浏览器

 

二、Telnet 信息资源

指借助远程登录(remote login),在网络通信协议Telnet(telecommunication network protocol)的支持下,在远程计算机上登录,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问、使用远程计算机中对外开放的资源。

 

三、FTP 信息资源

是因特网使用的文件传输协议。该协议的主要功能是完成一个系统到另一个完整的文件拷贝。即在因特网的联网计算机之间传输文件。

 

四、用户服务组信息资源

由一组对某一特定兴趣的网络用户组成的电子论坛。如新闻组(usenet newsgroup)、邮件列表(mailing list)、专题讨论组(discussion group)、兴趣组(interest group)、辩论会(conference)等等。

 

五、Gopher 信息资源

是一种基于菜单的网络服务,它为用户提供了丰富的信息,并允许用户以一种简单的、一致的方式快速找到并访问所需的网络资源。全部操作是在一级级菜单的指引下,用户只需在菜单中选择项目和浏览相关内容,就完成了对因特网上远程联机信息系统的访问,无需知道信息的存放位置和掌握相关的操作命令。

 

本节重点讲授:网特网上五种类型的信息资源。

 

第二章  因特网信息检索概述

 

    第一节网络检索的一般方法和工具

一、网络检索的一般方法

1.浏览

   (1)偶然发现

   (2)顺链而行

2.通过网络资源指南来查找信息

   (1)The Argus Clearinghouse (http://www.clearinghouse.net) 1 2

   (2)The www Virtual Library (http://vlib. org)123

3.利用搜索引擎进行信息检索

 

二、网络信息检索的特点

1.信息检索空间的拓宽

2.交互式作业方式

3.用户界面友好且操作方便

 

三、网络信息检索工具

1.网络检索工具的一般构成

(1)自动索引程序

(2)数据库

(3)检索代理软件

2.网络信息检索工具的原理

通过自动索引程序robot(或人工)来广泛搜集网络信息资源数据,经过一系列的判断、选择、标引、加工、分类、组织等处理后形成供检索用的数据库,创建目录索引,并大多以Web页面的形式向用户提供有关的资源导航、目录索引及检索界面。

3.网络信息检索工具

(1)Web 资源检索工具

  目录型检索工具(subject directory,catalogue)

  搜索引擎(search engine)

  多元搜索引擎(metasearch engine)

(2)非Web 资源检索工具

    Archie,Veronica等

 

本节重点讲授网络检索一般方法和各类检索工具。

 

第二节 搜索引擎概述

1     发展简史

1.Gopher 出现

2.1994年4月出现第一个搜索引擎--Webcrawler

3.1995年AltaVista和Excite问世

4.1996年HotBot出现

5.1997年Northen Light 出现

6.1998年Google 问世

 

2     搜索引擎的构成

1.搜索引擎的搜索程序,用于搜索和寻找网站和网页;

2.收集网页信息和收集来自其他资源的其他网页信息的数据库;

3.标引程序,用于标引数据库中的内容;

4.“检索引擎”

5.图像界面

 

三、典型搜索引擎主页的构成要素

1.数据库的选择

2.提问框

3.提问式修饰语的选择

4.到高级检索的链接

5.广告

6.网站目录(主题、频道、分类)

7.其他的各类入口

8.Help链接

 

本节重点讲述搜索引擎的构成。

 

第三章 网络信息检索的基本方法

   

    第一节常用的检索方法

一、布尔逻辑检索(boolean logic)

1.定义

所谓布尔逻辑(又称布尔代数),是指使用AND、OR或NOT 等运算符查找含有某种词语特定组配形式的那些网页(记录)。

2.布尔逻辑检索(boolean logic)

(1)逻辑“与”

用AND(或+)表示。A AND B  (A+B) ,网页记录中必须同时包含A、B两个词。

(2)逻辑“或”

用OR表示。A OR B ,表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。

(3)逻辑“非”

   用NOT (或-)表示。A NOT B (A-B),表示被检索文献在含有检索词A而不含有检索词B时才能被命中。

(4)括号检索功能

   用于说明词的分组或部分布尔逻辑式的执行顺序。

 

二、截词检索

大多数搜索引擎中,可以利用词根进行截词检索。

有些搜索引擎中,截词是自动完成的,而在有些搜索引擎中,则必须由用户规定使用截词,也就是要用截词符号(通常用“*”)代表截去的词根。

 

三、词组检索

词组检索是一个词组(通常用双引号“”括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。

 

四、临近检索(靠词检索)

运算符NEAR 可以容许两个词相距一定的距离,有时还可以由用户来规定它们之间的距离。

 

五、范畴检索

是指将检索限制在记录的一个特定部分或几个部分的能力。

一些有用、经常遇到的范畴下:

  1.Title(网页标题)

  2.Links(链接)

  3.Date

  4.URL

  5.图像和其他媒体

 

六、特殊检索功能

1    自然语言检索(natural language)

2    多语种检索

3    区分大小写的检索(case-sensitive)

 

第二节 关键词使用技巧

一、分析关键词

1.主题词

2.等同词

3.上位词

4.下位词

5.同类词

 

二、举例:

主题词+主题词

主题词+上位词

主题词+下位词

上位词+上位词

下位词例举搜索典

同类词列举搜索

 

三、分析关健词的作用

1.提高查全率

2.提高查准率

3.当你不知道自己要搜什么的时候

 

四、关键词使用的具体技巧

1.查询条件具体化

2.使用加号

3.使用减号

4.使用引号

5.使用OR

6.用一句话搜索

 

第三节 检索结果的显示

一、检索结果的显示

1.相关性

2.结果显示模式

 

二、影响检索结果相关性的因素:

1.检索词的数目

2.检索词在数据库记录中出现的位置

3.检索词所属的类目级别

4.检索词的权值

 

三、检索结果的显示形式

1.结果显示模式

2.简单链接或者摘要

 

 本节重点讲授:影响结果检索相关性的因素。

 

第四章  著名搜索引擎

 

第一节  著名搜索引擎简介

一、西文重要搜索引擎

1          Google

2          AltaVista

3          Excite

4          Hotbot

5          Infoseek

6          Lycos

7          OpenText

8          Webcrawler

 

二、中文重要搜索引擎。

1.百度

2.天网

 

2                         Google介绍

一、Google的工作原理

是一种“按被链接次数对记录排序”的搜索引擎,它将记录按被引用次数——亦即别的网页(特别是别的普通网页)引用(链接)这个网页的次数存放在极为庞大的数据库中。www.google.com

 

二、对Google的评价

1.优点

(1)采用“被引次数”排序方法,相关性排序性能极好

(2)在Google的输出中采用“暂存”选择,有时对查找以前检索的页面极为有用

(3)数据库非常庞大

(4)对从目录检出的记录进行良好的整合

(5)语言选择宽泛

2.缺点

(1)词命中率高

(2)范畴检索功能有限

(3)没有截词检索功能

 

三、Google 搜索技巧

1.基本搜索

(1)对搜索的网站进行限制

   “site”表示搜索结果局限于某个具体网站或者网站频道,或者是某个域名。如果是要排除某网站或者域名范围内的页面,只需用

   “-网站/域名”即可。

(2)在某一类文件中查找信息

用“filetype:”可以使Google能检索微软的Office文档,如.xls , .ppt, .doc, .rtf, .Wordperfect 文档,Lotus1-2-3 文档,Adobe的.pdf文档,Shockwave的.swf 文档等。

(3)搜索的关键词包含在URL链接中

“inurl”语法返回的网页链接中包含第一个关键词,后面的关键词则出现在链接中或者网页文档中。

(4)搜索的关键词包含在URL链接中

“allinurl”语法返回的网页的链接中包含所有作用关键词。这个查询的关键词只集中于网页的链接字符串。

 

三、Google 特色搜索

1.图像搜索

(1)互联网上最好用的图像搜索工具。

(2)支持的语法包括基本语法如“ ”、“-”、“OR”、“site”和“filetype:”。

2.目录检索

3.新闻组搜索

4.网页快照

 

本节重点讲授:Google的搜索技巧。

 

第三节  AltaVista  (www.altavista.com)

 

一、AltaVista检索语法

1.布尔逻辑检索

(1)简化的布尔逻辑:+,-

(2)完全的布尔逻辑:AND、OR、AND NOT、()

2.临近检索

3.范畴检索

4.词组检索

5.截词检索(在检索词的词根后加上星号表示是截词)

 

二、AltaVista使用者可以选择四个界面检索网络数据库

1.Search Home(检索主页)

2.Power Search (强效检索)

(1)在“Search Tools”页面中有一个链接,点击它,可以进入强效检索。

(2)结合了AltaVista的大多数的主页检索功能与高级检索功能,采用菜单形式

(3)在强效检索中使用完全的布尔逻辑时,不能进行相关性排序

3.Advanced Search (高级检索)

(1)只使用完全的布尔逻辑

(2)在输入两个以上不加修饰的单词时,将被看成是词组

(3)如果想对结果按相关性排序,要将词输入到“sort by”框内

4.Ranging Search (排序检索)

(1)非个性化的模式使用与检索主页方式相同的方法

(2)通过使用个性化页面,可以任选主页、强效和高级检索中的一种布尔逻辑。

 

三、其他可检索的数据库

1.图像

2.MP3/声音

3.音像

4.新闻

5.产品

 

本节重点讲授:Alta Vista的检索技巧。

 

第五章 元搜索引擎

 

1                     什么是元搜索引擎

一、元搜索引擎的概念

 

二、元搜索引擎的类型

1.搜索引擎目录

2.元搜索引擎

 

本节重点讲授:元搜索的类型。

 

2                     元搜索引擎介绍

一、DOGPILE (www.dogpile.com)

二、IXQUICK(www.ixquick.com)

三、MetaCrawler (www.metacrawler.com)

四、ProFusion (www.profusion.com)

五、Search.com(前称savvySearch)

 

本节重点讲授:五种元搜索引擎的功能。

 

3                     元搜索引擎的检索特性

一、元搜索引擎的检索特性

二、主要缺欠

3           何时使用元搜索引擎

4           “客户”元搜索程序

 

本节重点讲授:元搜索引擎的检索特性

 

第六章 网络资源目录

 

    第一节 目录型网络检索工具原理

1           目录资源的收集和分类

1.收集

网络目录一般采用人工采集和存储网络信息。目前,部分网络目录利用自动功能或者由用户递交的方式来丰富和补充资源。

2.分类

网络目录通常是按网络资源的主题性质进行分类,以某种分类体系为依据,将信息资源分为若干领域的主题范畴,然后再细分为各学科专题目录,最后列出具体的相关网站(资源),形成一个由信息链组成的树状结构,即总目——专题目录——链接——文本。

二、网络目录

1.网络目录结构

一个网络目录包括许多层,最高层(一级)目录页总是将因特网资源分成最大范围、最普通的主题范畴。主题链接到第二层目录(另一个页面),然后在第二层目录再分出子目录,一般到第四级。

2.网络目录分类方法

1                     主题分类法

2                     学科分类法

3                     图书分类法

4                     分面组配法

 

本节重点讲授:目录型检索工具的收集和分类方法

 

    第二节  目录与搜索引擎比较

一、目录与搜索引擎的不同

1.目录中的网页是由专家人工精选得来的,故网页内容丰富,学术性强

2.浏览方式直观易用,适合多数网络用户和新手

3.户检索目的不明确,检索词不确定时,分类浏览方式更为有效

4.高的查准率

 

二、目录之间的差异

1.方法不同

2.分类不同

3.界面不同

 

本节重点讲授:目录检索工具与搜索引擎的不同。

 

第三节  网络目录检索工具介绍

一、Yahoo!     www.yahoo.com

二、Galaxy   www.galaxy.com

三、The www Virtual Library (VL)   www.vlib.org

 

本节重点讲授:介绍上述三种检索工具的特点

 

第七章 其他各类搜索引擎

   

2           FTP搜索引擎

1.国外著名FTP搜索引擎

2.国内著名FTP搜索引擎

 

二、BBS搜索

1.Telnet 登录BBS

2.Cterm登录BBS

 

三、特种搜索引擎

1.Tile ( www.tile.net )

2.Look For you ( www.look4u.com/gb )

3.图行天下(www.go2map.com)

4.全球找工作引擎——Jobengine (www.jobengine.com)

5.幽默搜寻器——Humor ( www.humorsearch.com)

6.网上定点摄像站引擎——earthcam

7.看鬼(www.flyvision.org/sitelite/Houston/GhostWatcher/index.html)

8.看太空(www.in-search-of.com/frames/nasa/nasacams_static_160.shtml)

 

四、另类搜索高手

1.全能型搜索软件

(1)飓风搜索通(Speed Search)

(2)网际狂搜(HotSearch)

2.P2P类软件

(1)PP点点通

(2)eDonkey

(3)iMesh

 

本节重点讲授:介绍其他各类搜索引擎

 

三、教材与参考书

教  材:因特网信息资源检索与利用(第2版),清华大学出版社,符绍宏 等编著 ,2001年

参考书:Internet 通用搜索引擎检索指南,辽宁科学技术出版社,R·霍克著,2003年

 

四、作业和考核方式

作业:

1.  分组选取一个搜索引擎进行深入研究,提交报告并课堂做总结汇报。

2.  选取一个关键词对几个著名的元搜索引擎的检索结果进行比较分析,并提交报告

3.  比较课堂讲授的三个目录检索工具,提交分析报告。

4.  结合课堂讲授内容和网络信息检索实践,总结自己的检索心得和技巧,提交报告并做课堂发言。

考核方式:平时成绩占60%,考试(闭卷)占40%。

 

 

 


关闭本页
·武汉大学新闻传播学实验教学中心 Laboratory Center for Journalism & Communication, Wuhan University
·Copyright © 2004-2006. All Rights Reserved.
    This site conforms to the following standards: