24小时热门版块排行榜    

查看: 1982  |  回复: 32
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

buyiyijie

木虫 (著名写手)

[交流] [开放主题帖]我如何利用网络资源的简介

天津师范大学历史与文化学院      buyiyijie
从目前论坛的情况看,关于文献检索方面的知识,转载的人多,属于小木虫原创的东西少,这是我们亟待解决的一个问题。下面我把自己写的,用来讲文献检索课的一些东东(有的地方现在看来写得过于简单了)发出来,希望能促进我们的检索知识原创。当然里面有些句子也是转载的,尤其是某些例证,但都经过了我的思考和加工,虽然有可能是"活剥王昌龄,生吞郭正一。”
自己看看,不必大家转载来的差。

转载请注明作者buyiyijie,小木虫。

(一)检索的作用:
搜索专家的几句话:
搜索不是万能的,但没有搜索是万万不能的。
比搜集文献资料更为重要的是阅读、总结和创新。
对提高idea极有好处!尤其在提出科学的hypothesis中,很重要!不要忽视!
随着科学文献的数量增长和科学学科分类越来越细,大量的科学文献之间一定潜伏着未被发现的联系。这是人们都承认的事实,但是只有Swanson把这个事实证明了出来。Don R. Swanson是美国芝加哥大学的信息科学荣誉教授,他于1986年首次在医学文献研究中发现了这种关系的存在:雷诺氏病(A)是一种治疗方法和病因都未知的血液循环紊乱,有文献中记载了部分雷诺氏病患者血液中有某种异常,如血液粘度升高(B)。同时,又在其他文献中发现食用鱼油(C)能纠正这种异常,例如,它可以降低血液粘度。因此,他把这两种知识联系起来得出食用鱼油(A)应该对雷诺氏病(C)患者有帮助的假设[ ]。在这个假说提出大约两年后,有人通过临床实验证实了这一点。1988年,Swanson用他的方法提出了周期性偏头痛与镁缺乏之间的联系。后来这种关系也被临床证实。此后,他发现了很多具有隐藏的联系的例子,当时他的研究成果引起了人们极大的兴趣。人们首次认识到从文献中可以发现或者挖掘到以前未知的知识。
实际上对于社会科学也是如此,如何从浩如烟海的文献中寻找最为切题的资料,是一项非常艰苦的工作。有人以“没顶、游泳、冲浪”来形容对信息处理的三种境界。
信息检索的最本质,我认为是通过就检索,在各个信息节点之间建立有机的联系,形成自己的看法。
(二)搜索之前必须要做的准备工作
要对自己准备搜索的课题有一定的了解,主要目的是了解它的专业术语(关键词),
1、对该领域有较多介绍的中文成书(资料一般是比较老,如果是新书通常汇集了最近5到10年的主要研究内容和结果)读后可以对这个领域发展历史和近期状况有个全面的了解,一些专门的术语和英文单词也有了概念。
2、根据研究内容通查最近3年的中文期刊,主要是通过看综述了解最近进展和一些国外发表文章的人名和期刊名,还有国内做到什么程度了,为请该类项目打个基础。你可以知道国内那些同行在做这工作.如果碰到一些具体的细节问题的话,你可以联系他们,这便可以使你避免走不必要的弯路.
(三)搜索的大忌:
搜索大忌一:臆断关键词(无头苍蝇)。
根据上面的学习掌握的专业词汇,人名,期刊名查国外文献。我的体会是,如果你对自己专业的理解还达不到一定程度的话,那么一来就去查外文的文献往往找不出好东东,特别是一些关键词常有臆断的情况,导致检索效果不好。
搜索大忌二:关键词敏感度太低(溺水而亡)
搜索大忌三:关键词敏感度太高(至苛无朋)

[ Last edited by daijoan on 2005-1-22 at 12:00 ]
回复此楼
花明柳暗绕天愁,上尽重城更上楼。欲问孤鸿向何处,不知身世自悠悠。——【夕阳楼】李商隐
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

buyiyijie

木虫 (著名写手)

google和百度的使用、比较之我见

★ ★ ★ ★ ★
daijoan(金币+5):写得不错,辛苦了!
(三)推荐使用的搜索引擎,并对google、baidu进行比较
(我的一点体会,不对青提出来,大家讨论.)
随着网络的快速发展,它所能提供的有效专业资源已经越来越多。但是,从目前的情况来看,还有相当多的人不知道如何高效率的使用网络获取自己最需要的资源。究其根源,在于他们不知道如何使用搜索引擎。这种情况在宽带日益普及的今天尤为明显。下面,我结合自己使用网络的一些体会,谈一些粗浅的认识。
网络所体现的对信息处理的最高效能,一在于对信息的资源共享,二在于对信息的分类处理和检索。所以,作为网络搜素者所需要掌握的两项基本技能是:一、知道所要寻找的专业资源在哪里;二、如何在资源集中的地方进行检索与获取。
推荐使用的搜索引擎
如何找寻自己专业的网络资源,依靠的工具有两个,一是公用的、非专业的(或者说不是针对专业性检索)的检索平台,二是专用的资料或数据的检索平台,或者是收费或免费的专业数据库和网站。这里面的分类本身并没有一个严格的界限,因为第二个分类也离不开相应的检索。对于大多数普通用户来说,显然公用的、非专业的检索平台显得更为重要一些。在这里,我们主要介绍一下google和百度这两个搜索引擎的用法。
对于搜索引擎,推荐使用的是两个,一个是百度(www.baidu.com),一个是google(www.google.com)。在实际搜索中,这两个引擎是有着比较明确的分工的:百度主要针对的是国内搜索,google主要针对的是国外搜索。
我个人认为使用搜索引擎,实际上必须具备两项技能:搜索语法的掌握和关键词的选择。其中,关键词的选择与个人对所要寻找信息的理解程度有着直接关系(显然是另外一种“功夫在诗外”),这种理解是无法传授的。所以这里我们主要以介绍搜索语法为主。
下面我分别以google和百度的使用为例,把google和百度的常用语法做一简单介绍。相信学会google之后再看百度,上手应该更快一些。实际上,baidu与google之间是有着某种联系的。
一,        google的语法——
对于google的使用,语法方面可以分为基础语法和高级语法。
(一)基础语法:
1、在GOOGLE中,不是使用“+”来表示逻辑“与”操作,而是在关键词之间输入空格就可以了。 例如:搜索所有包含关键词“沂源”和“杜丽”的中文网页(注意:在这里的“”在本文中仅起引用作用,不能带入搜索栏内),可以直接在google的搜索栏中输入“沂源 杜丽”。 结果:已搜索有关约有 118 项符合沂源 杜丽的查询结果,以下是第 1 - 10 项。 (搜索用时 0.30 秒)
2、GOOGLE用减号“-”表示逻辑“非”操作。 例如:搜索所有包含“杜丽”而不含“沂源”的中文网页。搜索:“杜丽 -沂源” ,结果约有 47,500 项符合杜丽 -沂源的查询结果,以下是第 1 - 10 项。 (搜索用时 0.22 秒)  
   注意:这里的“+”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外,操作符与作用的关键字之间,不能有空格。如果将搜索词写成了“杜丽 - 沂源”,搜索引擎将视为逻辑“与”操作,中间的“-”被忽略。
3、GOOGLE用大写的“OR”表示逻辑“或”操作。例如:搜索包含许海峰“Xuhaifeng”或者杜丽“Duli”、或者两者均有的中文网页。搜索:“Xuhaifeng OR Duli” 。结果:简体中文 和 繁体中文网页中,约有 1,610 项符合Xuhaifeng OR Duli的查询结果,以下是第 1 - 10 项。 (搜索用时 0.41 秒)。如果搜索:“许海峰 OR 杜丽”, 结果:简体中文 和 繁体中文网页中,约有 61,400 项符合许海峰 OR 杜丽的查询结果,以下是第 1 - 10 项。 (搜索用时 0.21 秒)
关于此条语法,需要注意的有两点:第一,如果“OR”写成了小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询。 第二,如果关键字是中文时,查询似乎还有BUG(目前来看,google对中文的支持已经大大加强,bug出现的时候已经大大减少),有时无法得到正确的查询结果。 所以,这条语法更为适合搜索外文的相关资料。
另外,值得指出的是,上面任何一种基础语法都不是单一的,为了提高检索的效率,以上基础语法,可以结合起来使用。例如,“+”和“-”的作用有的时候是相同的,都是为了缩小搜索结果的范围,提高查询结果命中率。
例如:查阅四大金刚具体是哪四大金刚。分析:如果光用“四大金刚”做关键字,搜索结果“简体中文 和 繁体中文网页中,约有 21,400 项符合四大金刚 的查询结果,以下是第 1 - 10 项。 (搜索用时 0.09 秒)”,很难找到所需要的资讯。可以用两个方法减少无关结果。
(1),如果你知道四大金刚中的某一个,比如魔礼寿,增加“魔礼寿”关键字,输入:“四大金刚 魔礼寿”。搜索结果就只有228项,可以直接找到全部四大金刚。
(2),如果你不知道四大金刚的任何一个,但知道这与佛教相关,可以排除与西游记相关的记录,输入“佛教 四大金刚 -西游记”。查询结果为567 项,可以迅速找到需要的资料。
(二)高级语法:site,link,inurl,allinurl,intitle,allintitle
1、“site”表示搜索结果局限于某个具体网站或者网站频道,如淄博信息港“http://zbinfo.net/”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。 例如:搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面。 搜索:“金庸 site:edu.cn”结果:已搜索有关金庸 site:edu.cn的中文(简体)网页。共约有2,680项查询结果,这是第1-10项 。搜索用时0.31秒。
例如:搜索包含“金庸”和“古龙”的淄博信息港页面, 搜索:“金庸 古龙 site:zbinfo.net” 结果:zbinfo.net 的简体中文 和 繁体中文网页中,共有 5 项符合金庸 古龙的查询结果,以下是第 1 - 5 项。 (搜索用时 0.27 秒)。
注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http”以及“www”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。诸如“金庸 site:zbinfo.net /1/”的语法是错误的。
2、“link”语法返回所有链接到某个URL地址的网页。 例如:搜索所有含指向淄博信息港“http://zbinfo.net”链接的网页。 搜索:“link: http:// zbinfo.net”结果:约有 1,190 项链接到 http://zbinfo.net 的查询结果,以下是第 1 - 10 项。 (搜索用时 0.39 秒)。
注意:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被GOOGLE忽略。
3、inurl语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。 例如:查找mp3“十年”。 搜索:“inurl:mp3 十年” 结果:简体中文 和 繁体中文网页中,约有 2,920 项符合inurl:mp3 十年的查询结果,以下是第 1 - 10 项。 (搜索用时 0.65 秒)
注意:“inurl:”后面不能有空格,GOOGLE也不对URL符号如“/”进行搜索。GOOGLE对“cgi-bin/phf”中的“/”当成空格处理。
4、allinurl语法返回的网页的链接中包含所有查询关键字。这个查询的对象只集中于网页的链接字符串。 这条语法几乎成为寻找网站安全漏洞的必备知识。例如:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。 语法:“allinurl:"cgi-bin" phf +com” 搜索:简体中文 和 繁体中文网页中,共有 2 项符合allinurl:"cgi-bin" phf +com的查询结果,以下是第 1 - 2 项。 (搜索用时 0.32 秒)(这两个网站可是危险了哟!)如果搜索所有的网站,具有这一漏洞的是:约有 80 项符合allinurl:"cgi-bin" phf +com的查询结果,以下是第 1 - 10 项。 (搜索用时 0.38 秒)。此例中出现的“+”之语法留待文末加以说明。
5、与allinurl和inurl关系类似的还有allintitle和intitle,它们的用法也比较类似,只是前者对URL进行查询,而后者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。例如:查找日本明星铃木保奈美的照片集。 搜索:“intitle:铃木保奈美 写真” 结果:约有 4,800 项符合intitle:铃木保奈美 写真的查询结果,以下是第 1 - 10 项。 (搜索用时 0.20 秒)。
(三)GOOGLE的罕用高级搜索语法:related,cache,info
1、related用来搜索结构内容方面相似的网页。例:搜索所有与淄博信息港主页相似的页面(如网易首页,搜狐首页,中华网首页等),“related:http://zbinfo.net/”。 结果:约有 31 项与 http://zbinfo.net/ 类似的查询结果,以下是第 1 - 10项。 (搜索用时 0.48 秒)
2、cache用来搜索GOOGLE服务器上某页面的缓存,这个功能同“网页快照”,通常用于查找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的“网页快照”功能。
3、info用来显示与某链接相关的一系列搜索,提供cache、link、related和完全包含该链接的网页的功能。例如:查找和淄博信息港首页相关的一些资讯。 搜索:“info:http://zbinfo.net/” 结果:有关http://zbinfo.net/的网页信息如下。
淄博信息港-2004,感受网络新生活!
通行证:. 用户名:. 密码: 163169信箱. •网站地图, •网络导航, •网站链接,
首页, |, 新闻, |, 证券, |, 时尚, |, 教育, |, 娱乐, |, 游戏, |, 宽带, |, 音乐, |,
健康, |, 通信, |, 网上淄博, |, 灵通在线. ...
Google 提供这个网址的信息:
查看Google网页快照里zbinfo.net/的存档
寻找和zbinfo.net/类似的网页
寻找网页有链接到zbinfo.net/
寻找网页包含有"zbinfo.net/"
(四)对google搜索的其他几点说明:通配符、大小写、句子、忽略字符以及强制搜索
1、GOOGLE不支持通配符,如“*”、“?”等,只能做精确查询,关键字后面的“*”或者“?”会被忽略掉。
2、GOOGLE对英文字符大小写不敏感,“China”和“china”搜索的结果是一样的。搜索结果都是:约有 58,300,000 项符合。
3、GOOGLE的关键字可以是词组(中间没有空格),也可以是句子(中间有空格),但是,用句子做关键字,必须加英文引号。 例如:搜索包含“long, long ago”字串的页面。 搜索:“"long, long ago"” 结果:约有 67,000 项符合"long, long ago"的查询结果,以下是第 1 - 10 项。 (搜索用时 0.37 秒)
注意:在这条语法上, 原来GOOGLE对中文字串的处理并不十分完善。如果搜索“"啊,我的太阳"”,返回的结果中,“啊”、“我的”、“太阳”等词语是完全分开的。但现在,已经有了明显的进步,结果:约有 897,000 项符合"啊,我的太阳"的查询结果,以下是第 1 - 10 项。 (搜索用时 0.37 秒)  
4、GOOGLE对一些网路上出现频率极高的词(主要是英文单词),如“i”、“com”,以及一些符号如“*”、“.”等,作忽略处理,如果用户必须要求关键字中包含这些常用词,就要用强制语法“+”。 例如:搜索包含“Who am I ?”的网页。如果用“"who am i ?"”,“Who”、“I”、“?”会被省略掉,搜索将只用“am”作关键字,所以应该用强制搜索。 搜索:“"+who +am +i"” 结果:约有 1,260,000 项符合"+who +am +i"的查询结果,以下是第 1 - 10 项。 (搜索用时 0.32 秒)  
注意:英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。
二、百度的语法——
   百度号称是全球最大中文搜索引擎。在语法上,与google有相似之处,又有不同之处。但显然,百度的语法没有google的语法那么复杂。下面择其要而说明。
   1、在关键词逻辑“与”操作和“非”操作上,百度和google是相同的,空格代表两个关键词的逻辑“与”,“-”代表逻辑“非”,此处不作过多赘述。
   2、在关键词的逻辑“或”方面,百度使用的是“|”来取代google使用的“OR”语法。也就是使用"A | B"来搜索"或者包含关键词A,或者包含关键词B"的网页。例如:您要查询"杜丽"或"许海峰"相关资料,无须分两次查询,只要输入 “杜丽 | 许海峰”搜索即可。 结果:找到相关网页约69,000篇,用时0.218秒。但是,需要注意的是千万不要把空格漏掉如果输入“杜丽|许海峰”,得到的结果却是:找到相关网页约3,870篇,用时0.057秒。显然,不加上空格,就成了搜索两个关键词必须同时出现的网页。关于这种区别,读者可以自己体会一下。
   3、google也可以使用"site:"语法,功能与google是完全一样的,尽管结果可能有所不同。值得注意的是百度与google在"site:"语法上有所不同:site后的冒号":"可以是半角":"也可以是全角":",百度搜索引擎会自动辨认。除此之外,则没有差别。
除了"site:"语法外, "intitle:"、 "inurl: "搜索语法,百度也相同于google,这里就不再重复介绍了。
   以上大体介绍了google和百度的搜索语法,除此之外的搜索引擎还有很多,例如yahoo, Alta vista, 和Excite等等,有兴趣的同志可以自己摸索。有位搜索界的前辈曾经说过“倘能善用搜索,足以改变世界”。希望大家活学活用,掌握更多信息,了解行业发展趋势,从而更有利于自己的工作。

[ Last edited by buyiyijie on 2005-1-21 at 09:13 ]
花明柳暗绕天愁,上尽重城更上楼。欲问孤鸿向何处,不知身世自悠悠。——【夕阳楼】李商隐
3楼2005-01-21 09:11:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 33 个回答

nicevoice

1

信息检索博大精深,值得我们为之付出热血和青春!
我的这个帖子也是原创,推荐给大家参考参考:http://muchong.com/bbs/viewthread.php?tid=64327&fpage=2
2楼2005-01-21 09:08:19
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

buyiyijie

木虫 (著名写手)

google在学术上的应用。

★ ★ ★ ★ ★
daijoan(金币+5):支持原创,学习ing
Google在学术上的具体应用:如何在google上寻找免费学术论文
目前绝大多数论文在网上是以pdf或者ps文件形式存在,也有少量的doc文件,google的长处就是如果上述文件不是用扫描图片转换而来,那么google能够搜索上述文件内的东西,这样,google是搜索论文的最佳工具。
一、关键词:
1、直接输入文章篇名,两边都加上引号,引号不加的话会有很多噪声。这样的关键词定位目标是直接找到该论文。
2、直接输入作者姓名,最好是first name 和last name都加,如果是几个作者合作的,那么分次搜索。这样搜索的目的是找到作者的主页,希望在作者主页上找到论文。现在的很多作者喜欢把自己的论文放在网上,尤其是近年完成的论文,虽然大多数是放working paper,但是一些作者乐意把已发表的文章放在主页上。
二、论文的主要存放地:
上面已经提到过,免费下载论文的一个来源是作者的主页,但是,以我自己的搜索经历看,最重要的来源是所谓的syllabus(课程提纲)或者reading list,有些老师在向学生提供课程大纲时,出于对学生的体谅,把指定的论文放在了课程的主页上,所以,一旦你的搜索指向了一个syllabus或者reading list,你应该过去看看哪里有没有链接,把你鼠标的“手”放在链接上,看看浏览器状态栏显示的链接指向,如果是与主页拥有人地址类似的(注意,一些老师是把链接指向jstor的,等于没有用),bingo!
用这种方法搜索往往很累的,因为可能你看了10个搜索结果,却一无所获,但是,好处是,如果你找到了一篇,往往意味着你找到了一大群,而且是与你目标论文相关的一大群!即使是一无所获,你也找到了目标论文的相关阅读书目。
一旦你在某个人的主页上的syllabus或者reading list可以下载他人的已发表论文,那么你还应该上一层,看看该老师的其他课程,理由是,如果一个人做了善事,完全有理由相信他会继续做善事,他也会在他讲授的其他课程的syllabus中提供下载!
三、其他
很难说是先搜索篇名好还是先搜索作者好,我的做法是,先输入文章名,如果文章名太短或者太常见,那么再加上作者的姓,以剔除不必要的结果。查看2-3页的结果,如果没有,转入搜索作者主页,如果还是没有,再回到篇名,查看剩余的搜索结果。现在的google的cache功能给屏蔽了,带来了一些效率损失,但总比以前封锁好。
实例1:前两天有网友寻找:Jeremy Greenwood, Boyan Jovanovic,Financial Development, Growth, and The Distribution of Income
在google上搜索“Financial Development, Growth, and The Distribution of Income”,别忘了加引号,看了两页的搜索结果,没有。转变策略,搜索Jeremy Greenwood,第一项就是他的主页,在主页上就有这篇论文。
实例2:假定要搜索Kydland,Prescott,"Rules rather than discretion: The inconsistency of optimal plans", JPE,Vol.87
在google上输入"Rules rather than discretion: The inconsistency of optimal plans",他的第5个结果是:
ECONOMICS 541
... (b) Sustainable Plans and Mutual Default, by Chari and Kehoe. (c) Rules Rather
than Discretion: The Inconsistency of Optimal Plans, by Kydland and Prescott. ...
www.courses.rochester.edu/caucutt/ECO541/ - 8k - 网页快照 - 类似网页
“ECONOMICS 541”及其后面的文字表明这是一个课程大纲,进入一看,^_^,收获不小吧?!
也许,你还觉得不过瘾或者很空闲,浏览器显示的链接是http://www.courses.rochester.edu/caucutt/ECO541/,用退格键把后面的几个字删了,变成http://www.courses.rochester.edu/caucutt/,进入,显示还有几个课程,你可以进去看看,不过油水不大了。
一件趣事:一次,google显示有目标论文的pdf文档存在,而且我也通过google的链接打开了,可是那个html页面上就是没有任何链接,我无意中采用flashget下载全部链接,才发现作者把链接都做在了句号上,很不起眼,呵呵,智力大挑战。
花明柳暗绕天愁,上尽重城更上楼。欲问孤鸿向何处,不知身世自悠悠。——【夕阳楼】李商隐
4楼2005-01-21 09:14:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

buyiyijie

木虫 (著名写手)

科研检索中两个最重要的理念,偶以为

★ ★ ★ ★ ★
daijoan(金币+5):的确是这样
科研检索中两个最重要的理念,偶以为
1、科研资料的共享精神最可贵
2、永远高于文献检索的是科学研究,切不可本末倒置。
经常上网的虫子对于第二条要认真反思。以免深受其害。
花明柳暗绕天愁,上尽重城更上楼。欲问孤鸿向何处,不知身世自悠悠。——【夕阳楼】李商隐
5楼2005-01-21 09:29:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见