| 查看: 507 | 回复: 4 | |||
| 当前主题已经存档。 | |||
[交流]
[原创]关于site 命令 和 inurl 命令之我见 (修改版)
|
|||
|
关于site 命令 和 inurl 命令之我见 上次文章大概谈了一下我对搜索的初步理解,随着对搜索的兴趣的增加和接触的增多,渐渐的看了9238前辈的很多文章,特别是他的《关键词 等同词 同义词 上位词 下位词》的文章,呵呵,多年前的文章现在还是指导着我啊。接着又看到了《抛砖引玉之六:搜索基础site篇》,呵呵,认真的精神鞭策着我,这次我说说自己关于site 命令 和 inurl 命令的一点看法。以下的实例基本上是发生在百度。 看之前请先搞清楚①Site命令在百度中的用法,意义的简单介绍以及inurl命令在百度中的用法,意义的简单介绍,请参考http://www.baidu.com/search/page_feature.html#09 ;②什么是一级域名和二级域名,请参考http://heima.heima.com/web/Page1 ... umnno=0&rowid=1 1、百度帮助中关于site命令讲的不够详细,site命令后面既可以跟网站的一级域名又可以跟网站的二级域名。在百度里输入:site:e23.cn和site:www.e23.cn(百度对中文标点的支持和英文标点的支持是一样的), 前者找到相关网页约47,700篇,后者找到相关网页约1,740篇,收录的数量为什么会不一样呢?根据对site的意义和两个命令不同结果的仔细观察,我们不难发现前者命令中有sms.e23.cn/sms/, bbs.e23.cn 中的内容;而后者的结果中只有www. e23.cn的内容;因此当你输入site:www.e23.cn时候,百度只会把url为www.e23.cn,也就是e23的一级域名在百度中被收录上的相关信息呈现给你;而当你输入site:e23.cn的时候,百度不仅会把url为www.e23.cn上的信息还有bbs.e23.cn的信息等其他一切关于e23.cn的一级域名的信息和二级域名的信息呈现给你,这就是两者的区别。当用site 命令时,在前几步中,最好是用site:e23.cn而不是site:www.e23.cn因为前者的获得的范围比后者广,避免在一开始的时候遗漏掉想要的信息,除非你有什么特殊的要求。当site命令前是空白的话就会默认查询 site后网站所有的一级域名和二级域名信息在搜索引擎中收录的情况,google,百度,一搜,中搜,新浪都支持site前是空白的搜索;sohu不支持; 2、在清楚site:e23.cn和site:www.e23.cn的区别之后,我就想用site:e23.cn搜索得到的结果,能不能用inurl命令来替代找出同样的结果呢?如果能,那有site命令了,又出现inurl命令,两个命令之间在结果上又有什么区别了?我们一起来解决这个疑问。我们用inurl:e23.cn搜索,呵呵,发现百度好像短路了,在google上搜,35,600 项符合inurl:e23.cn的查询结果;共有 35,700 项符合的查询结果site:e23.cn ,理论上前者的结果应该比多啊,至少不能少才对,因为site:e23.cn -inurl:e23.cn 是互相矛盾的命令,所以我就只能一页一页翻,试图找出相差的100页到底是怎么回事,当看到101页时,情况发生了变化,结果也只有35,600 项符合site:e23.cn结果,差点没把我气昏,唉,我想可能是google服务器不问题吧,别的我实在不知道如何解释。我再试一下,把搜索页面选为“搜索所有中文简体网页”,结果inurl的结果比site的要多。其实inurl:e23.cn 理论上结果应该比site:e23.cn 多!因为还有像 chat.e23.cn:8900 、enabler.systemsoft.co.jp/ root?fp_mode=body&fp_url=sms.e23.cn 之类的网页存在。(另外,选取e23.cn做搜索试验对象不很恰当,因为还有e23.com.cn存在,这个例子有点特殊)这样就能很清晰的看出他们的区别。Inurl命令找到的结果较为全面些,site命令结果较为正式些,像别人引用的网页不会出现。 3、这两个命令在特定的范围内再次缩小搜索范围都非常有用,使搜索的结果更准确,搜索的过程更快速。 例如我想找在百度中找些中文的俄罗斯网站,当输入命令inurl:ru 分析结果中两个项 www.glasscontec.ru/client/ru/、 www.white-collar.net/01-author/r/02-ru_zj发现无论“ru”出现在url中的什么位置,都被计算进进去了,甚至根本不是我想要的结果:svn.clkao.org/svnweb/freebsd/log/cvs/trun这个结果最让人啼笑皆非,就是因为结果中的“trun”有“ru”呵呵,电脑是不是太蠢了。当使用site:ru命令时,再分析结果中的两项 http://pikkunipsu.newmail.ru/ 、electronics.car-electronics.weststore.com.ru 都是域名为ru 的结果,从某种意义上说这才是我们真正想要的结果。 4、inurl: 小结:第一步选好代表自己想要信息的关键词,范围可以大点,避免遗漏,接下来慢慢的缩小搜索的范围,力图使不断缩小范围的结果与自己想要的有效信息重合,上面的两个命令非常有用,多多练习。学搜索爱搜索用搜索改变生活。 (ss3721) |
» 猜你喜欢
计算机、0854电子信息(085401-058412)调剂
已经有5人回复
国自然申请面上模板最新2026版出了吗?
已经有13人回复
基金委咋了?2026年的指南还没有出来?
已经有3人回复
Materials Today Chemistry审稿周期
已经有5人回复
溴的反应液脱色
已经有7人回复
推荐一本书
已经有12人回复
基金申报
已经有4人回复
纳米粒子粒径的测量
已经有7人回复
常年博士招收(双一流,工科)
已经有4人回复
有没有人能给点建议
已经有5人回复
2楼2005-09-06 20:24:45
3楼2005-11-16 10:26:20
笨笨鸟
荣誉版主 (知名作家)
good good study, day day up
- 应助: 0 (幼儿园)
- 贵宾: 14.5
- 金币: 4277.2
- 帖子: 9961
- 在线: 2.9小时
- 虫号: 73271
- 注册: 2005-06-06

4楼2005-11-18 19:33:05
0.5
|
5楼2005-11-24 15:04:14











回复此楼