| 查看: 165 | 回复: 0 | |||
| 当前主题已经存档。 | |||
[交流]
[转载]中文搜索引擎的特点
|
|||
|
中文搜索引擎必然会与国外的搜索引擎有所有同,如果不首先认识到中文搜索引擎的特 点,就不能正确地作出比较。 中文搜索引擎的特点 内码:由于历史与政治的原因,目前两岸三地在中文语言的使用上逐渐有了较大的差别 ,体现在计算机处理上也有很大的不同,其中最重要的区别是采用不同的字符集及内码 体系,大陆用的是GB码,而台湾则用的是BIG5码,字符集的大小也不尽相同。作为一个 要涵盖网上中文信息的中文搜索引擎就不能不正视这个问题,想办法去解决这个问题, 如在搜索引擎内部将其统一在一个内码体系中(如UNICODE)或者是一个大字符集中(如 GBK)等。 分词:西文单词的分隔相当清晰,用空格分隔。而中文的字词则不能简单地进行分隔, 因此造成传统上就有不同的处理方法。一个是完全单汉字全文检索,即将文章中的每一 个汉字都做进索引,而将用户的检索提问根据单汉字匹配的原则去进行检索。此法虽然 能够保证有很高的查全率,但却经常返回一些杂乱无章的检索结果。所以说,这是较容 易造成答非所问的处理方法。除此以外的方法则是根据一定的原则和方法来对文章进行 自动分词,然后按词建库,对用户的检索结果按词汇匹配来进行查询。一般来讲,这种 处理方法较容易返回符合用户检索词概念意义的检索结果,但是分词技术的好坏直接影 响到查全率。从目前中文搜索引擎实际情况来看,绝大多数的搜索引擎采用分词的处理 方法,因为这样除了较准确之外还能提高整个系统的检索响应效率。 中文分词的另一层意义是指的是,对于用户输入的查询语句进行自动分词,然后用分解 后的词汇来进行检索,这种做法降低了用户在检索式组织上的工作量,提高了查全率和 查准率。由于各搜索引擎在建库时是否分词,以及如何分词,这在检索界面上很难以作 出判断,因此下文中关于中文分词的讨论一般是指对于用户的检索式自动进行分词。 分类:除了专门的分类搜索引擎(如Yahoo等)之外,大量的关键词搜索引擎也采用了 以分类目录进行导览的方法。这一现象在中文分类搜索引擎中更为普遍。但是由于文化 的差异,中文搜索引擎分类类目具有与国外搜索引擎分类类目不同的特点。如何来更好 地发挥中文文化的特色,以期来更好地做好网上中文文献的指引,这是一个值得进一步 研究的问题。 2.中文搜索引擎评价 以下将按关键词搜索引擎与分类搜索引擎两大类型来介绍一些较有影响的中文搜索引擎 。需要指出的是,这样的区分方法仅仅是为了介绍的方便,并不是绝对的区别。目前的 搜索引擎,尤其是中文搜索引擎有互相融合的趋势,关键词搜索引擎与分类搜索引擎通 常是我中有你,你中有我,国内的关键词搜索引擎大多又建有一个分类库。一般来讲, 我们将由网上机器人(Spider或Robot)自动收集网页建库,而检索又以全文检索为主的搜 索引擎归入关键词搜索引擎;而将主要由人工维护建库,以分类导游或分类摘要查询为 主的搜索引擎归入分类搜索引擎。 本文对搜索引擎的讨论顺序不包含任何评价意义。 2.1 关键词检索站点 ChinaByte CSEEK CSEEK的检索功能非常强劲,除了国外的搜索引擎,它可能是我们评价的中文搜索引擎 中检索功能最强的一个,因为它使用的搜索引擎核心是非常成熟的商用软件verity。但 正因为其功能强劲且有些复杂,要充分利用到其强劲的检索功能,用户必须详细阅读其 帮助页面,这对于普通用户来说有些勉为其难。 CSEEK的界面虽然也算清晰明了,但 在 其页面上缺乏对于其检索功能的简单描述或者是一些辅助选项按钮,不能不说是一个小 小的缺憾。 作为一个新兴的中文搜索引擎,CSEEK的发展速度还是相当快。在今年五月上旬,我们 初次考察这一搜索引擎时,其库内网页数28万页。而当七月上旬我们再一次考察这一搜 索引擎时,其库内网页数已发展为近56万页。 象大多数的关键词搜索引擎一样,CSEEK也有一个分类库供用户查询,但此库显然是疏 于管理,缺乏更新,每一个子类最多为30条网页。另外其结果显示中的网页摘要由于是 由其搜索引擎按一定算法自动生成,虽然说有时比单纯引用前几行文字要更具有说明意 义,但有时也使人莫名其妙。 网易 网易公司以其提供的一系列服务见长,如免费主页、免费EMAIL都在国内具有一定的影 响。它的搜索引擎也是颇有特色,它先将用户的检索式在自己的分类库中进行查询,如 果没有检索出结果,系统将自动将提问式转向全文数据库进行检索。如果在分类库中检 索出结果,用户对检索结果不满意,可以直接按检索结果页面底部的全文检索按钮,继 续在全文库中进行检索,这对于一个非专业用户来说是非常实用的一种检索策略。 另外,网易的分类库也是做得相当不错(其分类类目与方法大致上与哇塞相同),这 比 许多带分类库的关键词搜索引擎要好。网易的功能简单、使用方便,并且提供一定的模 糊检索功能,这也是非常能吸引普通用户的功能。网易的界面清晰,反应及库容量也是 可以接受的。 天网中英文搜索引擎 天网是由CERNET在北京大学设立的一个较优秀的中文搜索引擎,主要以CERNET的网页信 息为主。作为国内自行开发的搜索引擎,具有一定的水准。它象很多国外的优秀搜索引 擎一样,系统不仅提供WWW网页的查询,同时也提供对新闻组(Newsgroup)内容的查询。 天网将用户的检索式进行自动分词,然后进行检索,这一点和下面介绍的悠游搜索引擎 是一样的。同时天网还提供模糊匹配检索模式,在模糊匹配中,系统不仅检出用户表达 式中的关键词,并且将其同义词也一并检出。 天网还支持通过EMAIL的检索,即用户可将检索式通过EMAIL发送检索提问式,而天网搜 索引擎通过EMAIL回送检索结果。同时天网还提供对ftp.pku.edu.cn , ftp.lib.pku.ed u.cn , ftp.ncic.ac.cn ,ftp.igd.edu.cn等FTP服务器的FTP文件检索。 但作为位于北京大学的优秀站点,天网搜索引擎似乎经常受阻于网络交通或机器瓶颈, 在正常工作时间内进行检索时,经常出现超时错误,这在一定程度上影响了它的实用性 。另外也可能由于面向国际的缘故,天网的缺省主页面是英文页面,这也给国内的用户 带来了小小的不便。 OMRON上海热线搜索器 OMRON上海热线搜索器使用的是与ChinaByte的CSEEK同样的搜索引擎内核Verity,因此它 的总体特征与CSEEK并无二致。但作为一个主要以上海热线信息为主的实验性站点,也可 以说是OMRON公司的广告站点,它的优点不会比CSEEK多,缺点却不会比CSEEK少。 悠游中文搜索 较有影响的一个搜索引擎,充分体现了两岸三地的特色。它原先由美国、北京、重庆、 香港四个网站组成,最近又增添了上海网站,同时台湾的网站也已推出。悠游每一个网 站充分考虑到两岸三地的特点,所以每一个网站都有GB与BIG5两种页面,并且两个页面 的内容还考虑到不同用户的需求而有所不同。同时各地网站主页面还有本地新闻等其他 信息。各地网站还推出不同的服务内容等等。除了关键词检索功能而外,悠游也提供了 一个简单而排版清晰(类似于Yahoo风格)的分类库。 除了网页搜索以外,悠游搜索引擎还提供了网址(URL)查询功能。 另外悠游搜索引擎很有特色的一点就是它能够将用户的检索式进行自动分词,然后再 进 行检索。因此用户在输入检索式的时候,可以按照自己的习惯直接输入,但有时用户键 入一个长的检索式的话,常会检索出一大堆检索结果。 但是悠游搜索引擎在主页上未提供任何帮助信息,对于用户来说多有不便,用户只有在 进入分类检索时才能找到一个帮助链接,但其帮助信息也写得较为简单,参考价值一般 ,搜索引擎本身也不支持什么逻辑检索的功能。 茉莉之窗 这是我们评价的中文搜索引擎中仅有的一个香港站点。它是由香港中文大学建立的一个 中文搜索引擎,收录了中国大陆与台湾两地的WWW网页,其中以台湾的网页居多一些。 但是茉莉之窗的英文界面,以及同样是英文的帮助页面对于广大的中国用户来说就显得 不是很方便。另外,除了网址检索功能外,其网页检索功能也显得单一了些。 盖世搜索引擎 由台湾中正大学的吴升教授领衔开发的一个相当有影响的中文搜索引擎。盖世搜索引擎 的英文主页面同时有四个链接,分别链接至它的目录服务,WWW网页的检索,BBS资料库 检索与FTP检索,提供的检索服务不可谓不多,这一点和国外的搜索引擎倒是有点相象。 另外作为一个自主开发的引擎,盖世提供的检索功能也颇为方便和强劲,它的模糊匹配 功能同样能将用户的检索词自动分词后再行检索。 盖世搜索引擎使用了英文的主页面,它的WWW页面检索与分类库导览页面是中文的。 在笔者撰文的时候,吴升教授又领衔开发了一个新的搜索引擎,声言此搜索引擎并不以 中文为目标,而是要以支持多种语言的内核见长,直接与国外的搜索引擎竞争。有兴趣 的读者可以去领略一番,其网址为:www.openfind.com.tw 。 Seednet 搜索引擎 Seednet 搜索引擎是台湾搜索引擎中检索功能独树一帜的搜索引擎,几乎支持所有常用 的逻辑检索功能外,支持中英文混合检索,支持英文的通配符等等,检索功能相当强劲 。另外值得一提的是,它在检索结果显示中采用的直接跳转的技术。目前几乎所有的搜 索引擎,包括国外最先进的搜索引擎,都采用在页面显示直接链接各结果显示页面的方 法来显示检索结果,由于不可能在一个页面上直接显示几十个甚至上百个链接地址,因 此检索结果的显示大多受限于几百条或上千条记录。而Seednet 搜索引擎采用下拉式菜 单的方式直接显示检索结果页面,用户可以直接跳转至任一个页面的结果显示,这对于 用户评价自己的检索结果是相当有帮助的。 AltaVista中文搜索 关于AltaVista英文搜索引擎前文已介绍过了。它在今年五月,紧随Yahoo之后推出了 中 文搜索,不能不说其是认识到了中文搜索这一市场的重要性。由于AltaVista的实力和技 术,所以它的中文搜索在库容量及响应速度令其他中文搜索引擎难以匹敌。但是也由于 它的核心不是为非西文语种所准备的,所以它在推出中文搜索的时候也偷工减料不少, 最主要的是不支持它的高级检索功能,不能运用其一些强劲的逻辑检索特性。另外它为 了方便中文用户的使用,在中文检索的页面上做上一个光秃秃的中文输入条,而其他的 提示与帮助又都是英文的,所以实际上也没给中文用户以多少方便。但是,不管它现在 在支持中文搜索上还有这样那样的不足,并由于它一流的技术与硬件,我们认为它的推 出是对其他中文搜索引擎极大的挑战。 2.2 分类搜索引擎 搜狐 搜狐的主页也许就象它的名字,花哨而令人摸不着头脑。它的主页上提供了许多相关 信 息、广告等等,相对于它相当及时的新闻更新来说,它的库更新间隔就显得稍微慢了一 些,同时库容量的限制也使其参考价值不大。 搜狐的分类库组织的更象一个精心组织的导航库,对于一个想在网上浏览的新手来 手有 一定参考价值。 在搜狐的主页上,我们同样找不到任何对检索有益的帮助信息,所以我们同样无从 判断 其对逻辑检索功能的支持等等。 搜狐输出结果不分页,如果用户的检索结果很长的话,那就会等来一个很长的页面 ,也 许是搜狐一般不会返回一个很长的结果,所以这个问题也就很少成为问题了。 指南针 指南针的数据库主要以收集中国教育和科研计算机网(CERNET),ChinaNet,中国科技 网(CSTNET),中国金桥网(ChinaGBN)等网络上的信息资源为主。 指南针很有特色的地方是它的多样化输入方式和多个分类体系。 指南针支持中文GB输入,中文BIG5码输入,英文翻译输入以及拼音输入,给用户在 输入 时提供了多样化的选择与方便。 它的分类体系有普通分类和学科分类两种,同时它还保留了它的旧版分类体系。它 的学 科分类在网上搜索引擎中是少有的,它将自己的分类库分成58个学科类目,供用户从学 科角度来按图索骥。大大方便了相当一部分专业用户。 指南针目前第一要做的就是扩大库容,从一个区域性较强的中文搜索引擎转而成为 面向 整个中文网络信息的中文搜索引擎。 华好网景、四通利方、我是野虎、天涯若比邻 将上述四个搜索引擎放在一起评述,并不是因为它们有什么缘源关系,也不是因为它 们 有非常相似的特色,仅仅是因为相对于其他搜索引擎来讲对它们的评述较为困难。它们 都是中文搜索引擎的后起之秀,水平也比较接近,没有什么突出的优点,也没有什么特 别的缺点。也许是受限于人力、资金、技术等各方面的客观原因,它们的库都较小(野 虎稍多一些),某种意义上讲它们更象导航站台,检索功能也比较简单,界面设计也比 较一般,分类立意也没有什么特别之处。 在国外有许多小的搜索引擎,或是地区性的,或是专题性的,而国内走这条路的并不多 ,大家都在搞小而全,其实中文搜索引擎也可以走走这一条路,从一点出发然后逐渐走 向全面,这也许是比较现实的策略。如果大家还是搞任何东西都是要上一起上的话,最 后又囿于各方面条件限制,谁也不是搞的很好,长此以往对守住中文搜索引擎这个阵地 并没有什么好处。 蕃薯藤中文搜索引擎、哇塞 中文搜索引擎的发展由于有一个不断积累的过程,所以因为起步较早,技术与资金条 件 可能也更好一些,台湾地区的中文搜索引擎尤其是分类搜索引擎明显走在国内同行的前 面。 蕃薯藤与哇塞的共同特点是界面非常清晰,不象国内的分类搜索引擎那样过于繁复且 尽 是广告。从界面设计来看,哇塞是笔者认为所有这些经考察的中文搜索引擎中界面做得 最干净的一个,清晰利落,颜色配比也颇具匠心,令用户阅读起来相当方便。哇塞另外 用清晰的小图标标明“酷”和“新”的站点,也使用户感到既非常实用又体贴备至。 蕃薯藤的检索功能做得更强一些,它的通配符检索功能也使它在检索上比较方便用户。 在此要指出的是,中文检索的通配符与西文检索的通配符用户不同。在西文检索中,通 配符的作用是能让用户检索出包含一个词不同时态和用法的结果集。而在中文检索中, 通配符可以替代任何字符,较类似于相近检索(NEAR),或者说比相近检索功能更丰富 一些,因此中文检索中的通配符功能还是相当实用的。 雅虎中文搜索 关于雅虎西文搜索引擎,前文已作了介绍,这里毋庸赘述。与AltaVista搜索引擎不同 的 是,雅虎中文搜索引擎大体上保留了原来的特色,并且根据中文的特点作了一些改进。 比如,雅虎的一大特点是它精致的分类体系,雅虎中文保留了原来的主分类,而在细目 上又根据中文的特点作了改动,重新规划分类,由于目前网上中文信息不是很多,因此 中文分类比原来英文分类小很多,感觉上雅虎的库容量目前还太小,但仍不失精致实用 的特色。 中文雅虎与英文雅虎界面基本一致,也保留了原有的许多特色。这多少令众多雅虎 的拥趸者感到欣慰。 由于目前网上中文信息的特点,雅虎实际上是为GB与BIG5准备了两套人马,两套服务器 。因为实时更新及地区特色上的原因,在GB与BIG5库中经常会有一些小小的差别。另外 ,雅虎中文搜索引擎的缺省中文域名指向BIG5的服务器(chinese.yahoo.com),而GB码的 服务器域名为:gbchinese.yahoo.com 这也许正是因了杨致远先生所说的:“大陆也许是最重要的市场,但就先后次序来说却 是最末一个。” (转自南京大学bbs) |
» 猜你喜欢
之前让一硕士生水了7个发明专利,现在这7个获批发明专利的维护费可从哪儿支出哈?
已经有9人回复
心脉受损
已经有6人回复
博士申请都是内定的吗?
已经有8人回复
博士读完未来一定会好吗
已经有32人回复
读博
已经有5人回复
投稿精细化工
已经有4人回复
高职单位投计算机相关的北核或SCI四区期刊推荐,求支招!
已经有4人回复
导师想让我从独立一作变成了共一第一
已经有9人回复
Springer期刊投稿求助
已经有4人回复













回复此楼