搜索引擎为何找不到网上存在的内容

   网上的信息浩如烟海,为了在最短的时间内找到所需的资料,我们都会借助搜索引擎来帮忙。目前各大搜索引擎都正在不断改进搜索技术和拓展搜索功能,从而让我们使用更加容易和方便。尽管如此,我们还是经常发现有些内容,网上明明存在,但是你用搜索引擎却搜不到(其中也包括这样的情况:虽然得到的搜索结果不少,但并不是所要的资料)。究竟是什么原因造成这种情况?
    原因一:选用了不当的搜索引擎进行搜索
    要快速检索到有用的结果,选用合适的搜索引擎不但可以让你事半功倍,而且还可以让你少走弯路。当前的社会分工变得越来越精细,就连搜索引擎也毫不例外,各类专业和特殊的搜索引擎正不断应运而生,任何一个搜索引擎也不能面面俱到,即使是号称无所不能的Google也会有束手无策的时候。但现在不少朋友都有这样的问题,就是完全不理会搜索的内容如何就喜欢直接用Google搜索,真的把它当作万能的“仙药”,这样碰壁的机会自然就增多了。可以这样说, Google本身也在不断成长和改进,因为它在不少领域也是无能为力的。
    对策:首先,我们要对将要搜索的内容作出合理评估。看看搜索的信息是否比较冷僻,是否需要使用专用的搜索引擎?当使用流行的搜索引擎不能查找合适的资料时,考虑当前的搜索引擎是否适用,是否需要转用其它搜索引擎再尝试。另外,平时也要多了解搜索引擎的动态并做好收集和整理工作,这样使用起来才能得心应手。
    原因二:错误使用搜索关键字
    使用正确的关键字就等于搜索成功了一半。这里提到错误使用搜索关键字有两重意思:其一是没有充分理解和领会所要搜索的内容,以致错误使用关键字,例如新年到处都有人说“龙马精神”,但龙马是什么意思呢?如果不经思考,直接在Google中(本文除特别说明外,所介绍的使用方法以Google作为搜索引擎,下同)直接使用“龙马 是什么意思”作为搜索关键字,则会得到毫无意义的结果,但只要想想,这个问题似乎应该与一些典故有关,再用“春节龙马 出自”进行搜索,则第一结果就是答案了;其二是使用了错别字。如果你所使用的关键字中含有错别字当然就不能准确找到想要的结果了。同样,如果网页作者使用了错别字,但你使用正确的拼写方法进行搜索也无法得到令人满意的结果。
    对策:首先,要养成思考的习惯,学习分析问题,看看所要搜索的内容与哪方面的联系比较大,然后再决定使用关键字。至于错别字的问题,尽管没有特别有效的办法,但也可以尝试查字典、思考使用习惯来推测常用拼写方法来对付。如果每当你觉得某种内容网上应该有不少、却搜索不到结果时,你应该先查一下是否有错别字。
    原因三:没有正确分词
    就算搜索引擎的搜索技术多么先进,但它始终是程序,不会领会你的意图,只是很机械地从数据库中检索你查询的资料。所以当输入一些类似“北京到重庆列车时刻表”的搜索关键字是不会找到结果,因为搜索引擎的数据库中没有这样的关键词,这就需要我们进行合理的分词。众所周知,我们所使用的中文文本是没有类似英文空格之类的显式表示词的边界标志,这就出现这样的现象:把一个关键词按不同的方法进行拆分得到的结果,其差异是比较大的。
    对策:不要想要什么就直接输入什么,更不要用你心中想的大白话去搜索。如果搜索关键词较长,应该适当用空格进行分词。
    原因四:技术原因搜索引擎无法抓取
    大部分搜索引擎是通过一种被称为Spider的搜索机器人在网络上抓取内容,整理后放入搜索引擎库的。当遇到由大量flash、script、asp等网络语言编写的网页时(BBS、数据库多数采用这种编写方式),搜索机器人就会停止抓取网页,因为这是为了避免一种叫“搜索机器人陷阱”(spider traps)的脚本错误(这种错误会让搜索机器人进行无限循环的抓取,无法退出而浪费大量时间)。如果碰巧你要搜索的网页是由上述网络语言编写,则会无功而返。
    对策:一般情况下,这些网站都会提供站内搜索服务,可以尝试直接登录再进行搜索。
    原因五:因为其他原因不去抓取
     如果你所要搜索的是一些有商业价值的内容,即使搜索引擎可以抓取,但基于商业利益原因则可能放弃抓取。另外一种情况就是需要用户名和密码登录才能访问的站点,搜索机器人无法自动完成“输入内容”,所以它也没办法访问(当然也有出于版权和隐私方面的因素)。
    对策:碰到搜索无结果时,你先看看是否属于上述情况,然后作出决择。
     原因六:使用了停用词
     可能不少朋友在搜索时都没有注意到一个问题,这就是停用词的使用。所谓的停用词是指由于该关键字太常见、使用太频繁,以至于无法搜索出有意义的结果,当你把停用词输入搜索框时,搜索引擎自动会忽略这些词。各个搜索引擎对停用词都有各自不同的定义,但一般常见多是语言中的副词、连词、介词,例如“是”、 “的”等等。
     对策:如果发现出现的搜索结果中并没有完全包含所输入的全部关键字,则要看看是否使用了停用词。万一必须使用停用词,请用英文输入双引号(千万不要输入中文的“”符号)或“+”号把停用词与其他关键字连接起来再搜索。
     原因七:搜索引擎库里的资料还没有更新
    每个搜索引擎都会定期通过搜索机器人来抓取网页,这个时间不但各搜索引擎并不相同,即使是同一搜索引擎的不同镜像站点更新时间也有一定的差异,有些周期短,有些周期长。如果碰巧所搜索的内容,搜索引擎还没有来得及更新,则会出现一个时间上的断档而造成无法找到结果。
     对策:尽量选用更新时间快的镜像站点来进行搜索,至于如何知道镜像站点的更新快慢,除了自己在使用中积累经验外,还可以从一些专业搜索知识中得知。如果要搜索的内容是属于时效性比较强的,则考虑使用更新时间较快的专业搜索引擎,例如搜索时事新闻可采用新浪、BBC的新闻搜索。

留言列表

发表留言:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。