135-1060-0256
搜索引擎的工作原理
发布时间:2016/12/19 16:37:48来源:本站原创字体:
 
搜索引擎的核心技术架构,大体包括以下三块:第一,是蜘蛛/爬虫技术;第二,是索引技术;第三是查询展现的技术; 当然,我不是搜索引擎的架构师,我只能用比较粗浅的方式来做一个结构的切分。
 
1、 蜘蛛,也叫爬虫,是将互联网的信息,抓取并存储的一种技术实现。
 
搜索引擎的信息收录,很多不明所以的人会有很多误解,以为是付费收录,或者有什么其他特殊的提交技巧,其实并不是,搜索引擎通过互联网一些公开知名的网站,抓取内容,并分析其中的链接,然后有选择的抓取链接里的内容,然后再分析其中的链接,以此类推,通过有限的入口,基于彼此链接,形成强大的信息抓取能力。
 
有些搜索引擎本身也有链接提交入口,但基本上,不是主要的收录入口,不过作为创业者,建议了解一下相关信息,百度,google都有站长平台和管理后台,这里很多内容是需要非常非常认真的对待的。
 
反过来说,在这样的原理下,一个网站,只有被其他网站所链接,才有机会被搜索引擎抓取。如果这个网站没有外部链接,或者外部链接在搜索引擎中被认为是垃圾或无效链接,那么搜索引擎可能就不抓取他的页面。
 
分析和判断搜索引擎是否抓取了你的页面,或者什么时候抓取你的页面,只能通过服务器上的访问日志来查询,如果是cdn就比较麻烦。 而基于网站嵌入代码的方式,不论是cnzz,百度统计,还是google analytics,都无法获得蜘蛛抓取的信息,因为这些信息不会触发这些代码的执行。
 
一个比较推荐的日志分析软件是awstats。
 
在十多年前,分析百度蜘蛛抓取轨迹和更新策略,是很多草根站长每日必做的功课,比如现在身价几十亿的知名80后上市公司董事长,当年在某站长论坛就是以此准确的分析判断而封神,很年轻的时候就已经是站长圈的一代偶像。
 
但关于蜘蛛的话题,并不只基于链接抓取这么简单,延伸来说
 
第一,网站拥有者可以选择是否允许蜘蛛抓取,有一个robots.txt的文件是来控制这个的。
 
一个经典案例是 https://www.taobao.com/robots.txt
 
你会看到,淘宝至今仍有关键目录不对百度蜘蛛开放,但对google开放。
 
另一个经典案例是 http://www.baidu.com/robots.txt
 
你看出什么了?你可能什么都没看出来,我提醒一句,百度实质上全面禁止了360的蜘蛛抓取。
 
但这个协议只是约定俗成,实际上并没有强制约束力,所以,你们猜猜,360遵守了百度的蜘蛛抓取禁止么?
 
第二,最早抓取是基于网站彼此的链接为入口,但实际上,并不能肯定的说,有可能存在其他抓取入口,比如说,
 
客户端插件或浏览器, 免费网站统计系统的嵌入式代码。
 
会不会成为蜘蛛抓取的入口,我只能说,有这个可能。
 
所以我跟很多创业者说,中国做网站,放百度统计,海外做网站,放google analytics,是否会增加搜索引擎对你网站的收录?我只能说猜测,有这个可能。
 
第三,无法被抓取的信息
 
有些网站的内容链接,用一些javascript特殊效果完成,比如浮动的菜单等等,这种连接,有可能搜索引擎的蜘蛛程序不识别,当然,我只是说有可能,现在搜索引擎比以前聪明,十多年前很多特效链接是不识别的,现在会好一些。
 
需要登录,需要注册才能访问的页面,蜘蛛是无法进入的,也就是无法收录。
 
有些网站会给搜索特殊页面,就是蜘蛛来能看到内容(蜘蛛访问会有特殊的客户端标记,服务端识别和处理并不复杂),人来了要登录才能看,但这样做其实是违反了收录协议(需要人和蜘蛛看到的同样的内容,这是绝大部分搜索引擎的收录协议),有可能遭到搜索引擎处罚。
 
所以一个社区要想通过搜索引擎带来免费用户,必须让访客能看到内容,哪怕是部分内容。
 
带很多复杂参数的内容链接url,有可能被蜘蛛当作重复页面,拒绝收录。
 
 
深圳市国泰帝力科技有限公司(IT6300.COM)是国内领先的互联网服务机构和媒体传播机构,分别提供专业的IT应用和媒体传播服务,旨在为国内企业提高企业形象、扩大产品宣传,实现网络营销,开展电子商务,提高综合竞争力等提供标准化、一站式解决方案和服务策略。
   作为领先的互联网服务机构和媒体传播机构,先后为广大企业客户提供专业的网络服务实现了企业e化,并为针对部分企业提供了专业的托管服务。2006年,为满足广大客户快速面向市场的迫切需求,国泰帝力推出强大的网站自助建站平台,从而开拓了全新的网络应用新模式;2007年,国泰帝力推出了专业的IDC平台和媒体传播网站。至此,深圳国泰帝力成为一家能同时提域名注册、空间邮局租用,自助建站、网站建设,平面设计、多媒体设计制作、等IT应用和媒体传播服务的一站式服务平台。
  作为IT应用服务和媒体传播的杰出代表。深圳市国泰帝力科技有限公司是由从事多年IT应用专家创办,团队由国内丰富经验的网络工程师与国内外的知名设计师组成,立足深圳,服务中国。自成立以来,深圳国泰帝力始终坚持奉行质量第一、客户为本的企业精神,在洞悉中国互联网发展轨迹的同时,以最为专业的网络新思维去深入思考网络在中国企业、中国互联网运营商以及网民中的真正价值,坚定不移走适合自身发展的科学道路,孜孜不倦的为客户获得最大化网络资源,打造个性化的企业形象,致力于揭开IT应用和媒体传播的新篇章!
更多深圳网站维护,深圳网站托管,深圳网站建设,深圳网站推广资讯点击首页
返回