百度谷歌360等搜索引擎关键词抓取方法

百度谷歌360等搜索引擎关键词抓取方法

百度谷歌360等搜索引擎关键词抓取方法

搜索引擎是根据一定的策略,使用特定的计算机程序,从互联网上收集信息,组织和处理信息,为用户提供检索服务,并将用户检索的相关信息显示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、聚合搜索引擎、门户搜索引擎和自由链接列表。百度和谷歌是搜索引擎的代表。

步:爬行

搜索引擎是通过特定的软件规则来跟踪网页的链接,从一个链接到另一个链接,就像蜘蛛在蜘蛛网上爬行一样,所以它被称为“蜘蛛”,也被称为“机器人”。搜索引擎蜘蛛的爬行输入了一定的规则,它需要服从一些命令或文件内容。

第二步:抓取存储

搜索引擎通过爬行器跟踪链接爬行到网页,并将爬行数据存储到原始网页数据库中。页面数据与用户浏览器获得的HTML完全相同。搜索引擎蜘蛛在抓取页面时也会做一些重复的内容检测。一旦他们在一个低权重的网站上遇到大量抄袭、收集或复制的内容,他们很可能会停止爬行。

第3步:预处理

搜索引擎会蜘蛛回到页面,进行各种步骤的预处理。

消除噪音(搜索引擎需要识别并消除这些噪音,如版权声明文本、导航栏、广告等)

除了HTML文件,搜索引擎通常可以捕获和索引各种基于文本的文件类型,如PDF、word、WPS、xls、PPT、txt文件等。我们经常在搜索结果中看到这些文件类型。但搜索引擎不能处理图片、视频和flash等非文本内容,也不能执行脚本和程序。

第四步:排名

用户在搜索框中输入关键字后,排名程序调用索引数据库数据,计算排名并将其显示给用户。排名过程直接与用户交互。但是,由于搜索引擎的数据量巨大,虽然每天都能实现少量的更新,但是搜索引擎的排名规则一般都是根据日、周、月的不同阶段进行更新的。

凌威生红外光幕可用于个人防护、物体检测、尺寸测量等特殊用途,并可定做

本文内容由用户注册发布,仅代表作者或来源网站个人观点,不代表本网站的观点和立场,与本网站无关。本网系信息发布平台,仅提供信息存储空间服务,其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如因作品内容侵权需删除与其他问题需要同本网联系的,请尽快通过本网的邮箱或电话联系。 
THE END
分享
二维码
< <上一篇
下一篇>>