谷歌是如何抓取关键词信息的呢?

2020-07-14 09:03:12 浏览次数:334
关键字:谷歌抓取信息谷歌索引机制谷歌网站推广

蜘蛛每天抓取的页面非常非常多,但这么多的页面谷歌不可能全部保存。Google收录了你的外贸网站后,会通过它的预处理也称索引机制,将蜘蛛所抓取到源代码数据中的核心关键词信息挑选出来,那么问题来了,谷歌是如何抓取信息的呢?

谷歌抓取信息.jpg

提取文字

蜘蛛抓取的页面中包含很多源代码,预处理要做的事情首先是先把代码中的文字信息提取出来,包含标签文字、图片替代文字、链接锚文字、正文。


去重复页面

大多网站,往往将一个产品覆盖很多关键词并重复发布,几乎产品的详情页都是一样的。但这种方法并不适用于谷歌,因为当用户在搜索浏览前几页内容时多次看到同样的内容,对用户的体验会很差,谷歌是不会对重复内容重复收录的。


消除噪声

在网站的页头、导航、正文、页脚中会存在大量的重复内容,在这些页面中几乎都会有相同的源代码,谷歌会把重复的内容去掉,只留下不重复部分。


过滤停止词

在提取的文字信息中会包含很多例如the,a,an,to,of的词,这些词就像我们中文的啊、哈、呀的感叹词,出现频率很高,但有没有都不会影响内容中的主要意思,这些词称为停止词,也会被过滤掉的。


从这些过程中,谷歌可以判断你的网站质量。江门市华企立方科技有限公司主要经营:网站建设、高品质的网页设计、网站推广,搜索引擎优化,SEM,SEO,域名注册、空间租用、网站推广、虚拟主机、朋友圈广告,腾讯新闻,今日头条等新媒体广告、企业vi营销策划,外贸多语种网站推广,Google推广等服务。


(本网站图片,文字来自网络,如果本网站展示信息侵犯您的版权或其他合法权益,请及时通知我们,本网站将在及时删除处理。)