iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >网站日志中的不完整url或莫名其妙的url抓取的分析
  • 876
分享到

网站日志中的不完整url或莫名其妙的url抓取的分析

2023-06-12 21:06:39 876人浏览 泡泡鱼
摘要

本篇文章给大家分享的是有关网站日志中的不完整url或莫名其妙的url抓取的分析,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。在分析日志的过程中,往往会发现404状态下有一些或者

本篇文章给大家分享的是有关网站日志中的不完整url或莫名其妙的url抓取的分析,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

在分析日志的过程中,往往会发现404状态下有一些或者很多的不完整的url或者比原url多出字段的莫名其妙的网站本身不存在的url的抓取。在群里面也见有人问过类似的情况,觉得这是一个大家普遍都会遇见的问题,有猜测过有可能是被别人采集才导致这样的问题出现,在上课的时候问过国平老大,当时国平老大说有可能是爬虫在抓取url的时候下载不完整,但是这都没有一个具体的数据来支撑,总是觉得很朦胧没把握。

现在,Google管理员工具可以很清晰的用数据为你揭晓这其中的诧异了,google管理员工具是国平老大非常推崇的一个seo工具,有人觉得做百度的人不需要google的东西,因为百度和google的算法有差别,那下面介绍google管理员的这个功能可以告诉你这样的想法是大错特错的,管理员工具是一个按照网站seo各项考核标准制定的一个最最权威的seo工具,做seo需要的数据,绝大部分都可以从这里面获取,下面就来介绍管理员工具的这个功能(好像是最近更新的,以前不是这样子)。

首页看下百度日志里面的怪异404

网站日志中的不完整url或莫名其妙的url抓取的分析

这些url的入口在哪里呢?搜索引擎是从什么地方获取这些url的?

Google告诉你

首先介绍下google管理员工具关于抓取错误的功能

网站日志中的不完整url或莫名其妙的url抓取的分析

下面是另一个网站由于改版问题没做跳转和抓取拦截所造成的找不到抓取错误,有一很完整的曲线可以让你很清晰的看见网站存在的这方面的问题的变化趋势

网站日志中的不完整url或莫名其妙的url抓取的分析

服务器问题造成的抓取错误

网站日志中的不完整url或莫名其妙的url抓取的分析

接第一张图(同一个网站)

一开始从日志中观察到这些错误,但是不知道这些错误的来源

网站日志中的不完整url或莫名其妙的url抓取的分析

现在可以知道这些错误的url是从何而来

点击第102条,弹出下面的框,url不在sitemap中,但是在自己的其他网站里面出现,说明网址是网站自身存在的但是已经被删除了

网站日志中的不完整url或莫名其妙的url抓取的分析

点击第110条,弹出下面的框,可以看到搜索引擎是从其他网站过来的(或是采集站,或是其他)

网站日志中的不完整url或莫名其妙的url抓取的分析

点击进入具体的来源页面可以看到

至此,可以很明确的知道,到底网站日志里面的出现的那些莫名其妙的url到底是怎么回事了,是自己站内存在的还是站外错误构成的。

以上就是网站日志中的不完整url或莫名其妙的url抓取的分析,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网精选频道。

--结束END--

本文标题: 网站日志中的不完整url或莫名其妙的url抓取的分析

本文链接: https://www.lsjlt.com/news/262839.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 网站日志中的不完整url或莫名其妙的url抓取的分析
    本篇文章给大家分享的是有关网站日志中的不完整url或莫名其妙的url抓取的分析,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。在分析日志的过程中,往往会发现404状态下有一些或者...
    99+
    2023-06-12
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作