网站日志数据分析要点

2019-01-18 栏目:百度Seo 查看()

网站日志既可使用工具,也可直接在看。直接在看源文件,信息会更加完整。网站日志是记录Web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的文件,确切地讲,应该是服务器日志。

网站日志最大的意义是记录网站运营中空间等的运营情况,被访问请求的记录。通过网站日志可以清楚地得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。

网站日志的很多信息在百度统计、百度站长工具等都已经数据化或者图表化,比如访客访问了哪些文件、蜘蛛抓取哪些文件显示404等。

网站日志数据分析解读如下。

一、访问次数、停留时间、抓取量

image.png

从这些项数据中可以得知:平均每欢抓取页面数、单页抓取停留时间和平均每次停留时间。平均每次抓取页面数=总抓取量/访问次数,单页面抓取停留时间=每次停留/每次抓取,平均每次停留时间=总停留时间访问次数。

从这些数据可以看出蜘蛛的活跃度,网站对蜘蛛的亲和度,以及抓取深度等,总抓取量、总访问次数、平均抓取量、总停留时间、单页抓取停留、平均停留时间等指标越高,通常表明网站友好性越好,站点质量越高,越受搜索引擎喜欢。而单页抓取停留时间表明网站页面访问速度、时间越长,表明网站访问速度越慢,对搜索引擎抓取收录较不利,我们应尽量提高网页加载速度,减少单一页面停留时间,让爬虫资源更多地去抓取收录。另外,根据这些数据我们还可以统计出一段时间内网站的整体趋势表现,如蜘蛛访问次数趋势、停留时间趋势、抓取趋势。长期观察这些数据,可以起到对优化效果进行评估的作用,并及时发现哪些页面及目录表现好,哪些表现不好,更贴近搜索引擎,也可及时发现异常变动,做好应对。

二、目录抓取统计

通过日志分析我们可以看到网站哪些目录受蜘蛛喜欢、抓取目录深度、重要页面目录抓取状况、无效页面目录抓取状况等。通过对比目录下页面抓取及收录情况,我们可以发现更多问题。对于重要目录,我们需要通过内外调整增加权重及爬取;对于无效页面,在Robots.TXT中进行屏蔽。

另外,通过多日日志统计,我们可以看到站内外行为给目录带来的效果,优化是否合理,是否达到了预期效果。对于同一目录,以长期时间段来看,我们可以看到该目录下页面表现、根据行为推测表现的原因等。

三、页面抓取

image.png

在网站日志分析中,我们可以看到具体被蜘蛛爬取的页面。在这些页面中,我们可以分析出蜘蛛爬取了哪些需要被禁止爬取的页面、爬取了哪些无收录价值页面、爬取了哪些重复页面URL等。为充分利用蜘蛛资源,我们需要将这些地址在Robots.txt中禁止爬取。

另外,我们还可以分析未收录页面原因,对于新文章,是因为没有被爬取到而未收录抑或爬取了但未放出。对于某些阅读意义不大的页面,可能我们需要它作为爬取通道,对于这些页面,我们是否应该做Noindex标签等。

(编辑:柠檬味)

扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

郑重申明:以外的任何单位或个人,不得使用该案例作为工作成功展示!