的尾随斜杠和非尾随斜杠版本
查找同一 URL 的一种方法是在另一列中使用 SUBSTITUTE 函数,并用它来删除所有正斜杠:
在我的例子中,目标单元格是 C2,因为主干数据位于第三列。
然后,使用条件格式来识别重复值并突出显示它们。
然而,不幸的是,目测是目前最好的方法。
查看子目录的抓取频率
找出哪些子目录被抓取最多是揭示抓取 cashapp 数据库 预算浪费的另一种快速方法。尽管请记住,仅仅因为客户的博客从未获得过任何反向链接并且每年仅从企业主的祖母那里获得了三个浏览量,并不意味着您应该认为它是爬行预算浪费 - 整个网站的内部链接结构应该始终保持良好状态,并且从客户的角度来看,该内容可能有充分的理由。
要按子目录级别找出抓取频率,您需要主要关注它,但以下公式可以提供帮助:
上面的公式看起来有点奇怪,但它所做的只是检查是否有尾随斜杠,并根据答案计算尾随斜杠的数量,然后从该数字中减去 2 或 1。如果您使用正确的公式从 URL 列表中删除所有尾随斜杠,则可以缩短此公式 - 但谁有时间呢?剩下的是子目录计数(从 0 作为第一个子目录开始)。
将 C2 替换为第一个 URL 干/URL 单元格,然后将公式复制到整个列表中以使其正常工作。
頁:
[1]