我将利用此处的自定义提取功能

rakibhasanbd47 · Post by **rakibhasanbd47** » Thu Jan 30, 2025 4:38 am

现在到了最有趣的部分——是时候启动 Screaming Frog 了！

配置 → 自定义 → 提取

SF 中（您可以在此处找到此司法部数据库功能的更多详细信息和更广泛的用例文档集）。利用自定义提取将允许我从一组页面中抓取特定文本（或其他元素）。

配置提取参数
我将首先配置提取参数。

在此截图中，我打开了自定义提取设置，并将第一个提取器设置为 XPath。我需要设置多个提取器，因为需要抓取同一 URL 上的多个线程标题。您可以简单地将代码剪切并粘贴到下一个提取器中 — 但请务必在最后更新数字序列（以橙色勾勒），以避免一遍又一遍地抓取相同的信息。

还要注意，我已将提取类型设置为“提取文本”。这通常是获取所需信息的最简洁的方法，但如果您在获取所需数据时遇到困难，可能需要尝试其他选项。

提示：在处理此问题时，您可能会发现需要抓取 HTML 中与您想象的不同的部分。此过程可能需要反复试验（下文将详细介绍）。

抓取 Xpath 代码
为了获取我们所需的实际提取代码（在上方中间的框中可见）：

使用 Chrome
导航到包含要捕获内容的 URL
右键单击要抓取的文本并选择“检查”或“检查元素”

我将利用此处的 自定义提取 功能

我将利用此处的 自定义提取 功能

我将利用此处的自定义提取功能

我将利用此处的自定义提取功能