现在到了最有趣的部分——是时候启动 Screaming Frog 了!
配置 → 自定义 → 提取
SF 中(您可以在此处找到此 司法部数据库 功能的更多详细信息和更广泛的用例文档集)。利用自定义提取将允许我从一组页面中抓取特定文本(或其他元素)。
配置提取参数
我将首先配置提取参数。
在此截图中,我打开了自定义提取设置,并将第一个提取器设置为 XPath。我需要设置多个提取器,因为需要抓取同一 URL 上的多个线程标题。您可以简单地将代码剪切并粘贴到下一个提取器中 — 但请务必在最后更新数字序列(以橙色勾勒),以避免一遍又一遍地抓取相同的信息。
还要注意,我已将提取类型设置为“提取文本”。这通常是获取所需信息的最简洁的方法,但如果您在获取所需数据时遇到困难,可能需要尝试其他选项。
提示:在处理此问题时,您可能会发现需要抓取 HTML 中与您想象的不同的部分。此过程可能需要反复试验(下文将详细介绍)。
抓取 Xpath 代码
为了获取我们所需的实际提取代码(在上方中间的框中可见):
使用 Chrome
导航到包含要捕获内容的 URL
右键单击要抓取的文本并选择“检查”或“检查元素”