Java爬虫脚本示例及使用说明

使用 GPT-4o Mini 回答,作者 GPT4oMini.app

问题:

帮我写一个java爬虫脚本

答案:

当然可以!下面是一个简单的Java爬虫示例,使用了Jsoup库来抓取网页内容。请确保你已经在项目中添加了Jsoup的依赖。如果你使用Maven,可以在pom.xml中添加以下依赖:

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version> <!-- 请检查最新版本 -->
</dependency>

以下是一个简单的Java爬虫示例代码,它会抓取指定网页的标题和所有链接:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class SimpleWebCrawler {
    public static void main(String[] args) {
        String url = "https://example.com"; // 替换为你想爬取的URL

        try {
            // 连接到网页并获取文档
            Document document = Jsoup.connect(url).get();

            // 获取网页标题
            String title = document.title();
            System.out.println("网页标题: " + title);

            // 获取所有链接
            Elements links = document.select("a[href]");
            System.out.println("网页中的链接:");
            for (Element link : links) {
                System.out.println(link.attr("href") + " - " + link.text());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

使用说明:

  1. 将上述代码复制到你的Java项目中。
  2. 替换url变量的值为你想要爬取的网页地址。
  3. 运行程序,它将输出网页的标题和所有链接。

注意事项:

  • 确保遵循网站的robots.txt文件中的爬虫规则。
  • 不要对网站发送过多请求,以免造成负担。
  • 在爬取数据时,遵循相关法律法规和网站的使用条款。

希望这个示例对你有帮助!如果你有其他问题或需要更复杂的功能,请告诉我。