发现公开问题
实现一个简单的Java爬虫可以使用Jsoup
库,它是一个非常流行的Java库,用于解析HTML和提取数据。以下是一个基本的爬虫示例,演示如何抓取网页内容并提取特定信息。
如果你使用Maven,可以在pom.xml
中添加以下依赖:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version> <!-- 请检查最新版本 -->
</dependency>
如果你不使用Maven,可以从Jsoup官网下载jar包并添加到你的项目中。
以下是一个简单的爬虫示例,抓取一个网页并提取所有的链接:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class SimpleCrawler {
public static void main(String[] args) {
String url = "https://example.com"; // 替换为你想爬取的URL
try {
// 连接到网页并获取文档
Document document = Jsoup.connect(url).get();
// 提取网页标题
String title = document.title();
System.out.println("网页标题: " + title);
// 提取所有链接
Elements links = document.select("a[href]");
for (Element link : links) {
System.out.println("链接: " + link.attr("href"));
System.out.println("链接文本: " + link.text());
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
url
变量为你想要爬取的网页地址。robots.txt
协议:在爬取网站之前,请检查该网站的robots.txt
文件,确保你遵循其爬虫政策。这个示例只是一个简单的爬虫,实际应用中可能需要处理更多的复杂情况,比如分页、数据存储、并发请求等。