帮我写一个java爬虫脚本
当然可以!下面是一个简单的Java爬虫示例,使用了Jsoup
库来抓取网页内容。请确保你已经在项目中添加了Jsoup的依赖。如果你使用Maven,可以在pom.xml
中添加以下依赖:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version> <!-- 请检查最新版本 -->
</dependency>
以下是一个简单的Java爬虫示例代码,它会抓取指定网页的标题和所有链接:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class SimpleWebCrawler {
public static void main(String[] args) {
String url = "https://example.com"; // 替换为你想爬取的URL
try {
// 连接到网页并获取文档
Document document = Jsoup.connect(url).get();
// 获取网页标题
String title = document.title();
System.out.println("网页标题: " + title);
// 获取所有链接
Elements links = document.select("a[href]");
System.out.println("网页中的链接:");
for (Element link : links) {
System.out.println(link.attr("href") + " - " + link.text());
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
url
变量的值为你想要爬取的网页地址。robots.txt
文件中的爬虫规则。希望这个示例对你有帮助!如果你有其他问题或需要更复杂的功能,请告诉我。