`元素。 16. `parent > child`: 查找某个父元素下的直接子元素，比如：可以用`div.content > p `查找 `

` 元素，也可以用`body > *`查找`body`标签下所有直接子元素。 17. `siblingA + siblingB`: 查找在A元素之前第一个同级元素B，比如：`div.head + div`。 18. `siblingA ~ siblingX`: 查找A元素之前的同级X元素，比如：`h1 ~ p`。 19. `el, el, el`:多个选择器组合，查找匹配任一选择器的唯一元素，例如：`div.masthead, div.logo`。 20. `:lt(n)`: 查找哪些元素的同级索引值（它的位置在DOM树中是相对于它的父节点）小于n，比如：`td:lt(3)` 表示小于三列的元素。 21. `:gt(n)`:查找哪些元素的同级索引值大于n，比如：`div p:gt(2)`表示哪些`

`中有包含2个以上的`

`元素。 22. `:eq(n)`: 查找哪些元素的同级索引值与n相等，比如：`form input:eq(1)`表示包含一个``标签的`

`元素。 23. `:has(seletor)`: 查找匹配选择器包含元素的元素，比如：`div:has(p)`表示哪些`

`包含了`

`元素。 24. `:not(selector)`: 查找与选择器不匹配的元素，比如：`div:not(.logo) `表示不包含`class="logo"`元素的所有`

` 列表。 25. `:contains(text)`: 查找包含给定文本的元素，搜索不区分大不写，比如：`p:contains(jsoup)`。 26. `:containsOwn(text)`: 查找直接包含给定文本的元素。 27. `:matches(regex)`: 查找哪些元素的文本匹配指定的正则表达式，比如：`div:matches((?i)login)`。 28. `:matchesOwn(regex)`: 查找自身包含文本匹配指定正则表达式的元素。上述伪选择器索引是从0开始的，也就是说第一个元素索引值为0，第二个元素index为1等通过上面的选择器，我们可以取得一个Elements对象，它继承了ArrayList对象，里面放的全是Element对象。接下来我们要做的就是从Element对象中，取出我们真正需要的内容。通常有下面几种方法： - `Element.text()`这个方法用来取得一个元素中的文本。 - `Element.html()`或`Node.outerHtml()`这个方法用来取得一个元素中的html内容。 - `Element.attr(String key)`获得一个属性的值，例如取得超链接``中`href`的值。 ### 4、开源中国数据 ```java package cays.jsoup; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; import java.util.HashSet; import java.util.Set; /** * 开源中国数据提取 * * @author Chai yansheng * @create 2019-08-16 13:51 **/ public class OpenChinaExample { public static final String USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 " + "(KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"; /** * 获取开源中国上的软件的基本信息 * @throws IOException */ public void execute() throws IOException { // 填写链接到集合中 Set setUrls = new HashSet<>(); for(int i = 1; i <= 5; i++) { String strUrl = "https://www.oschina.net/project/list?company=0&sort=score&lang=0&recommend=false&p="+i; setUrls.add(strUrl); } // 根据软件的标题访问软件详情页 Set setProjUrls = new HashSet<>(); for(String stringUrl : setUrls) { Document document = Jsoup.connect(stringUrl) .userAgent(USER_AGENT) .get(); // 获取软件标题的url Elements elements = document.select("div.item"); for(Element element : elements) { Elements eleUrl = element.select("div.content a"); String strPrjUrl = eleUrl.attr("href"); if (strPrjUrl.isEmpty()) { continue; } Elements elName = eleUrl.select(".project-name"); String name = elName.text(); Elements elTitle = eleUrl.select(".project-title"); String title = elTitle.text(); if (name.isEmpty() || title.isEmpty()) { continue; } setProjUrls.add(strPrjUrl); System.out.println(strPrjUrl); System.out.println("project-name: " + name); System.out.println("project-title: " + title); } } // 遍历软件url访问软件基本信息页 for(String stringUrl : setProjUrls) { Document document = Jsoup.connect(stringUrl) .userAgent(USER_AGENT) .get(); // 获取软件发布标题 Elements elements = document.select("div.info-wrap h1"); String strTitle = elements.text(); System.out.println("标题：" + strTitle); // 获取软件的基本信息 Elements elementsSection = document.select("div.info-item"); for (Element element : elementsSection) { Elements label = element.select("label"); Elements span = element.select("span"); System.out.println(label.text() + span.text()); } System.out.println("========================================================"); } } public static void main(String[] args) throws IOException { OpenChinaExample openChinaExample = new OpenChinaExample(); openChinaExample.execute(); } } ``` ### 5、腾讯首页图片 ```java package cays.jsoup; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.*; import java.net.MalformedURLException; import java.net.URL; import java.net.URLConnection; import java.net.URLEncoder; /** * 腾讯首页图片数据 * * @author Chai yansheng * @create 2019-08-16 14:39 **/ public class QQImageExample { public static final String USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 " + "(KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"; public void downloadImage(String filePath, String imageUrl) { // 若指定文件夹没有，则先创建 File dir = new File(filePath); if (!dir.exists()) { dir.mkdirs(); } // 截取图片文件名 String fileName = imageUrl.substring(imageUrl.lastIndexOf('/') + 1, imageUrl.length()); try { // 文件名里面可能有中文或者空格，所以这里要进行处理。但空格又会被URLEncoder转义为加号 String urlTail = URLEncoder.encode(fileName, "UTF-8"); // 因此要将加号转化为UTF-8格式的%20 imageUrl = imageUrl.substring(0, imageUrl.lastIndexOf('/') + 1) + urlTail.replaceAll("\\+", "\\%20"); } catch (UnsupportedEncodingException e) { e.printStackTrace(); } // 写出的路径 File file = new File(filePath + File.separator + fileName); try { // 获取图片URL URL url = new URL(imageUrl); // 获得连接 URLConnection connection = url.openConnection(); // 设置10秒的相应时间 connection.setConnectTimeout(10 * 1000); // 获得输入流 InputStream in = connection.getInputStream(); // 获得输出流 BufferedOutputStream out = new BufferedOutputStream(new FileOutputStream(file)); // 构建缓冲区 byte[] buf = new byte[1024]; int size; // 写入到文件 while (-1 != (size = in.read(buf))) { out.write(buf, 0, size); } out.close(); in.close(); } catch (MalformedURLException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } public void execute(String url) { // 利用Jsoup获得连接 Connection connect = Jsoup.connect(url); try { connect.userAgent(USER_AGENT); // 得到Document对象 Document document = connect.get(); // 查找所有img标签 Elements imgs = document.getElementsByTag("img"); System.out.println("共检测到下列图片URL："); System.out.println("开始下载"); // 遍历img标签并获得src的属性 for (Element element : imgs) { //获取每个img标签URL "abs:"表示绝对路径 String imgSrc = element.attr("abs:src"); // 打印URL System.out.println(imgSrc); //下载图片到本地 downloadImage("src\\main\\java\\cays\\img\\", imgSrc); } System.out.println("下载完成"); } catch (IOException e) { e.printStackTrace(); } } public static void main(String[] args) { QQImageExample qqImageExample = new QQImageExample(); String url = "http://www.qq.com"; qqImageExample.execute(url); } } ``` ### 6、解析json数据引入fastjson ```xml com.alibaba fastjson 1.2.59 ``` 代码 ```java package cays.jsoup; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONArray; import com.alibaba.fastjson.JSONObject; import org.jsoup.Connection; import org.jsoup.Jsoup; import java.io.IOException; /** * 解析Json数据 * * @author Chai yansheng * @create 2019-08-16 14:52 **/ public class ParseJsonExample { public static final String USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 " + "(KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"; /** * 解析json数据 * @param url */ public void parseJson(String url) throws IOException { Connection.Response res = Jsoup.connect(url) .header("Accept", "*/*") .header("Accept-Encoding", "gzip, deflate") .header("Accept-Language","zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3") .header("Content-Type", "application/json;charset=UTF-8") .header("User-Agent",USER_AGENT) .timeout(10000).ignoreContentType(true).execute();//.get(); String body = res.body(); System.out.println(body); JSONObject json = JSON.parseObject(body); JSONArray jsonArray = json.getJSONArray("data"); //JSONArray jsonArray1 = JSONArray.parseArray(JSON_ARRAY_STR);//因为JSONArray继承了JSON，所以这样也是可以的 //遍历方式1 int size = jsonArray.size(); for (int i = 0; i < size; i++){ JSONObject jsonObject = jsonArray.getJSONObject(i); if(jsonObject.containsKey("question")) { JSONObject question = jsonObject.getJSONObject("question"); String qid = question.getString("qid"); System.out.println(qid); } } } public static void main(String[] args) throws IOException { ParseJsonExample parseJsonExample = new ParseJsonExample(); String url = "https://www.wukong.com/wenda/web/nativefeed/brow/?" + "concern_id=6300775428692904450&t=1533714730319&_signature=DKZ7mhAQV9JbkTPBachKdgyme4"; parseJsonExample.parseJson(url); } } ```