android使用Jsoup 抓取页面的数据

jsoup 数据 Android 2022-06-06 06:06:25 267人浏览八月长安

摘要

jsoup 是一款Java 的html解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的api，可通过DOM，CSS以及类似于Jquery的操作方法来取

jsoup 是一款Java 的html解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的api，可通过DOM，CSS以及类似于Jquery的操作方法来取出和操作数据。

Jsoup的官方中文地址：Http://www.open-open.com/jsoup/parse-document-from-string.htm
在这个网站上你可以找到一些说明，.jar文件的下载，doc文档的说明等等　

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；使用DOM或CSS选择器来查找、取出数据；可操作HTML元素、属性、文本；

jsoup是基于MIT协议发布的，可放心使用于商业项目。

Jsoup类下面的方法都是静态可直接调用。几个方法的说明

Connect()方法，获得一个Connection，然后调用Connection对象get()方法获得Document对象。然后再解析Document对象 Connection提供了一些设置方法timeout(),url()等等

这里贴一下我用到的 Java工程的测试代码　


package com.javen.Jsoup;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupTest {
  static String url="http://www.cnblogs.com/zyw-205520/arcHive/2012/12/20/2826402.html";
  
  public static void main(String[] args) throws Exception {
    // TODO Auto-generated method stub
    BolgBody();
    //test();
    //Blog();
    // 使用 POST 方法访问 URL
    
  }
  
  private static void BolgBody() throws IOException {
    // 直接从字符串中输入 HTML 文档
    String html = "<html><head><title> 开源中国社区 </title></head>"
        + "<body><p> 这里是 jsoup 项目的相关文章 </p></body></html>";
    Document doc = Jsoup.parse(html);
    System.out.println(doc.body());
    // 从 URL 直接加载 HTML 文档
    Document doc2 = Jsoup.connect(url).get();
    String title = doc2.body().toString();
    System.out.println(title);
  }
  
  public static void article() {
    Document doc;
    try {
      doc = Jsoup.connect("http://www.cnblogs.com/zyw-205520/").get();
      Elements ListDiv = doc.getElementsByAttributeValue("class","postTitle");
      for (Element element :ListDiv) {
        Elements links = element.getElementsByTag("a");
        for (Element link : links) {
          String linkHref = link.attr("href");
          String linkText = link.text().trim();
          System.out.println(linkHref);
          System.out.println(linkText);
        }
      }
    } catch (IOException e) {
      // TODO Auto-generated catch block
      e.printStackTrace();
    }
  }
  
  public static void Blog() {
    Document doc;
    try {
      doc = Jsoup.connect("http://www.cnblogs.com/zyw-205520/archive/2012/12/20/2826402.html").get();
      Elements ListDiv = doc.getElementsByAttributeValue("class","postBody");
      for (Element element :ListDiv) {
        System.out.println(element.html());
      }
    } catch (IOException e) {
      // TODO Auto-generated catch block
      e.printStackTrace();
    }
  }
}

下面来介绍Android中使用Jsoup异步解析网页的数据请注意：这里很容易遇到一个乱码的问题

配置文件：AndroidManifest.xml中加权限


<uses-permission android:name="android.permission.INTERNET"></uses-permission>

layout的布局文件


<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"
  xmlns:tools="http://schemas.android.com/tools"
  android:layout_width="match_parent"
  android:layout_height="match_parent"
  android:orientation="vertical" >
  <WEBView
    android:id="@+id/webView"
    android:layout_width="fill_parent"
    android:layout_height="200dp" />
  <ScrollView
    android:layout_width="wrap_content"
    android:layout_height="wrap_content" >
    <TextView
      android:id="@+id/textView"
      android:layout_width="wrap_content"
      android:layout_height="wrap_content"
      android:text="@string/hello_world" />
  </ScrollView>
</LinearLayout>

主要异步加载数据的代码


package com.javen.aaa;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import android.app.Activity;
import android.app.Dialog;
import android.app.ProgressDialog;
import android.os.AsyncTask;
import android.os.Bundle;
import android.util.Log;
import android.webkit.WebView;
import android.widget.TextView;
public class MainActivity extends Activity {
  private WebView webView;
  private TextView textView;
  private static final int DIALOG_KEY = 0;
  @Override
  protected void onCreate(Bundle savedInstanceState) {
    super.onCreate(savedInstanceState);
    setContentView(R.layout.main);
    webView = (WebView) findViewById(R.id.webView);
    textView=(TextView) findViewById(R.id.textView);
    try {
      ProgressAsyncTask asyncTask=new ProgressAsyncTask(webView,textView);
      asyncTask.execute(10000);
    } catch (Exception e) {
      // TODO Auto-generated catch block
      e.printStackTrace();
    }
  }
  public String test() {
    StringBuffer buffer=new StringBuffer();
    Document doc;
    try {
      doc = Jsoup.connect("http://www.cnblogs.com/zyw-205520/").get();
      Elements ListDiv = doc.getElementsByAttributeValue("class","postTitle");
      for (Element element :ListDiv) {
        Elements links = element.getElementsByTag("a");
        for (Element link : links) {
          String linkHref = link.attr("href");
          String linkText = link.text().trim();
          buffer.append("linkHref=="+linkHref);
          buffer.append("linkText=="+linkText);
          System.out.println(linkHref);
          System.out.println(linkText);
        }
      }
    } catch (IOException e) {
      // TODO Auto-generated catch block
      e.printStackTrace();
    }
    return buffer.toString();
  }
    // 弹出"查看"对话框
    @Override
    protected Dialog onCreateDialog(int id) {
      switch (id) {
      case DIALOG_KEY: {
        ProgressDialog dialog = new ProgressDialog(this);
        dialog.setMessage("获取数据中 请稍候...");
        dialog.setIndeterminate(true);
        dialog.setCancelable(true);
        return dialog;
      }
      }
      return null;
    }
    public static String readHtml(String myurl) {
      StringBuffer sb = new StringBuffer("");
      URL url;
      try {
        url = new URL(myurl);
        BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(), "gbk"));
        String s = "";
        while ((s = br.readLine()) != null) {
          sb.append(s + "\r\n");
        }
      } catch (Exception e) {
        e.printStackTrace();
      }
      return sb.toString();
    }
  class ProgressAsyncTask extends AsyncTask<Integer, Integer, String> {
    private WebView webView;
    private TextView textView;
    public ProgressAsyncTask(WebView webView,TextView textView) {
      super();
      this.webView=webView;
      this.textView=textView;
    }
    
    @Override
    protected String doInBackground(Integer... params) {
      String str =null;
      Document doc = null;
      try {
//        String url ="http://www.cnblogs.com/zyw-205520/p/3355681.html";
//        
//        doc= Jsoup.parse(new URL(url).openStream(),"utf-8", url);
//        //doc = Jsoup.parse(readHtml(url));
//        //doc=Jsoup.connect(url).get();
//        str=doc.body().toString();
        doc = Jsoup.connect("http://www.cnblogs.com/zyw-205520/archive/2012/12/20/2826402.html").get();
        Elements ListDiv = doc.getElementsByAttributeValue("class","postBody");
        for (Element element :ListDiv) {
          str=element.html();
          System.out.println(element.html());
        }
        Log.d("doInBackground", str.toString());
        System.out.println(str);
        //你可以试试GBK或UTF-8
      } catch (Exception e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
      }
      return str.toString() ;
      //return test();
    }
    
    @Override
    protected void onPostExecute(String result) {
      webView.loadData(result, "text/html;charset=utf-8", null);
      textView.setText(result);
      removeDialog(DIALOG_KEY);
    }
    // 该方法运行在UI线程当中,并且运行在UI线程当中 可以对UI空间进行设置
    @Override
    protected void onPreExecute() {
      showDialog(DIALOG_KEY);
    }
    
    @Override
    protected void onProgressUpdate(Integer... values) {
    }
  }
}

您可能感兴趣的文章:android Jsoup获取网站内容 android获取新闻标题实例Android开发之利用jsoup解析HTML页面的方法Java实现爬虫给App提供数据（Jsoup 网络爬虫）Android使用Jsoup解析Html表格的方法Java中使用开源库JSoup解析HTML文件实例crawler4j抓取页面使用jsoup解析html时的解决方法Jsoup解析HTML实例及文档方法详解Jsoup解析html实现招聘信息查询功能

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: android使用Jsoup 抓取页面的数据

本文链接: https://www.lsjlt.com/news/23405.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

使用nodejs怎么抓取页面的始末

使用nodejs怎么抓取页面的始末，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。事由以及动机2015年9月份全国研究生数学建模...

99+

2024-04-02
怎么用php抓取网页数据

使用PHP抓取网页数据可以使用cURL库或者file_get_contents函数。以下是两种方法的示例：1. 使用cURL库抓取网...

99+

2023-09-26

php
php如何抓取网页数据

在PHP中，可以使用cURL库来抓取网页数据。cURL（Client URL）是一个用于在PHP中进行网络通信的库，可以发送HTTP...

99+

2023-09-15

php
Python爬虫之使用BeautifulSoup和Requests抓取网页数据

目录一、简介二、网络爬虫的基本概念三、Beautiful Soup 和 Requests 库简介四、选择一个目标网站五、使用 Requests 获取网页内容六、使用 Beautifu...

99+

2023-05-14

Python爬虫使用BeautifulSoup和Requests Python爬虫抓取网页数据
使用python抓取B站数据的方法

这篇文章给大家分享的是有关使用python抓取B站数据的方法的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。概述可以获取的数据包括：video-视频模块user-用户模块dynamic-动态模块这次用“Runnin...

99+

2023-06-15
Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

这篇文章主要介绍了Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Python爬虫之怎么使用BeautifulSoup和Reque...

99+

2023-07-05
怎样使用Requests模块抓取网页？

爬取网页其实就是通过URL获取网页信息，网页信息的实质是一段添加了JavaScript和CSS的HTML代码。Python提供了一个抓取网页信息的第三方模块requests,requests模块自称“HTTP for Humans”,直译...

99+

2023-05-14

CSS JavaScript URL
如何使用Node.js+Cheerio进行数据抓取

这篇文章主要介绍“如何使用Node.js+Cheerio进行数据抓取”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“如何使用Node.js+Cheerio进行数据抓取...

99+

2024-04-02
如何使用Requests模块抓取网页

这篇文章主要介绍“如何使用Requests模块抓取网页”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“如何使用Requests模块抓取网页”文章能帮助大家解决问题。爬取网页其实就是通过URL获取网页信...

99+

2023-07-06
利用Python从网页抓取数据并进行分析

在当今信息爆炸的时代，网络成为人们获取信息的主要途径之一，而数据挖掘则成为了解析这些海量数据的重要工具。Python作为一种功能强大且易于学习的编程语言，被广泛应用于网络爬虫和数据挖掘...

99+

2024-02-25

python 数据挖掘网络爬虫
python怎么从软件界面抓取数据

要从软件界面抓取数据，可以使用Python中的一些库和工具来实现。以下是一种常见的方法：1. 使用图像识别库：通过截取软件界面的屏幕...

99+

2023-09-08

python
python爬虫时怎么使用R连续抓取多个页面

这篇文章将为大家详细讲解有关python爬虫时怎么使用R连续抓取多个页面，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。当抓取多页的html数据，但容易被困在通用方法部分的功能上，而导致无法实现连续抓取多个...

99+

2023-06-20
Python中怎么抓取并存储网页数据

本篇文章为大家展示了Python中怎么抓取并存储网页数据，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。第一步：尝试请求首先进入b站首页，点击排行榜并复制链接https://www.bilibili....

99+

2023-06-16
在Jav中使用httpclient与Jsoup实现获取动态生成的数据

这期内容当中小编将会给大家带来有关在Jav中使用httpclient与Jsoup实现获取动态生成的数据，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。Java爬虫Jsoup+httpclient获取动态生成...

99+

2023-05-31

java httpclient jsoup
使用Charles进行网络抓包截取数据

如何使用Charles进行网络抓包截取数据文章目录前言一、Charles是什么？二、使用步骤1.下载安装2.配置网络3.SSL代理设置（可选）4.开始抓包5.查看抓包数据6.截取数据...

99+

2023-09-02

网络网络爬虫
使用Python和Scrapy实现抓取网站数据

目录一、安装Scrapy二、创建一个Scrapy项目三、定义一个Scrapy爬虫四、运行Scrapy爬虫五、保存抓取的数据六、遵守网站的robots.txt七、设置下载延迟八、使用中...

99+

2023-05-12

Python Scrapy抓取网站数据 Python Scrapy抓取数据 Python Scrapy
C#中的modbusTcp协议的数据抓取和使用解析

目录C# modbus Tcp协议数据抓取和使用C# modbus tcp读写数据C# modbus Tcp协议数据抓取和使用基于Modbus tcp 协议的数据抓取，并解析，源码...

99+

2024-04-02
怎么用python抓取游戏数据

要使用Python抓取游戏数据，你可以按照以下步骤进行操作：导入所需的库，例如requests和BeautifulSoup： ...

99+

2023-10-26

python
使用python实现抓取中国银行外汇牌价首页数据实现

利用requests、BeautifulSoup、xlwings库抓取中国银行外汇牌价首页数据 1. 利用requests、BeautifulSoup、xlwings库抓取中国银行外...

99+

2024-04-02
使用 Python 爬取网页数据

1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 HTML 解析库, 可以编写出用于采集...

99+

2023-01-31

网页数据 Python