利用Java怎么对网页数据进行获取

这篇文章将为大家详细讲解有关利用Java怎么对网页数据进行获取,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

1:通过HttpClient请求到达某网页的url访问地址(特别需要注意的是请求方式)

2:获取网页源码

3:查看源码是否有我们需要提取的数据

4:对源码进行拆解,一般使用分割,正则或者第三方jar包

5:获取需要的数据对自己创建的对象赋值

6:数据提取保存

下面简单的说一下在提取数据中的部分源码,以及用途:

/**    * 向指定URL发送GET方法的请求    *    * @param url    *      发送请求的URL    * @param param    *      请求参数,请求参数应该是 name1=value1&name2=value2 的形式。    * @return URL 所代表远程资源的响应结果    */   public static String sendGet(String url, String param) {     String result = "";     BufferedReader in = null;     try {       String urlNameString = url;       URL realUrl = new URL(urlNameString);       // 打开和URL之间的连接       URLConnection connection = realUrl.openConnection();       // 设置通用的请求属性       connection.setRequestProperty("accept", "*/*");       connection.setRequestProperty("connection", "Keep-Alive");       connection.setRequestProperty("user-agent",           "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");       // 建立实际的连接       connection.connect();       // 获取所有响应头字段       Map<String, List<String>> map = connection.getHeaderFields();       // 定义 BufferedReader输入流来读取URL的响应       in = new BufferedReader(new InputStreamReader(           connection.getInputStream())); //这里如果出现乱码,请使用带编码的InputStreamReader构造方法,将需要的编码设置进去       String line;       while ((line = in.readLine()) != null) {         result += line;       }     } catch (Exception e) {       System.out.println("发送GET请求出现异常!" + e);       e.printStackTrace();     }     // 使用finally块来关闭输入流     finally {       try {         if (in != null) {           in.close();         }       } catch (Exception e2) {         e2.printStackTrace();       }     }     return result;   }

解析存储数据

public Bid getData(String html) throws Exception {     //获取的数据,存放在到Bid的对象中,自己可以重新建立一个对象存储     Bid bid = new Bid();     //采用Jsoup解析     Document doc = Jsoup.parse(html);     // System.out.println("doc内容" + doc.text());     //获取html标签中的内容tr     Elements elements = doc.select("tr");     System.out.println(elements.size() + "****条");     //循环遍历数据     for (Element element : elements) {       if (element.select("td").first() == null){         continue;       }       Elements tdes = element.select("td");       for(int i = 0; i < tdes.size(); i++){         this.relation(tdes,tdes.get(i).text(),bid,i+1);       }     }     return bid;   }

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。