0

java 网页解析工具包 Jsoup

Jsoup是一个非常好的解析网页的包,用java开发的,提供了类似DOM,CSS选择器的方式来查找和提取文档中的内容。

相关资料如下:

下载地址:http://jsoup.org/download

中文文档资料:http://www.open-open.com/jsoup/

比较好的文档:http://www.ostools.net/apidocs/apidoc?api=jsoup-1.6.3

 

今天做了一个Jsoup解析网站的项目,使用Jsoup.connect(url).get()连接某网站时偶尔会出现

java.net.SocketTimeoutException:Read timed out异常。

原因是默认的Socket的延时比较短,而有些网站的响应速度比较慢,

所以会发生超时的情况。

解决方法:

链接的时候设定超时时间即可。

doc = Jsoup.connect(url).timeout(5000).get();

5000表示延时时间设置为5s。

测试代码如下:

1,不设定timeout时:

  1. package jsoupTest;  
  2.   
  3. import java.io.IOException;  
  4.   
  5. import org.jsoup.*;  
  6. import org.jsoup.helper.Validate;  
  7. import org.jsoup.nodes.Document;  
  8. import org.jsoup.nodes.Element;  
  9. import org.jsoup.select.Elements;  
  10.   
  11. public class JsoupTest {  
  12.     public static  void main(String[] args) throws IOException{  
  13.     String url = “http://www.weather.com.cn/weather/101010400.shtml”;  
  14.     long start = System.currentTimeMillis();  
  15.     Document doc=null;  
  16.     try{  
  17.         doc = Jsoup.connect(url).get();  
  18.     }  
  19.     catch(Exception e){  
  20.         e.printStackTrace();  
  21.     }  
  22.     finally{  
  23.         System.out.println(“Time is:”+(System.currentTimeMillis()-start) + “ms”);  
  24.     }  
  25.     Elements elem = doc.getElementsByTag(“Title”);  
  26.     System.out.println(“Title is:” +elem.text());  
  27.     }     
  28. }  


有时发生超时:

java.net.SocketTimeoutException: Read timed out
at java.net.SocketInputStream.socketRead0(Native Method)
at java.net.SocketInputStream.read(Unknown Source)
at java.net.SocketInputStream.read(Unknown Source)
at java.io.BufferedInputStream.fill(Unknown Source)
at java.io.BufferedInputStream.read1(Unknown Source)
at java.io.BufferedInputStream.read(Unknown Source)
at sun.net.www.http.ChunkedInputStream.fastRead(Unknown Source)
at sun.net.www.http.ChunkedInputStream.read(Unknown Source)
at java.io.FilterInputStream.read(Unknown Source)
at sun.net.www.protocol.http.HttpURLConnection$HttpInputStream.read(Unknown Source)
at java.util.zip.InflaterInputStream.fill(Unknown Source)
at java.util.zip.InflaterInputStream.read(Unknown Source)
at java.util.zip.GZIPInputStream.read(Unknown Source)
at java.io.BufferedInputStream.read1(Unknown Source)
at java.io.BufferedInputStream.read(Unknown Source)
at java.io.FilterInputStream.read(Unknown Source)
at org.jsoup.helper.DataUtil.readToByteBuffer(DataUtil.java:113)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:447)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:393)
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:159)
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:148)
at jsoupTest.JsoupTest.main(JsoupTest.java:17)

Time is:3885ms
Exception in thread “main” java.lang.NullPointerException
at jsoupTest.JsoupTest.main(JsoupTest.java:25)

2,设定了则一般不会超时

  1. package jsoupTest;  
  2.   
  3. import java.io.IOException;  
  4.   
  5. import org.jsoup.*;  
  6. import org.jsoup.helper.Validate;  
  7. import org.jsoup.nodes.Document;  
  8. import org.jsoup.nodes.Element;  
  9. import org.jsoup.select.Elements;  
  10.   
  11. public class JsoupTest {  
  12.     public static  void main(String[] args) throws IOException{  
  13.     String url = “http://www.weather.com.cn/weather/101010400.shtml”;  
  14.     long start = System.currentTimeMillis();  
  15.     Document doc=null;  
  16.     try{  
  17.         doc = Jsoup.connect(url).timeout(5000).get();  
  18.     }  
  19.     catch(Exception e){  
  20.         e.printStackTrace();  
  21.     }  
  22.     finally{  
  23.         System.out.println(“Time is:”+(System.currentTimeMillis()-start) + “ms”);  
  24.     }  
  25.     Elements elem = doc.getElementsByTag(“Title”);  
  26.     System.out.println(“Title is:” +elem.text());  
  27.     }     
  28. }  


输出为:

Time is:4158ms
Title is:顺义天气预报-今日_明日_一周天气预报:16日星期五  多云转晴  11/-4℃

转自http://blog.csdn.net/huangxy10/article/details/8188067

天边的星星