知识大全 HTML Parser学习 整理常用的解析代码

Posted 地址

篇首语:少年辛苦终身事,莫向光阴惰寸功。本文由小常识网(cha138.com)小编为大家整理,主要介绍了知识大全 HTML Parser学习 整理常用的解析代码相关的知识,希望对你有一定的参考价值。

HTML Parser学习 整理常用的解析代码  以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!

   获取指定URL地址下面的全部的<>标签名称

  private void visitorFunction()

  try

  Parser parser = new Parser();

  parser setURL( ); parser setEncoding(parser getEncoding());

  NodeVisitor visitor = new NodeVisitor()

  public void visitTag(Tag tag)

  System out print( tag name is: +tag getTagName()+ \\n class is: +tag getClass());

  

  ;

  parser visitAllNodesWith(visitor);

  catch (Exception e)

  // TODO: handle exception

  

  

   获取指定页面的全部的链接地址即URL地址值

  private void visitorFunction()

  try

  Parser parser = new Parser();

  parser setURL( ); parser setEncoding(parser getEncoding());

  NodeVisitor visitor = new NodeVisitor()

  public void visitTag(Tag tag)

  System out print( tag name is: +tag getTagName()+ \\n class is: +tag getClass());

  

  ;

  parser visitAllNodesWith(visitor);

  catch (Exception e)

  // TODO: handle exception

  

  

  这个可以用来当URL队列 网页爬虫将以这些为对象进行顺序抓取全部的相关页面信息

   private void linkBeanFunction()

  Parser parser = new Parser();

  LinkBean linkBean = new LinkBean();

  linkBean setURL( ); URL[] urls = linkBean getLinks();

  for (int i = ; i < urls length; i++)

  URL url = urls[i];

  System out print(url);

  

  

  也可以将全部的URL地址抓取下来的

   抓取页面的全部img标签链接值与图片本身位置

  private void testImageVisitor()

  try

  ImageTag imgLinkImageTag;

  ObjectFindingVisitor visitor = new ObjectFindingVisitor(ImageTag class);

  Parser parser = new Parser();

  parser setURL( ); parser setEncoding(parser getEncoding()); parser visitAllNodesWith(visitor); Node[] nodes = visitor getTags(); for (int i = ; i < nodes length; i++)

  imgLinkImageTag = (ImageTag) nodes[i];//表示的是页面中的IMG标签的

  System out print( image url is: +imgLinkImageTag getImageURL()+ ImageLocation: +imgLinkImageTag extractImageLocn());

  

  catch (Exception e)

  e printStackTrace();

  

  

  查看API发现

cha138/Article/program/Java/hx/201311/27059

相关参考

知识大全 asp中正则表达式过滤html代码函数

  标签是一种算是复杂的东西了我们一般是过滤不了的现在利用正则来操作一下有需要学习的同学可以参考一下本文章  代码如下   <%OptionExplicit  Fu

知识大全 C#过滤HTML代码

C#过滤HTML代码  以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!  publicstringNo

知识大全 ASP函数:移除HTML代码

ASP函数:移除HTML代码  以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!cha138/

知识大全 PHP压缩html网页代码

PHP压缩html网页代码  以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!cha138/A

知识大全 HTML长文本截取含有HTML代码同样适用的两种方法

HTML长文本截取含有HTML代码同样适用的两种方法  以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!

知识大全 PHP删除HTMl标签的实现代码

PHP删除HTMl标签的实现代码  以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!本篇文章是对PHP删

知识大全 一个用C#过滤HTML代码的函数

一个用C#过滤HTML代码的函数  以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!publicstri

知识大全 js过滤HTML标签以及空格的思路及代码

js过滤HTML标签以及空格的思路及代码  以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!  代码如下

知识大全 .NET 2.0中直接得到页面HTML代码

.NET2.0中直接得到页面HTML代码  以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!  在ASP

知识大全 .NET 2.0得到本页生成的HTML代码

.NET2.0得到本页生成的HTML代码  以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!  在ASP