知识大全 HTML Parser学习 整理常用的解析代码
Posted 地址
篇首语:少年辛苦终身事,莫向光阴惰寸功。本文由小常识网(cha138.com)小编为大家整理,主要介绍了知识大全 HTML Parser学习 整理常用的解析代码相关的知识,希望对你有一定的参考价值。
HTML Parser学习 整理常用的解析代码 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!
获取指定URL地址下面的全部的<>标签名称
private void visitorFunction()
try
Parser parser = new Parser();
parser setURL( ); parser setEncoding(parser getEncoding());
NodeVisitor visitor = new NodeVisitor()
public void visitTag(Tag tag)
System out print( tag name is: +tag getTagName()+ \\n class is: +tag getClass());
;
parser visitAllNodesWith(visitor);
catch (Exception e)
// TODO: handle exception
获取指定页面的全部的链接地址即URL地址值
private void visitorFunction()
try
Parser parser = new Parser();
parser setURL( ); parser setEncoding(parser getEncoding());
NodeVisitor visitor = new NodeVisitor()
public void visitTag(Tag tag)
System out print( tag name is: +tag getTagName()+ \\n class is: +tag getClass());
;
parser visitAllNodesWith(visitor);
catch (Exception e)
// TODO: handle exception
这个可以用来当URL队列 网页爬虫将以这些为对象进行顺序抓取全部的相关页面信息
private void linkBeanFunction()
Parser parser = new Parser();
LinkBean linkBean = new LinkBean();
linkBean setURL( ); URL[] urls = linkBean getLinks();
for (int i = ; i < urls length; i++)
URL url = urls[i];
System out print(url);
也可以将全部的URL地址抓取下来的
抓取页面的全部img标签链接值与图片本身位置
private void testImageVisitor()
try
ImageTag imgLinkImageTag;
ObjectFindingVisitor visitor = new ObjectFindingVisitor(ImageTag class);
Parser parser = new Parser();
parser setURL( ); parser setEncoding(parser getEncoding()); parser visitAllNodesWith(visitor); Node[] nodes = visitor getTags(); for (int i = ; i < nodes length; i++)
imgLinkImageTag = (ImageTag) nodes[i];//表示的是页面中的IMG标签的
System out print( image url is: +imgLinkImageTag getImageURL()+ ImageLocation: +imgLinkImageTag extractImageLocn());
catch (Exception e)
e printStackTrace();
查看API发现
cha138/Article/program/Java/hx/201311/27059相关参考
标签是一种算是复杂的东西了我们一般是过滤不了的现在利用正则来操作一下有需要学习的同学可以参考一下本文章 代码如下 <%OptionExplicit Fu
C#过滤HTML代码 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! publicstringNo
ASP函数:移除HTML代码 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!cha138/
PHP压缩html网页代码 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!cha138/A
知识大全 HTML长文本截取含有HTML代码同样适用的两种方法
HTML长文本截取含有HTML代码同样适用的两种方法 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!
PHP删除HTMl标签的实现代码 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!本篇文章是对PHP删
一个用C#过滤HTML代码的函数 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!publicstri
js过滤HTML标签以及空格的思路及代码 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 代码如下
.NET2.0中直接得到页面HTML代码 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 在ASP
.NET2.0得到本页生成的HTML代码 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 在ASP