知识大全 学习XHTM+CSS2.0制作标准站点方法

Posted 文件

篇首语:风流不在谈锋胜,袖手无言味最长。本文由小常识网(cha138.com)小编为大家整理,主要介绍了知识大全 学习XHTM+CSS2.0制作标准站点方法相关的知识,希望对你有一定的参考价值。

学习XHTM+CSS2.0制作标准站点方法  以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!

  我们知道 搜索引擎都有自己的 搜索机器人 (ROBOTS) 并通过这些ROBOTS在网络上沿着网页上的链接(一般是和src链接)不断抓取资料建立自己的数据库     对于网站管理者和内容提供者来说 有时候会有一些站点内容 不希望被ROBOTS抓取而公开 为了解决这个问题 ROBOTS开发界提供了两个办法 一个是robots txt 另一个是The Robots META标签      一 robots txt   什么是robots txt?    robots txt是一个纯文本文件 通过在这个文件中声明该网站中不想被robots访问的部分 这样 该网站的部分或全部内容就可以不被搜索引擎收录了 或者指定搜索引擎只收录指定的内容     当一个搜索机器人访问一个站点时 它会首先检查该站点根目录下是否存在robots txt 如果找到 搜索机器人就会按照该文件中的内容来确定访问的范围 如果该文件不存在 那么搜索机器人就沿着链接抓取     robots txt必须放置在一个站点的根目录下 而且文件名必须全部小写   网站 URL  相应的 robots txt的 URL                             robots txt的语法     robots txt 文件包含一条或更多的记录 这些记录通过空行分开(以CR CR/NL or NL作为结束符) 每一条记录的格式如下所示        <field>:<optionalspace><value><optionalspace>     在该文件中可以使用#进行注解 具体使用方法和UNIX中的惯例一样 该文件中的记录通常以一行或多行User agent开始 后面加上若干Disallow行 详细情况如下     User agent:  该项的值用于描述搜索引擎robot的名字 在 robots txt 文件中 如果有多条User agent记录说明有多个robot会受到该协议的限制 对该文件来说 至少要有一条User agent记录 如果该项的值设为* 则该协议对任何机器人均有效 在 robots txt 文件中 User agent * 这样的记录只能有一条     Disallow :  该项的值用于描述不希望被访问到的一个URL 这个URL可以是一条完整的路径 也可以是部分的 任何以Disallow 开头的URL均不会被robot访问到 例如 Disallow: /help 对/l 和/help/l都不允许搜索引擎访问 而 Disallow: /help/ 则允许robot访问/l 而不能访问/help/l   任何一条Disallow记录为空 说明该网站的所有部分都允许被访问 在 /robots txt 文件中 至少要有一条Disallow记录 如果 /robots txt 是一个空文件 则对于所有的搜索引擎robot 该网站都是开放的     下面是一些robots txt基本的用法   l 禁止所有搜索引擎访问网站的任何部分   User agent: *  Disallow: /  l 允许所有的robot访问  User agent: *  Disallow:  或者也可以建一个空文件 /robots txt file  l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi bin tmp private目录)  User agent: *  Disallow: /cgi bin/  Disallow: /tmp/  Disallow: /private/  l 禁止某个搜索引擎的访问(下例中的BadBot)  User agent: BadBot  Disallow: /  l 只允许某个搜索引擎的访问(下例中的WebCrawler)  User agent: WebCrawler  Disallow:  User agent: *  Disallow: /     常见搜索引擎机器人Robots名字    名称 搜索引擎  Baiduspider   Scooter   ia_archiver   Googlebot   FAST WebCrawler   Slurp   MSNBOT    robots txt举例  下面是一些著名站点的robots txt                常见robots txt错误    l 颠倒了顺序   错误写成  User agent: *  Disallow: GoogleBot  正确的应该是   User agent: GoogleBot  Disallow: *  l 把多个禁止命令放在一行中   例如 错误地写成  Disallow: /css/ /cgi bin/ /images/  正确的应该是  Disallow: /css/  Disallow: /cgi bin/  Disallow: /images/  l 行前有大量空格  例如写成  Disallow: /cgi bin/  尽管在标准没有谈到这个 但是这种方式很容易出问题   l 重定向到另外一个页面   当Robot访问很多没有设置robots txt文件的站点时 会被自动 重定向到另外一个Html页面 这时Robot常常会以处理robots txt文件的方式处理这个Html页面文件 虽然一般这样没有什么问题 但是最好能放一个空白的robots txt文件在站点根目录下   l 采用大写 例如  USER AGENT: EXCITE  DISALLOW:  虽然标准是没有大小写的 但是目录和文件名应该小写   user agent:GoogleBot  disallow:  l 语法中只有Disallow 没有Allow!  错误的写法是   User agent: Baiduspider  Disallow: /john/  allow: /jane/  l 忘记了斜杠/  错误的写做   User agent: Baiduspider  Disallow: css  正确的应该是  User agent: Baiduspider  Disallow: /css/  下面一个小工具专门检查robots txt文件的有效性    bin/robotcheck cgi     二 Robots META标签   什么是Robots META标签  Robots txt文件主要是限制整个站点或者目录的搜索引擎访问情况 而Robots META标签则主要是针对一个个具体的页面 和其他的META标签(如使用的语言 页面的描述 关键词等)一样 Robots META标签也是放在页面的<head></head>中 专门用来告诉搜索引擎ROBOTS如何抓取该页的内容 具体的形式类似(见黑体部分)   <>  <head>  <title>时代营销 网络营销专业门户</title>  <meta name= Robots content= index follow >  <meta equiv= Content Type CONTENT= text/; charset=gb >  <meta name= keywords content= 营销… >  <meta name= description content= 时代营销网是… >  <link rel= stylesheet type= text/css >  </head>  <body>  …  </body>  </>     Robots META标签的写法     Robots META标签中没有大小写之分 name= Robots 表示所有的搜索引擎 可以针对某个具体搜索引擎写为name= BaiduSpider content部分有四个指令选项 index noindex follow nofollow 指令间以 分隔   INDEX 指令告诉搜索机器人抓取该页面   FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去   Robots Meta标签的缺省值是INDEX和FOLLOW 只有inktomi除外 对于它 缺省值是INDEX NOFOLLOW     这样 一共有四种组合   <META NAME= ROBOTS CONTENT= INDEX FOLLOW >  <META NAME= ROBOTS CONTENT= NOINDEX FOLLOW >  <META NAME= ROBOTS CONTENT= INDEX NOFOLLOW >  <META NAME= ROBOTS CONTENT= NOINDEX NOFOLLOW >    其中  <META NAME= ROBOTS CONTENT= INDEX FOLLOW >可以写成  <META NAME= ROBOTS CONTENT= ALL >   <META NAME= ROBOTS CONTENT= NOINDEX NOFOLLOW >可以写成  <META NAME= ROBOTS CONTENT= NONE >  需要注意的是 上述的robots txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则 需要搜索引擎机器人的配合才行 并不是每个ROBOTS都遵守的     目前看来 绝大多数的搜索引擎机器人都遵守robots txt的规则 而对于Robots META标签 目前支持的并不多 但是正在逐渐增加 如著名搜索引擎GOOGLE就完全支持 而且GOOGLE还增加了一个指令 archive 可以限制GOOGLE是否保留网页快照 例如   <META NAME= googlebot CONTENT= index follow noarchive >  表示抓取该站点中页面并沿着页面中链接抓取 但是不在GOOLGE上保留该页面的网页快照 cha138/Article/program/Java/hx/201311/25664

相关参考

知识大全 如何制作初中数学学习计划

如何制作初中数学学习计划计划要考虑全面:学习计划不是除了学习,还是学习。学习有时,休憩有时,娱乐也有时,所有这些都要考虑到计划中。计划要兼顾多个方面,学习时不能废寝忘食,这对身体不好,这样的计划也是不

知识大全 快速学习.net制作水晶报表

net制作水晶报表分以下个步骤  新建一个windowsapplicationCristalTest;  新添加一个数据集DataSetxsd   在DataSet里添加表DataTable

知识大全 想学习游戏制作 需要下载什么软体 还要了解哪方面的知识谢谢

想学习游戏制作需要下载什么软体还要了解哪方面的知识谢谢游戏制作分为游戏程式、游戏美术、游戏策划。你指的应该是游戏程式,一般用的比较多的引擎是cocos2d和unity3d,这些在他们的官网都能下载安装

知识大全 我是电脑小白,在哪里可以详细系统的学习制作PPT及各种办公软件

我是电脑小白,在哪里可以详细系统的学习制作PPT及各种办公软件  以下文字资料是由(本站网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看

知识大全 你好我是一名刚步入建设行业的的新手 公司安排我学习制作资信标 学习资信标的要点您能跟我讲述下吗

你好我是一名刚步入建设行业的的新手公司安排我学习制作资信标学习资信标的要点您能跟我讲述下吗浅论建筑工程保险合同管理筑工程建设周期一般持续时间较长,所涉及到的风险因素较多,如政治、社会、经济、自然、技术

知识大全 我想去技校学习和电脑有关的专业,看到动漫设计与游戏制作,这是一个专业么

我想去技校学习和电脑有关的专业,看到动漫设计与游戏制作,这是一个专业么?两者之间有什么关系么求大神你好,你是想学动漫游戏设计?不知道你是哪里人呢?我是青岛一家韩国学校的,你有什么不懂的可以问我,+++

知识大全 标准专业制作彩票走势图的有吗

标准专业制作彩票走势图的有吗?本人专业设计制作福彩、体彩开奖号码走势图。专业为彩票店,设计计制作循环式彩票开奖号码走势图!名子就是我的联系方式如何用excel制作彩票走势图方法:一,将C列号码分列。选

网线制作标准是什么?

  网线线序标准:  国标A:白绿,绿,白橙,蓝,白蓝,橙,白棕,棕  国标B:白橙,橙,白绿,蓝,白蓝,绿,白棕,棕  直通线:适用于&ldquo;计算机&lt;&mdash

网线制作标准是什么?

  网线线序标准:  国标A:白绿,绿,白橙,蓝,白蓝,橙,白棕,棕  国标B:白橙,橙,白绿,蓝,白蓝,绿,白棕,棕  直通线:适用于&ldquo;计算机&lt;&mdash

知识大全 我想学习制作木马和使用。他们说要学编程,vb可以吗,谁给推荐下,高中没毕业,可以学吗,英文基本忘光了

我想学习制作木马和使用。他们说要学编程,vb可以吗,谁给推荐下,高中没毕业,可以学吗,英文基本忘光了VB是最基础的,只能做个计算器什么的,连个最基本的俄罗斯方块都做不出来,可以学C++,加我好友我交你