常见网站程序文件目录识别大全
一、网站程序文件及其作用
织梦dedecms的程序文件:
a---------静态页面,默认生成文件储存目录
data------网站数据
dede-----网站后台(上线后改名)
images---网站图片
include---网站程序
install----网站安装文件(上线后删除)
m--------网站手机端
member-网站会员
plus------插件
special---专题页:做活动时用的
templets-模板
uploads--放上传文件,视频,图片
favicon--网站小图标(小logo)
tags.php-标签文件
robots---搜索引擎和网站的协议
WordPress程序根目录
wp-admin :网站后台
wp-content:里面放语言 主题和插件
wp-includes:目录文件
wp-config.php:配置文件
index.php:wordpress:核心索引文件,即博客输出文件。
license.txt:WordPressGPL许 可证文件
readme.html:WordPress安装导言。
wp-blog-header.php:根据博客参数定义博客页面显示内容。
wp-comments-post.php:接收评论,并把其添加到数据库。
wp-config-sample.php:把WordPress连接到MySQL数据库的示例配置文件。
wp-config.php:这是真正把WordPress连接到MySQL数据库的配置文件。默认安装中虽不包括它,但由于WordPress运行需要这一文件,因此,用户需要编辑这个文件以更改相关设置
wp-links-opml.php:生成OPML格式的链接(通过WordPress管理菜单添加)列表。
wp-login.php:定义注册用户的登陆页面。
WordPress根目录截图
二、 认识robots及其写法规则
1、 robots
是指搜索引擎抓到**个文件,规定蜘蛛抓取什么和不抓取什么;网站管理员可以在robots文件夹对蜘蛛做出规定,抓取与不抓取。是网站根目录的一个txt文件,文件名;robots.txt
2、作用:
1)、禁止抓取隐私内容
2)、集中权重,利于排名
3)、统一路径,不让存在2个路径,会屏蔽动态;
总结:屏蔽网站无价值页面
3、robots的写法规则
1)、User-agent:定义搜索引擎类型,该值用于描述搜索引擎robotsde 名字不同搜索引擎的蜘蛛(谷歌、百度、腾讯SOSO、搜狗、360Spider)名字不同;
2)、Disallow:禁止(屏蔽)蜘蛛抓取收录的地址
(Disallow:/wp-* 就是禁止/开头是wp-字母的所有文件夹)
3)、ALLow:允许抓取
(Allow:/*就是允许所有抓取)
4)、*:通配符,指所有
5)、$:结尾
6)、Sitmap 网站地图地址 xml html 2个版本
4、注意事项
1)、不要随便屏蔽整站;要写英文的
2)、语句是“:后空1格/”+域名
3)、首个字母大写
4)、ALLow,遵从最详细的规则;
Disallow: /dede/ Allow: /dede/1.htnl
语句意思是:只能抓取dede文件夹里的“1”文件,其余不可以抓取;
5)、网站安全: 屏蔽后台文件夹,避免暴露建站程序被人攻击
6)、区分
Disallow: /ab (ab开头的文件夹或文件都会禁止抓取)
Disallow: /ab/(屏蔽ab文件夹里的文件)
Disallow: / ab (ab前多一个空格相当于Disallow:/ 屏蔽了所有文件夹整个网站域名)/后面不能加空格
5、再举例:
Disallow: /#?# 指:屏蔽所有动态;
Disallow: /?# 指:屏蔽带有“/?参数”的动态地址
Disallow: /tag/* 指:屏蔽所有标签
Disallow: /plus/* 指:屏蔽所有插件
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
| 序号 | | | |
| http://***.***.***/include111.htm | | |
| http://***.***.***/include/arc.partview.class | | |
| http://***.***.***/include.htm | | |
6、 提交与检测robots,将需要禁止的文件生成robors.txt文件,上传到根目录 ;
7、检测
1)百度站长平台,查看以及检测
2)站长工具 http://www.5118.com/robots