网站首页 站群教程 原创站群教程 正文
很多网站设置了301重定向,禁止游客访问,只允许百度ua真实跳转。
下面的php可以实现规则适配,批量抓取,并保存真实的落地页。
首先我们新建一个url.txt,里面放上域名及规则,一行一个,比如:http://www.zqcx.cn/{数字5}.html
然后我们新建一个php,代码如下:
<?php // 读取url.txt文件中的域名列表 $urls = file('url.txt', FILE_IGNORE_NEW_LINES | FILE_SKIP_EMPTY_LINES); // 支持的标签 $tags = [ '{年}' => date('Y'), '{月}' => date('m'), '{日}' => date('d'), '{时}' => date('H'), '{分}' => date('i'), '{秒}' => date('s') ]; // 创建一个用于保存301重定向后页面的数组 $redirects = []; // 遍历域名列表 foreach ($urls as $url) { // 替换URL中的标签 foreach ($tags as $tag => $value) { $url = str_replace($tag, $value, $url); } // 匹配并替换{n}为随机数 preg_match_all('/{数字(\d+)}/', $url, $matches); foreach ($matches[1] as $match) { $replace = ''; for ($i = 0; $i < $match; $i++) { $replace .= mt_rand(0, 9); } $url = str_replace('{数字'.$match.'}', $replace, $url); } // 模拟百度蜘蛛访问 $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)'); // 添加等待时间(单位:秒) $waitTime = 3; curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $waitTime); // 连接超时时间 curl_setopt($ch, CURLOPT_TIMEOUT, $waitTime); // 总超时时间 curl_exec($ch); // 获取重定向后的地址 $redirectUrl = curl_getinfo($ch, CURLINFO_EFFECTIVE_URL); // 提取根域名 $parsedUrl = parse_url($redirectUrl); $rootDomain = getRootDomain($parsedUrl['host']); // 关闭curl请求 curl_close($ch); // 判断是否已经存在相同的根域名,如果不存在则添加到数组中 if (!in_array($rootDomain, $redirects)) { $redirects[] = $rootDomain; } } // 将重定向地址写入301.txt文件 file_put_contents('301.txt', implode(PHP_EOL, $redirects)); echo '完成!'; /** * 取得根域名 * @param string $domain 域名 * @return string 返回根域名 */ function getRootDomain($domain) { $re_domain = ""; $domain_postfix_cn_array = array("com", "net", "org", "gov", "edu", "icu","top","com.cn", "cn"); $array_domain = explode(".", $domain); $array_num = count($array_domain) - 1; if ($array_domain[$array_num] == 'cn') { if (in_array($array_domain[$array_num - 1], $domain_postfix_cn_array)) { $re_domain = $array_domain[$array_num - 2] . "." . $array_domain[$array_num - 1] . "." . $array_domain[$array_num]; } else { $re_domain = $array_domain[$array_num - 1] . "." . $array_domain[$array_num]; } } else { $re_domain = $array_domain[$array_num - 1] . "." . $array_domain[$array_num]; } return $re_domain; } ?>
我们访问上面的php文件,即可实现抓取url.txt里面的网站,它会自动获取301后的目标页面,自动去重,只保留根域名在301.txt中。
- 上一篇: ccspider蜘蛛统计插件
- 下一篇: CCSEO原创蜘蛛统计v1.1
必看说明
- 本站中所有被研究的素材与信息全部来源于互联网,版权争议与本站无关。
- 本站文章或仅为文本内容原创,非程序原创。如有侵权、不妥之处,请联系站长第一时间删除。敬请谅解!
- 本站所有内容严格遵守国家法律的条例,所有研究的算法技术均来源于搜索引擎公开默认允许用户研究使用的接口。
- 阅读本文及获取资源前,请确保您已充分阅读并理解《访问曹操SEO网站需知:行为准则》。
- 本站分享的任何工具、程序仅供学习参考编写架构,仅可在本地的虚拟机内断网测试,严禁联网运行或上传搭建!
- 任何资源必须在下载后24个小时内,从电脑中彻底删除。不得传播或者用于其他任何用途!否则一切后果用户自负!
- 转载请注明 : 文章转载自 站群程序 跟踪301重定向获取落地页域名的php代码
- 本文标题:《跟踪301重定向获取落地页域名的php代码》
- 本文链接:http://www.zqcx.cn/46.html
猜你喜欢
- 2024-10-06 关于SEO的一些真诚思考
- 2024-08-18 罪恶克星:不良网站举报工具填表版
- 2024-04-22 通过Nginx配置增强网站安全性
- 2024-04-01 CCSEO原创蜘蛛统计v1.3
- 2024-03-23 本地IP可用的ChatGPT软件V1.1
- 2024-01-27 CCSEO原创蜘蛛统计v1.2
- 2024-01-26 通过伪静态实现非蜘蛛则跳转的代码
- 2023-12-15 实现IP地址屏蔽和白名单功能的php代码
- 2023-11-27 如何使用伪静态全站301实现集权和保持流量到主站
- 2023-10-22 本地IP可用的ChatGPT软件:生成UTF-8格式
你 发表评论:
欢迎- 7948℃遵纪守法:一起举报违法网址
- 7090℃警惕“冒用身份”的电信网络诈骗
- 7069℃备案域名的买卖管控会越来越严,不要尝试!
- 4969℃6月1日是《中华人民共和国网络安全法》实施五周年
- 4506℃违规事件分类与违规信息类型说明
- 4319℃关于严格遵守网络安全法规的公告
- 6297℃百度正打击构造虚假标题等违规站点
- 8153℃「百日行动」“断卡”行动持续发力
- 16042℃懒人开源站群程序V2.4.2:影视模板V2
- 15723℃通过Nginx配置增强网站安全性
- 14647℃多线程批量查询百家号文章存活情况
- 14353℃搜狐号安全系统升级通知
- 12285℃多线程批量查询链接收录情况(免代理)
- 12062℃百家号批量发布软件V1.8.5
- 11155℃企业网站安全漏洞应对:从修复到增强全方位安全新举措
- 8308℃CCSEO原创蜘蛛统计v1.3
- 10-06关于SEO的一些真诚思考
- 08-18罪恶克星:不良网站举报工具填表版
- 05-01多线程批量查询百家号文章存活情况
- 04-22通过Nginx配置增强网站安全性
- 04-22企业网站安全漏洞应对:从修复到增强全方位安全新举措
- 04-21搜狐号安全系统升级通知
- 04-18多线程批量查询链接收录情况(免代理)
- 04-09懒人开源站群程序V2.4.2:影视模板V2
- 近期评论
- 文章归档
-
- 2024年10月 (1)
- 2024年8月 (1)
- 2024年5月 (1)
- 2024年4月 (10)
- 2024年3月 (6)
- 2024年1月 (2)
- 2023年12月 (4)
- 2023年11月 (2)
- 2023年10月 (7)
- 2023年9月 (24)
- 2023年8月 (6)
- 2023年7月 (20)
- 2023年6月 (13)
- 2023年5月 (26)
- 2023年4月 (48)
- 2023年3月 (21)
- 2023年2月 (15)
- 2023年1月 (10)
- 2022年12月 (10)
- 2022年11月 (3)
- 2022年10月 (28)
- 2022年9月 (37)
- 2022年8月 (16)
- 2022年7月 (23)
- 2022年6月 (24)
- 2022年5月 (10)
- 2022年4月 (53)
- 2022年3月 (67)
- 2022年2月 (3)
- 2022年1月 (4)
- 2021年12月 (24)
- 2021年11月 (18)
- 2021年10月 (3)
- 2021年9月 (22)
- 2021年8月 (60)
- 2021年7月 (3)
- 2021年6月 (16)
- 2021年5月 (25)
- 2021年4月 (1)
- 2021年3月 (39)
- 2021年1月 (7)
- 2020年12月 (19)
- 2020年11月 (11)
- 2020年10月 (49)
- 2020年9月 (114)
- 2020年8月 (63)
- 2020年7月 (28)
- 2020年6月 (50)
- 2020年5月 (124)
- 2020年4月 (83)
- 2020年3月 (91)
- 2020年2月 (81)
- 2020年1月 (18)
- 2019年12月 (79)
- 2019年11月 (16)
- 2019年10月 (35)
- 2019年9月 (3)
- 2017年12月 (1)
- 2017年11月 (203)
- 2017年10月 (155)
- 标签列表
- 站点信息
-
- 文章总数:2024
- 页面总数:7
- 分类总数:46
- 标签总数:340
- 评论总数:9359
- 浏览总数:5876264
已有48位网友发表了看法: