PHP使用正则和Snoopy类抓取框架获取淘宝店信誉
2018-03-12 20:57:16
•
阅读
打赏
这篇文章主要介绍了PHP使用正则和Snoopy类抓取框架获取淘宝店信誉,结合实例形式分析了Snoopy框架的使用及正则匹配相关操作技巧,需要的朋友参考下
Snoopy是一个php类,用来模拟浏览器的功能,用于获取网页内容,发送表单,用来开发一些采集程序。
Snoopy特点
抓取网页的内容 fetch,抓取网页的文本内容 (去除HTML标签) fetchtext,抓取网页的链接,表单 fetchlinks fetchform
支持代理主机,支持基本的用户名/密码验证
支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
支持浏览器重定向,并能控制重定向深度
能把网页中的链接扩展成高质量的url(默认)
提交数据并且获取返回值
支持跟踪HTML框架
支持重定向的时候传递cookies
要求php4以上
header("Content-Type:text/html;charset=gbk");
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetch("https://rate.taobao.com/user-rate-UvFk4MCQLvCv4vgTT.htm?spm=a1z10.1-c-s.0.0.6d773f14OshUtS");
$html = $snoopy->results;
preg_match('/<ul class=/"sep/">/s*<li>[/w/W]*align=/"absmiddle/" class=/"rank/" //><//a><//li>/', $html, $result);
//preg_match_all('/<div/sid=/"([a-z0-9_]+)/">([^<>]+)<//div>/',$html,$result);
var_dump($result);
PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:
JavaScript正则表达式在线测试工具:http://tools.jb51.net/regex/javascript
正则表达式在线生成工具:http://tools.jb51.net/regex/create_reg
以上就是本文PHP使用正则和Snoopy类抓取框架获取淘宝店信誉的全部内容,希望本文所述对大家PHP程序设计有所帮助。


相关推荐
深度学习 -- 损失函数
深度残差网络(Deep Residual Networks (ResNets))
深度学习 -- 激活函数
神经网络训练 -- 调整学习速率
生成对抗网络(GAN)改进与发展
生成对抗网络(GAN)优点与缺点
生成对抗网络(GAN)的训练
生成对抗网络(GAN)基本原理
生成模型与判别模型