首页 > PHP教程 > php开发知识文章

PHP使用正则和Snoopy类抓取框架获取淘宝店信誉

这篇文章主要介绍了PHP使用正则和Snoopy类抓取框架获取淘宝店信誉,结合实例形式分析了Snoopy框架的使用及正则匹配相关操作技巧,需要的朋友参考下

Snoopy是一个php类,用来模拟浏览器的功能,用于获取网页内容,发送表单,用来开发一些采集程序。

Snoopy特点

抓取网页的内容 fetch,抓取网页的文本内容 (去除HTML标签) fetchtext,抓取网页的链接,表单 fetchlinks fetchform

支持代理主机,支持基本的用户名/密码验证

支持设置 user_agent, referer(来路), cookies 和 header content(头文件)

支持浏览器重定向,并能控制重定向深度

能把网页中的链接扩展成高质量的url(默认)

提交数据并且获取返回值

支持跟踪HTML框架

支持重定向的时候传递cookies

要求php4以上

header("Content-Type:text/html;charset=gbk");
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetch("https://rate.taobao.com/user-rate-UvFk4MCQLvCv4vgTT.htm?spm=a1z10.1-c-s.0.0.6d773f14OshUtS");
$html = $snoopy->results;
preg_match('/<ul class=/"sep/">/s*<li>[/w/W]*align=/"absmiddle/" class=/"rank/" //><//a><//li>/', $html, $result);
//preg_match_all('/<div/sid=/"([a-z0-9_]+)/">([^<>]+)<//div>/',$html,$result);
var_dump($result);

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:http://tools.jb51.net/regex/create_reg

以上就是本文PHP使用正则和Snoopy类抓取框架获取淘宝店信誉的全部内容,希望本文所述对大家PHP程序设计有所帮助。

正则表达式

关闭
感谢您的支持,我会继续努力!
扫码打赏,建议金额1-10元


提醒:打赏金额将直接进入对方账号,无法退款,请您谨慎操作。