Archive for  Snoopy

让Snoopy也支持HTTPS的解决办法

发表于 2010-03-21 12:40 : 评论 ( 2 条评论 )

How to make Snoopy work with https, we will find out!
Class Name:Snoopy.class.php
Snoopy version:1.2.4

如何让Snoopy这个PHP支持HTTPS,即SSL安全协议,我们今天就来解决这个问题。

First of all, look at the comment of $curl_path in Snoopy.class.php.

Snoopy will use cURL for fetching SSL content if a full system path to the cURL binary is supplied here.
set to false if [...]

php在线翻译类,基于Google翻译API开发(Google Translate API For PHP)

发表于 2010-03-17 00:55 : 评论 ( 7 条评论 )

php 在线翻译程序,支持多国语言,基于Google翻译API开发。

使用Snoopy下载论坛附件,并上传到网盘的实例

发表于 2010-03-12 12:30 : 评论 ( 1 条评论 )

Snoopy无疑是我使用过的最强大的采集类,本博也做过一些简单的入门介绍。

近日,我完成了数个基于Snoopy的程序,如批量下载百度文档附件、论坛附件下载、本地文件批量上传,已经能比较熟练的使用此类。加上本博主要是做采集程序研究的,那么,有必要将Snoopy的一些高级功能拿出来晒晒,照顾下新人。那今天要演示的一个功能是,Snoopy模拟用户登陆论坛并下载附件,并上传到网盘的一个实例。

通过本例,我们要取得附件上传到网盘以后,返回附件在网盘的下载链接。这个功能,可以和火车采集器无缝结合,实现火车采集器文章、Snoopy下载附件并按自定义目录保存、附件同步上传的效果。

首先讲一下模拟用户登陆需要使用到的几个重要数据。

  1. 模拟一个浏览器,如Firefox 3.5,即User-agent;
  2. 登陆论坛的Cookie值;
  3. 一个referer,即来源页地址;

PHP Client Snoopy.class.php 的扩展优化

发表于 2010-01-10 15:02 : 评论 ( 没有评论 )

这几天在研究Snoopy的采集程序,完成对百度文档的采集和附件下载。

其中需要使用到对HTML进行DOM模型操作,读取表单中某个字段的Value,于是在网上找了一些类,发现了HTML SQL 和 DOMDocument两个类,功能还算是比较完善,可惜并没有我想要的效果,于是决定自己动手开发。

其中要加上自己的一些想法,在离开北京的最后一天,写上此文,估计年后就能看到成品了。希望这次回家不要太贪玩了。吼吼。

snoopy(强大的PHP采集类) 实例应用

发表于 2009-01-6 02:16 : 评论 ( 1 条评论 )

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。

下载地址: http://sourceforge.net/project/showfiles.php?group_id=2091

Snoopy的一些特点:

1抓取网页的内容 fetch
2 抓取网页的文本内容 (去除HTML标签) fetchtext
3抓取网页的链接,表单 fetchlinks fetchform
4 支持代理主机
5支持基本的用户名/密码验证
6 支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
7支持浏览器重定向,并能控制重定向深度
8能把网页中的链接扩展成高质量的url(默认)
9提交数据并且获取返回值
10 支持跟踪HTML框架
11支持重定向的时候传递cookies
要求php4以上就可以了 由于本身是php一个类 无需扩支持 服务器不支持curl时候的最好选择,

Snoopy初试,

发表于 2008-09-23 10:46 : 评论 ( 没有评论 )

snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。
下面是它的一些特征:
1、方便抓取网页的内容
2、方便抓取网页的文字(去掉HTML代码)
3、方便抓取网页的链接
4、支持代理主机
5、支持基本的用户/密码认证模式
6、支持自定义用户agent,referer,cookies和header内容
7、支持浏览器转向,并能控制转向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、方便提交数据并且获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持再转向的时候传递cookies

下面是简单的例子,比如说我们抓取我的blog的文字

<?php include "Snoopy.class.php"; $snoopy = new Snoopy; $snoopy->fetchtext("http://www.4wei.cn"); echo $snoopy->results; ?> <?php include "Snoopy.class.php"; $snoopy = new Snoopy; $snoopy->fetchlinks("http://www.4wei.cn"); print_r($snoopy->results); ?>
<?php /** * @name Snoopy手册中文版 * [...]