Archive for Snoopy
snoopy模拟登陆后采集https开头的aspx页面[转]
发表于 2011-03-24 08:59 : 评论 ( 没有评论 )
阅读前请看Snoopy+Https的配置文章:让Snoopy也支持HTTPS的解决办法 snoopy采集https,会调用curl模块,因为要确保安装了该模块,并且指明了路径。(snoopy默认指定的就是正确的)
让Snoopy也支持HTTPS的解决办法
发表于 2010-03-21 12:40 : 评论 ( 3 条评论 )
How to make Snoopy work with https, we will find out! Class Name:Snoopy.class.php Snoopy version:1.2.4 如何让Snoopy这个PHP支持HTTPS,即SSL安全协议,我们今天就来解决这个问题。 First of all, look at the comment of $curl_path in Snoopy.class.php. Snoopy will use cURL for fetching SSL content if a full system path to the cURL binary is supplied here. set to false if you do not have [...]
php在线翻译类,基于Google翻译API开发(Google Translate API For PHP)
发表于 2010-03-17 00:55 : 评论 ( 12 条评论 )
php 在线翻译程序,支持多国语言,基于Google翻译API开发。
使用Snoopy下载论坛附件,并上传到网盘的实例
发表于 2010-03-12 12:30 : 评论 ( 1 条评论 )
Snoopy无疑是我使用过的最强大的采集类,本博也做过一些简单的入门介绍。 近日,我完成了数个基于Snoopy的程序,如批量下载百度文档附件、论坛附件下载、本地文件批量上传,已经能比较熟练的使用此类。加上本博主要是做采集程序研究的,那么,有必要将Snoopy的一些高级功能拿出来晒晒,照顾下新人。那今天要演示的一个功能是,Snoopy模拟用户登陆论坛并下载附件,并上传到网盘的一个实例。 通过本例,我们要取得附件上传到网盘以后,返回附件在网盘的下载链接。这个功能,可以和火车采集器无缝结合,实现火车采集器文章、Snoopy下载附件并按自定义目录保存、附件同步上传的效果。 首先讲一下模拟用户登陆需要使用到的几个重要数据。 模拟一个浏览器,如Firefox 3.5,即User-agent; 登陆论坛的Cookie值; 一个referer,即来源页地址;
PHP Client Snoopy.class.php 的扩展优化
发表于 2010-01-10 15:02 : 评论 ( 没有评论 )
这几天在研究Snoopy的采集程序,完成对百度文档的采集和附件下载。 其中需要使用到对HTML进行DOM模型操作,读取表单中某个字段的Value,于是在网上找了一些类,发现了HTML SQL 和 DOMDocument两个类,功能还算是比较完善,可惜并没有我想要的效果,于是决定自己动手开发。 其中要加上自己的一些想法,在离开北京的最后一天,写上此文,估计年后就能看到成品了。希望这次回家不要太贪玩了。吼吼。
snoopy(强大的PHP采集类) 实例应用
发表于 2009-01-6 02:16 : 评论 ( 1 条评论 )
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。 下载地址: http://sourceforge.net/project/showfiles.php?group_id=2091 Snoopy的一些特点: 1抓取网页的内容 fetch 2 抓取网页的文本内容 (去除HTML标签) fetchtext 3抓取网页的链接,表单 fetchlinks fetchform 4 支持代理主机 5支持基本的用户名/密码验证 6 支持设置 user_agent, referer(来路), cookies 和 header content(头文件) 7支持浏览器重定向,并能控制重定向深度 8能把网页中的链接扩展成高质量的url(默认) 9提交数据并且获取返回值 10 支持跟踪HTML框架 11支持重定向的时候传递cookies 要求php4以上就可以了 由于本身是php一个类 无需扩支持 服务器不支持curl时候的最好选择,
Snoopy初试,
发表于 2008-09-23 10:46 : 评论 ( 没有评论 )
snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。 下面是它的一些特征: 1、方便抓取网页的内容 2、方便抓取网页的文字(去掉HTML代码) 3、方便抓取网页的链接 4、支持代理主机 5、支持基本的用户/密码认证模式 6、支持自定义用户agent,referer,cookies和header内容 7、支持浏览器转向,并能控制转向深度 8、能把网页中的链接扩展成高质量的url(默认) 9、方便提交数据并且获取返回值 10、支持跟踪HTML框架(v0.92增加) 11、支持再转向的时候传递cookies 下面是简单的例子,比如说我们抓取我的blog的文字 <?php include "Snoopy.class.php"; $snoopy = new Snoopy; $snoopy->fetchtext("http://www.4wei.cn"); echo $snoopy->results; ?> <?php include "Snoopy.class.php"; $snoopy = new Snoopy; $snoopy->fetchlinks("http://www.4wei.cn"); print_r($snoopy->results); ?> <?php /** * @name Snoopy手册中文版 * @author 毛毛虫 wangchong1985@gmail.com * @version Snoopy - the PHP net client v1.2.2 * @link [...]
