Archive for  LocoySpider

火车采集器多页面采集功能的使用,视频教程

发表于 2010-03-26 22:43 : 评论 ( 6 条评论 )

本集视频教程通过三个网站的多页采集方法,讲解火车采集器的多页采集功能。 多页面采集适合的情景: 内容页中含有通向多页的链接,或者有某些第三个需要的参数 多页可以通过内容页的地址生成 内容页中,只有一个多页链接 多页面采集的常见网站类型: 内容页中有框架页面 内容页中有Ajax请求页面 内容页中有JS调用页面,如淘宝网 内容页中的第三页需要的参数,如软件下载网站

火车采集器获取Cookie不准确、登陆不正常、不能下载附件的解决办法

发表于 2010-03-2 14:40 : 评论 ( 10 条评论 )

使用火车采集器内置的浏览器,能很方便的获取到需要登陆的网站Cookie值,基本上能满足大多数网站的采集需求。 然而,受系统权限和目标网站的验证限制,有一些情况,使用火车采集器内置浏览器获取的Cookie并不准确,或者虽然Cookie值是准确的,却无法正常的模拟登陆,出现一些不能登陆发布内容、不能正常发布附件的情况。造成反复登陆却总是提示没有登陆的错误提示,或者下载附件时,出现下载的附件是一些.php文件的情况。 针对这种情况,尘缘今天做了2010年的第一个视频教程。今天讲的内容,着重分析了问题产生的原因和解决办法,并仔细讲了如何解决不能下载附件的一些解决办法。 希望对大家有用。今天的视频,我依然使用最高清晰度的压制比例,视频文件可能个头比较大,目的是为了让大家看清楚画面上的文字,避免产生误导。

开发了酷讯-Kuxun的火车时刻表采集程序PHP接口

发表于 2009-11-8 03:11 : 评论 ( 没有评论 )

Kuxun的车次使用Json编码,火车采集时,直接采集车次就行,这个接口可以把车站、里程、价格等信息处理成表格形式,方便处理。 火车采集器标准版用户可以直接使用,其它程序的用户可以改改PHP代码运行。 接口下载:酷讯采集程序

Discuz7论坛规则的制作,附件的下载与上传视频教程。

发表于 2009-08-19 12:05 : 评论 ( 没有评论 )

这部视频是【Discuz!7.0.0接口的使用教程】姊妹篇的下集。 上一集我们主要针对Discuz接口讲了常见外部接口的安装与使用方法,这一集,我们也以Discuz为例子,讲一下Discuz论坛规则的制作方法,包括主楼和回复的采集,附件的下载,以及搭配接口实现附件发布的效果。 在这集里,我们并没有对教程进行事先准备,这个教程中的规则制作和附件下载上传,均是一般用户操作过程的真实记录,以还原在采集过程中,用户会遇到的问题,以及解决办法。虽然教程中有很多地方显示得过于散乱和啰嗦,但也最真实的反映出了采集的整个过程。 在这一集里,我们着重讲了以下几个要点。 一,帖子和回复的采集; 二,帖子内容的过滤替换方法; 三,论坛需要登陆采集的设置与采集办法; 四,附件下载限制的突破与下载设置; 五,接口的使用,附件的上传和识别。 本期教程,使用AVI格式语音视频录制,解压后500M,体积稍显庞大。在本文发布以后,对会视频进行多次压制以减轻用户下载的压力。当然,如果会员帮助压制,我们会给予一定的奖励。 视频下载地址1:http://www.rayfile.com/zh-cn/files/f267b2b0-8c26-11de-a381-0014221b798a/ 视频下载地址2:http://www.4wei.cn/files/Discuz!7.X.%E8%AE%BA%E5%9D%9B%E9%87%87%E9%9B%86%E4%B8%8E%E5%8F%91%E5%B8%83%E6%95%99%E7%A8%8B.rar 配套规则与更多视频下载地址请登陆:http://bbs.locoy.com/spider-42906-1-1.html

解决DEDE中UrlEncode乱码的问题

发表于 2009-06-26 10:20 : 评论 ( 9 条评论 )

我们知道,用火车采集器发布数据时,可能会需要使用UrlEncode发布。如:空格丢失,内容中含有&等可能隔断参数的符号等,由于DEDE默认没有加入对变量的转码处理,所以,使用UrlEncode发布到DEDE时,会出现乱码现像。 此文为解决办法。 修改DEDE管理员目录,默认为dede。 在dede/config.php末尾中加一段代码即可 以下为图片示例,看得清楚一些: 代码如下: 如果要遍历数组,对所有值进行处理的话,我写了一个递归函数,适于用所有变量,包括变量中的数组,非技术人员可以飞过。

A5采访笔录

发表于 2009-04-3 14:15 : 评论 ( 没有评论 )

1. 简单介绍下自己的目前的情况 大家好,我是火车采集器的尘缘。我加入火车团队已经两年了,目前担任火车采集器论坛的管理员,负责论坛用户服务、火车采集器软件的销售和售后。目前在研究火车采集器+PHP程序的自动化网站内容解决方案,欢迎朋友们到火车采集器论坛做客。

国内常见博客的采集办法

发表于 2009-02-16 23:17 : 评论 ( 3 条评论 )

接到一个客户的单子,采集国内常见博客指定用户的文章。经整理发现,这些博客都加上了防采集技术。主要是采用隐藏或者Js获取文章列表、内容采用多模板防采集技术等。

说一下近期开发的自动预发布接口和自动审核程序

发表于 2009-02-15 07:44 : 评论 ( 2 条评论 )

一,先给个定义。 什么是发布接口: 发布接口,一般来说,是放在服务器端的一个页面。 对火车而言,其实是一个入库程序。对于一般的CMS而言,接口就是内容发布页面了。 简单来理解,就是一般的网站后台发布数据的那个程序页面。 一般情况下,我们可以用默认的发布程序来处理相关数据,这种情况呢,不需要我们修改任何文件 ,可以直接使用在每个相同程序的网站上。这种以默认发布程序做的发布模块,有一个好处就是,模块制作方便且通用性强。我们一般都采用这样的方式来发布采集的数据。 随着采集技术的提高和SEO理念的成熟,很多站长已经不满足于单一的数据采集,而是想尽量丰富和完善网站内容,甚至有把采集的数据变成原创甚至超原创的内容。使用默认的网站发布程序,肯定不能满足我们的要求了。主要表现在几个方面。 第一,默认的网站程序都需要登陆 ,需要登陆就涉及到一个保存Cookie的问题,每次发布数据都需要用火车登陆一下网站,否则就无法发布数据,这样极大增加了发布的难度和操作的复杂性,很多新手始终找不到错误原因。 第二,发布的内容单一。一般来说,默认的发布页面只能发布标题,内容,作者和时间等字段内容等字段,有的网站作者还是限定为发布者。像一些招聘网站,发布求职信息的用户名都是不一样的,使用默认程序发布出来的数据,都是同一个用户,这个显然不合实际。 第三,功能单一,无个性化。 针对这些问题,我们提出了发布接口的这么一个概念。这个接口,可以理解为,个性化的内容发布程序,这个程序可以是手工写的,也可以是直接修改原发布程序而来。可能这个发布接口,其实仅仅就是取消了一段原程序的登陆验证代码,实现不需要登陆的功能。这样的程序呢,我们就叫接口程序。 不同的接口,可以实现不同的功能。