WordPress采集发布模块,2.8/2.9通用

此模块通用于以下版本:

  1. WordPress 2.8.x中英文版
  2. WordPress 2.9.x中英文版
  3. 其它版本未测试

此模块需要含有以下标签:

  1. [标签:标题]
    [标签:内容]
    [标签:摘要]
    [标签:关键字]
    [标签:tag]
  2. 建立规则时,请先使用智能导入,将模块听中的模块导入规则
  3. tag和关键字,使用半角逗号分隔

此模块适用于以下版本的火车采集器软件:

  1. 火车采集器2010测试版
  2. 火车采集器2008、2009版

继续阅读WordPress采集发布模块,2.8/2.9通用

火车采集器获取Cookie不准确、登陆不正常、不能下载附件的解决办法

使用火车采集器内置的浏览器,能很方便的获取到需要登陆的网站Cookie值,基本上能满足大多数网站的采集需求。

然而,受系统权限和目标网站的验证限制,有一些情况,使用火车采集器内置浏览器获取的Cookie并不准确,或者虽然Cookie值是准确的,却无法正常的模拟登陆,出现一些不能登陆发布内容、不能正常发布附件的情况。造成反复登陆却总是提示没有登陆的错误提示,或者下载附件时,出现下载的附件是一些.php文件的情况。

针对这种情况,尘缘今天做了2010年的第一个视频教程。今天讲的内容,着重分析了问题产生的原因和解决办法,并仔细讲了如何解决不能下载附件的一些解决办法。

希望对大家有用。今天的视频,我依然使用最高清晰度的压制比例,视频文件可能个头比较大,目的是为了让大家看清楚画面上的文字,避免产生误导。

继续阅读火车采集器获取Cookie不准确、登陆不正常、不能下载附件的解决办法

实现PHP168图片模型的采集、发布、缩略图提取下载

使用火车采集器往PHP168发布数据,总有很多问题,从V5到现在的V6。

由于使用的人数并不多,这里就不多讲问题原因了。

以下是我的解决办法,简单思路为:

  1. 使用HTML代码的形式,发布图片内容,使用正则提取图片地址。
  2. 分析每条图片地址,如果是远程图片,就将图片下载到地。
  3. 检查缩略图是否存在,不存的话,自动从内容中提取缩略图。

继续阅读实现PHP168图片模型的采集、发布、缩略图提取下载

Discuz采集全能接口,Discuz 论坛采集软件[2010-12-12]

Discuz7.1/7.2全能接口,在Discuz!7.0.0接口上升级而来,解决了很多用户需要的用户注册功能、贴内附件功能、原贴作者和原贴时间的功能。尤其是附件识别功能,非常完美。

本接口命名为Discuz!Ultimate,升级版本命名SP+,请各位核对版本号。

目前最新版是2010年04月13号发布的Discuz!7.2_Ultimate_SP5版本

如果您在寻找Discuz!X的发布接口,请移贵步至:http://www.4wei.cn/archives/1000695

如果您在寻找PHPWind的发布接口,请移贵步至:http://www.4wei.cn/archives/1000788

继续阅读Discuz采集全能接口,Discuz 论坛采集软件[2010-12-12]

PHP168_V6实现指定、自动提取、下载缩略图并生成小缩略图图

其实PHP168有提取缩略图的功能,但是为什么无效就不太清楚了,飞雪为了这个功能,找我订做了两次,V5和V6两个版本都有这样的问题。
于是,改了一下程序,可以实现和DEDE一样的功能。即指定或者提取图片地址并下载,同时生成图片的小缩略图。

继续阅读PHP168_V6实现指定、自动提取、下载缩略图并生成小缩略图图

解决DEDE中UrlEncode乱码的问题

我们知道,用火车采集器发布数据时,可能会需要使用UrlEncode发布。如:空格丢失,内容中含有&等可能隔断参数的符号等,由于DEDE默认没有加入对变量的转码处理,所以,使用UrlEncode发布到DEDE时,会出现乱码现像。

此文为解决办法。

修改DEDE管理员目录,默认为dede。

在dede/config.php末尾中加一段代码即可

以下为图片示例,看得清楚一些:

代码如下:

//给POST变量做转码处理,适用于火车采集器中Urlencode发布的内容
foreach($_POST as $key=>$value){ !is_array($value) && ${$key} = $_POST[$key] = urldecode($value); }

如果要遍历数组,对所有值进行处理的话,我写了一个递归函数,适于用所有变量,包括变量中的数组,非技术人员可以飞过。

function ArrayUrldecode($_POST){
 foreach($_POST as $key=>$value){
 if(is_array($value)){
 ArrayUrldecode($value);
 }else{
 $_POST[$key] = urldecode($value);
 }
 }
 return $_POST;
}

A5采访笔录

1. 简单介绍下自己的目前的情况

大家好,我是火车采集器的尘缘。我加入火车团队已经两年了,目前担任火车采集器论坛的管理员,负责论坛用户服务、火车采集器软件的销售和售后。目前在研究火车采集器+PHP程序的自动化网站内容解决方案,欢迎朋友们到火车采集器论坛做客。 继续阅读A5采访笔录

使用火车采集器实现PHP168“批量发图”的功能

说几句闲话先,一年前,Php168离开Ku6,南下广州时,曾疯狂的支持过P8一段时间,但是终因其功能的不完善而转战DEDE。近期,PHPcms的创始人离职,意味着PHPcms正式沦为一个商业化运作的商品,暂时不说PHPcms以后的发展到底是好是坏,也不发表什么个人意见。

就在众多CMS用户起哄之时,PHP168起来冒皮皮,打着“国内头号CMS” 的小旗呐喊,“要重振PHP的CMS行业”。

这则新闻是在“全国知名站长群”里看到的,当时还和发布此文的站长嘴了几句。要不是看着自己挂着公司的头衔,差点撕破脸皮了。当时就觉得,这些个家伙们要不就是“乱世造英雄”,要不就是企图“混水摸鱼”。

很奇怪当时会那么热血青年,但是PHP168确实“忽略”了很现实的现实。

就目前PHP的CMS行业来说,DEDE和Discuz无疑是用户最多的CMS。PHP168竟然能无视两位大哥,甚至前辈就能如此造次,确实有些汗人。 继续阅读使用火车采集器实现PHP168“批量发图”的功能

说一下近期开发的自动预发布接口和自动审核程序

一,先给个定义。

  1. 什么是发布接口:
  2. 发布接口,一般来说,是放在服务器端的一个页面。
    对火车而言,其实是一个入库程序。对于一般的CMS而言,接口就是内容发布页面了。
    简单来理解,就是一般的网站后台发布数据的那个程序页面。
    一般情况下,我们可以用默认的发布程序来处理相关数据,这种情况呢,不需要我们修改任何文件 ,可以直接使用在每个相同程序的网站上。这种以默认发布程序做的发布模块,有一个好处就是,模块制作方便且通用性强。我们一般都采用这样的方式来发布采集的数据。

    随着采集技术的提高和SEO理念的成熟,很多站长已经不满足于单一的数据采集,而是想尽量丰富和完善网站内容,甚至有把采集的数据变成原创甚至超原创的内容。使用默认的网站发布程序,肯定不能满足我们的要求了。主要表现在几个方面。

    第一,默认的网站程序都需要登陆 ,需要登陆就涉及到一个保存Cookie的问题,每次发布数据都需要用火车登陆一下网站,否则就无法发布数据,这样极大增加了发布的难度和操作的复杂性,很多新手始终找不到错误原因。

    第二,发布的内容单一。一般来说,默认的发布页面只能发布标题,内容,作者和时间等字段内容等字段,有的网站作者还是限定为发布者。像一些招聘网站,发布求职信息的用户名都是不一样的,使用默认程序发布出来的数据,都是同一个用户,这个显然不合实际。

    第三,功能单一,无个性化。

    针对这些问题,我们提出了发布接口的这么一个概念。这个接口,可以理解为,个性化的内容发布程序,这个程序可以是手工写的,也可以是直接修改原发布程序而来。可能这个发布接口,其实仅仅就是取消了一段原程序的登陆验证代码,实现不需要登陆的功能。这样的程序呢,我们就叫接口程序。

    不同的接口,可以实现不同的功能。 继续阅读说一下近期开发的自动预发布接口和自动审核程序

DEDE_V5.6/V5.5/V5.3 文章和评论,实现自动采集、发布与定时更新并生成静态页面

DEDE_V5.6/V5.5/V5.3文章和评论,实现自动采集、发布与定时更新并生成静态页,这是一套快速的、准确的、完整的、经过长期测试的DEDE网站内容建设解决方案。

我们将这个功能定义为“预发布”。

可以实现大批量内容连带评论同时采集,然后发布为预审核内容存放在数据库中,最后通过前台无人值守的激活方式把文章和评论发布出来,模仿高逼真的发布效果。

这是一个自动的、简单的、功能强大的、颠覆手工与迎合搜索引擎优化的内容采集与发布方案,可以完全解决手工采集的繁杂与工作量,可以解决普通采集程序无法实现的搜索引擎优化与用户体验问题,高度模仿真实内容的发布状态,堪称国内网站内容采集第一方案。

预发布文章和评论,实现自动采集、发布与定时更新并生成静态页,这一套程序主要包括内容预发布处理程序,前台内容审核程序,前台静态页面生成程序构成。

本程序于2010年5月11日最后更新,请商业用户联系升级。

继续阅读DEDE_V5.6/V5.5/V5.3 文章和评论,实现自动采集、发布与定时更新并生成静态页面

Discuz!7.0.0正式版,随机用户名发贴版正式发布

----------------------------------------
2009年03月15日,Discuz!Uch1.5日志发布接口正式发布,详情点击

主要功能:

随机用户名功能:随机用户发贴,随机用户回帖
完善的时间处理:发帖时间按回帖总数根据间隔时间倒推,完美模拟正常发布时间;
完善的随机数据:帖子浏览量随机,下载数量随机,用户IP随机,匿名游客随机;
完善的内容功能:帖子内容支持HTML代码,支持UBB,支持TAG标签,支持HTMLON
强大的附件识别:任意格式的附件识别功能,支持图片附件和非图片附件,准确提取附件文件名和后缀,让附件图标也完美对应格式显示,支持随机生成下载数量,且支持自定义附件识别函数,下载附件更加方便。
完善的模型支持:支持主题分类,支持分类信息模型
安全的接口程序:根据原入库代码编写,不修改和删除数据库信息,完美更新数据,安全快速
强大的售后支持:官方信誉,请放心购买,程序安全,请放心使用,全程指导直到发布成功。

购买说明:

此接口为尘缘个人学习和研究PHP程序所开发,非火车采集器官方开发,免费发布给大家使用,对于使用此接口可能造成的错误和损失,我与火车采集器官方均不承担相关责任。
如果你需要尘缘提供技术支持等服务,需要支付偶服务费用RMB150元,包含技术服务、接口一份、规则和模块各一,带有售后和插件升级(Discuz!7以内),可优惠订做相关采集规则和个性功能。

QQ:130775 ,http://4wei.cn,演示网站:http://www.sootop.com/forumdisplay.php?fid=8
祝大家新年快快乐乐,长长久久。
以下是免费版接口的使用和更新说明,请你一定要仔细读到尾,祝你能用得开心!

更新日志:

2009-02-25更新说明:收费版加强了用户注册的处理,增加了UTF-8版本的支持;
2009-02-24更新说明:收费版增加了对2009版的本地附件模拟上传的支持;
2009-01-24更新说明:取消了对帖子内容长度的限制,可以直接发布大量回复;
2009-01-08更新说明:修正了两处可能产生重大问题的函数,请大家务必更新;
2009-01-05更新说明:修复了主题分类发布,修复了发布回复以后浏览量等于回复量的问题,加入随机回复功能;

使用方法:

视频教程:Discuz!7.0.0接口的使用教程地址:http://bbs.locoy.com/spider-38482-1-1.html
打开Locoy.php,仔细阅读相关说明,配置相关默认值,然后上传文件到你的论坛根目录.
导入Discuz7.0.0模块
创建Web发布配置,CMS路径填写为你的论坛(网站)根目录
需要修改Locoy.php文件名的用户,需要修改模块中的获取列表地址和发布地址
导入附带的规则,编辑->选择发布版块
运行任务进行采集和发布即可
本接口可以采集一个发贴用户名,可以通过在模块中配置随机用户名

相关发布效果图:

可视化编辑页面效果

发布状态

发布测试帖效果

发布完成效果

使用教程:http://www.4wei.cn/?p=331

下载地址:http://bbs.locoy.com/spider-33751-1-1.html

DEDE v5.3 Web发布模块参数列表及说明

有一些用户不知道如何修改模块中的标签,总结来看,多数是不知道每个参数的含义.这里用文章发布模块做一个解释,说明一下每个参数对应的变量名.

title => 文章标题
shorttitle => 简略标题
flags[] => 自定义属性:头条h,推荐c,图片p,幻灯f,滚动s,跳转j,图文a,加粗b 
tags => TAG标签,建议使用自动分词
picname => 缩 略 图
ddisremote => 是否下载缩略图
source => 文章来源
writer => 作 者
typeid => 文章主栏目
remote => 下载远程图片和资源,1为启用
dellink => 删除非站内链接
autolitpic => 提取第一个图片为缩略图
sptype => 分页方式:手动 => hand,自动 => auto
spsize => 自动分页大小
body => 文章内容
notpost => 允许评论
sortup => 文章排序:默认
color => 标题颜色
arcrank => 阅读权限
ishtml => 发布选项:1 => 生成HTML,0 => 仅动态浏览
pubdate => 发布时间
money => 消费点数
keywords => 关键字,为空则自动获取
autokey => 自动提取关键字
description => 内容摘要,为空则自动获取
filename => 自定义文件名
channelid => 频道类型
dopost => save

Snoopy初试,

snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。
下面是它的一些特征:
1、方便抓取网页的内容
2、方便抓取网页的文字(去掉HTML代码)
3、方便抓取网页的链接
4、支持代理主机
5、支持基本的用户/密码认证模式
6、支持自定义用户agent,referer,cookies和header内容
7、支持浏览器转向,并能控制转向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、方便提交数据并且获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持再转向的时候传递cookies

下面是简单的例子,比如说我们抓取我的blog的文字

<?php
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetchtext("http://www.4wei.cn");
echo $snoopy->results;
?>
<?php

include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetchlinks("http://www.4wei.cn");
print_r($snoopy->results);
?>
<?php
/**
* @name Snoopy手册中文版
* @author 毛毛虫 wangchong1985@gmail.com
* @version Snoopy - the PHP net client v1.2.2
* @link http://www.wangchong.org
* @since 2008-04-27
*/

include "Snoopy.class.php";
$snoopy = new Snoopy;

$snoopy->fetchtext("http://www.php.net/");
print $snoopy->results;

$snoopy->fetchlinks("http://www.phpbuilder.com/");
print $snoopy->results;

$submit_url = "http://lnk.ispi.net/texis/scripts/msearch/netsearch.html";

$submit_vars["q"] = "amiga";
$submit_vars["submit"] = "Search!";
$submit_vars["searchhost"] = "Altavista";

$snoopy->submit($submit_url,$submit_vars);
print $snoopy->results;

$snoopy->maxframes=5;
$snoopy->fetch("http://www.ispi.net/");
echo "
 ";
    echo htmlentities($snoopy->results[0]);
    echo htmlentities($snoopy->results[1]);
    echo htmlentities($snoopy->results[2]);


include "Snoopy.class.php";
$snoopy = new Snoopy;

$snoopy->user = "joe";
$snoopy->pass = "bloe";

if($snoopy->fetch("http://www.slashdot.org/"))
{
echo "response code: ".$snoopy->response_code."
";
while(list($key,$val) = each($snoopy->headers))
echo $key.": ".$val."
";
echo "

";

例子: 展示所有属性的功能:

include "Snoopy.class.php";
$snoopy = new Snoopy;

$snoopy->proxy_host = "my.proxy.host";
$snoopy->proxy_port = "8080";

$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.microsnot.com/";

$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";

$snoopy->rawheaders["Pragma"] = "no-cache";

$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;

$snoopy->user = "joe";
$snoopy->pass = "bloe";

if($snoopy->fetchtext("http://www.phpbuilder.com"))
{
while(list($key,$val) = each($snoopy->headers))
echo $key.": ".$val."
";
echo "

";

echo "
";

例子: 抓取框架内容并展示结果:

include "Snoopy.class.php";
$snoopy = new Snoopy;

$snoopy->maxframes = 5;

if($snoopy->fetch("http://www.ispi.net/"))
{
echo "

COPYRIGHT:
Copyright(c) 1999,2000 ispi. All rights reserved.
This software is released under the GNU General Public License.
Please read the disclaimer at the top of the Snoopy.class.php file.

THANKS:
Special Thanks to:
Peter Sorger help fixing a redirect bug
Andrei Zmievski implementing time out functionality
Patric Sandelin
help with fetchform debugging
Carmelo misc bug fixes with frames

文章出处:http://www.diybl.com/course/1_web/webjs/200855/114322.html

火车采集器第二期教程目录

火车采集器第二期教程

·   前言

1.     什么是采集器,采集器的工作原理,运用范围

2.     网站管理系统与采集器(CMS+LocoySpider)的运用和前景

3.     本教程的相关术语和学习要求

·   第一部分,软件与功能介绍

1.     火车采集器软件介绍,功能简介,购买及售后简介

2.     火车采集器软件的下载,环境安装

3.     火车采集器软件界面,功能菜单介绍,版本介绍

4.     重难点:火车采集器工作流程

·   第二部分,站点功能及操作

1.     站点的建立、删除,站点规则导入、导出

2.     站点规则制作请参考任务规则制作

·   第三部分,任务功能与操作,重难点内容

1.      第一步,任务的建立、删除、数据处理,任务规则导入、导出、复制

2.      第二步,添加采集网址规则:自动分析链接

2.1.   重难点:添加采集网址规则:手动设置链接格式

3.      第三步,规则标签的建立、修改、删除、复制

3.1.   第四步:使用前后截取模式采集数据

3.2.   重难点:使用正则匹配模式采集数据

3.3.   重难点:使用自定义格式获取数据

3.4.   重难点:过滤、替换、文件下载设置

3.5.   进阶篇:使用正则表达式的采集方法

4.      第四步:配置发布方式

4.1.   重难点:WEB发布方式介绍与配置

4.2.   重难点:数据库发布方式介绍与配置

5.      第五步:文件保存及任务运行时设置

·   第四部分,火车采集器内容发布模块的制作与配置

1.     免费版:WEB发布模块介绍、建立、制作、修改、加密

2.     标准版:数据库发布模块介绍、建立、制作、修改、加密

3.     重难点:DEDECMS简介,DEDECMSWeb发布模块的制作

·   第五部分,数据采集、编辑、发布,自动更新,数据库整理等

1.     采集任务的启动,停止,批量设定

2.     标准版:任务自动更新设置,采集数据库处理

·   第六部分,完整规则的制作、采集、发布

1.      论坛发布:采集Discuz 6.1论坛帖子与回复

1.1.   论坛发布:发布Discuz 6.1论坛帖子与回复(使用接口文件)

2.      CMS实例:采集并实现 DEDE V5.1 图片模型内容的发布,下载附件,远程附件

3.      博客实例:实现百度空间内容的发布

4.      进阶:多特软件站全站采集与自动更新

·   第七部分,其它

1.     火车采集器多功能插件的配置与使用

2.     产品与服务订制,联系方式与报价