国内常见博客的采集办法

接到一个客户的单子,采集国内常见博客指定用户的文章。经整理发现,这些博客都加上了防采集技术。主要是采用隐藏或者Js获取文章列表、内容采用多模板防采集技术等。

以下是一些解决办法。

一,搜狐博客的列表获取办法

  1. 防采集技术:列表采集JS调用,无法直接获取到列表
  2. 真实链接:http://luis-scola.blog.sohu.com/action/v_frag-ebi_c81c19b792-pg_1/entry/
  3. 链接构成:博客地址,随机变量,分页值
  4. 采集方法:搜索var _ebi = ‘c81c19b792’;获取10个字的随机值即可。

二,新浪博客列表获取方法

  1. 从页面中查找代码:var uid = “1570700695”;取得“1570700695”这个数字,用用户博客ID
  2. 文章列表链接:http://blog.sina.com.cn/s/indexlist_1570700695_2.html

三,网易博客列表获取方法

  1. 目前还没有找到列表地址

四,百度空间列表获取方法

  1. 百度空间最为简单
  2. 列表格式:http://hi.baidu.com/%C3%C9%B9%C5%C0%C7%B5%C0/blog/index/1

发表评论

回复 电脑蓝屏 取消回复

评论列表(3)

  • 电脑蓝屏

    2010.8.3 07:08

    新浪的现在采不了

    根据实际情况做一定修改

    回复
  • 游客

    2009.5.31 11:05

    和讯的呢?

    回复
  • 备考网

    2009.2.18 18:02

    绝对高手!

    回复