国内常见博客的采集办法

接到一个客户的单子,采集国内常见博客指定用户的文章。经整理发现,这些博客都加上了防采集技术。主要是采用隐藏或者Js获取文章列表、内容采用多模板防采集技术等。

以下是一些解决办法。

一,搜狐博客的列表获取办法

  1. 防采集技术:列表采集JS调用,无法直接获取到列表
  2. 真实链接:http://luis-scola.blog.sohu.com/action/v_frag-ebi_c81c19b792-pg_1/entry/
  3. 链接构成:博客地址,随机变量,分页值
  4. 采集方法:搜索var _ebi = ‘c81c19b792’;获取10个字的随机值即可。

二,新浪博客列表获取方法

  1. 从页面中查找代码:var uid = “1570700695”;取得“1570700695”这个数字,用用户博客ID
  2. 文章列表链接:http://blog.sina.com.cn/s/indexlist_1570700695_2.html

三,网易博客列表获取方法

  1. 目前还没有找到列表地址

四,百度空间列表获取方法

  1. 百度空间最为简单
  2. 列表格式:http://hi.baidu.com/%C3%C9%B9%C5%C0%C7%B5%C0/blog/index/1