如何用采集来做网站

编程开发 / , / at

采集关键之处在于伪原创,我用火车头采集做站的步骤如下:
1、资源选取
找一些需要登录才能查看的网站,比如社区、论坛等,这些帖子搜索引擎也收录不了的,拿来就是原创。
选取高质量的文章,比如精华帖、推荐帖等
2、做采集
过滤无用的HTML标签及内容。写采集规则时最好把要过滤的内容记录清单,方便发现问题时查找
先采集到本地,然后查找有问题的文章,更新不需要的发布的文章ID为已发布,并对文章细节进行处理,比如有些图片太大,我就用JS来控制图片大小,这需要在IMG标签里加入一段JS触发代码,就在这时对此批量替换
附件下载-附件检查-附件上传
3、文章筛选
筛选采集到的文章,比如删除内容为空、内容少于指定字节、标题为空的文章
4、伪原创及SEO
标题里适当加入标签元素
文章的重新整合,比如执行MYSQL命令在文章某位置插入关键词
5、稳定发布文章,同时更改其发布日期,可使用SQL批量更改文章发布日期

发表评论

电子邮件地址不会被公开。 必填项已用*标注