技术积累
日进一寸

零代码爬取公开网站内容,制作全文rss订阅

huginn是一个rss制作器,它的真实作用是ifttt

什么是ifttt,英文If This Then That 的缩写,顾名思义,你可以在ifttt 上设定一个条件,让系统为你做出特定的动作。

ifttt提供了大量的自动化的功能,如果a发布了一个推文,就把推文发送到指定邮箱中。如果室温达到了10摄氏度就开空调,等等这种需要条件触发的自动操作,非常牛皮。

而huginn就是一个ifttt,它有ifttt做不到的事情就是做内容爬虫。

如果京东的一个商品价格发生了变化,就发送一条消息到telegram/微信/邮箱。

如果某网站发布了新内容,就把新内容爬取下来,制作成rss发布,进而还可以通过在nas上订阅这条rss实现离线下载。

再比如,我们可以监控搬瓦工传家宝是否有货,如果有货就可以及时的发送消息提醒。

  • 1 跟没有 RSS 的网站定制 RSS 种子
  • 2 监控知乎、微博、贴吧等平台指定的信息,一旦监控到信息,邮件通知或者同步到其他平台
  • 3 监控各大购物平台商品信息,一旦发现折扣信息,邮件通知你
  • 4 支持各种形式的发送和接收 WebHooks。

也就是说,huginn是一个更加关注目标网站内容变化的自动化流程处理工具,更多的玩法需要在使用中发现。

因为huginn提供了大量的数据处理的agent,至于在huginn中不支持的用法也可以通过调用api接口的方式来实现。

现在我们开始部署huginn与ttrss,部署是非常简单的,docker部署。

以下操作环境为debian10

安装docker和docker-compose:

apt -y update
apt -y install curl
curl -sSL https://get.docker.com/ | sh
systemctl start docker
systemctl enable docker
apt install docker-compose

新建docker-compose:

mkdir -p /opt/huginn && cd /opt/huginn && nano docker-compose.yml

使用下面的配置(自己修改数据库密码/SMTP服务连接信息:)

version: "3.5"

services: 
    huginn-server:
        image: ghcr.io/huginn/huginn
        container_name: huginn
        depends_on: 
            - huginn-mariadb
        environment: 
            - HUGINN_DATABASE_HOST=huginn-mariadb
            - HUGINN_DATABASE_PORT=3306
            - HUGINN_DATABASE_NAME=huginn
            - HUGINN_DATABASE_USERNAME=huginn
            - HUGINN_DATABASE_PASSWORD=password
            - SMTP_SERVER=smtp.gmail.com
            - SMTP_PORT=587
            - [email protected]
            - SMTP_PASSWORD=xxxxx
            - [email protected]
        ports:
            - 3000:3000
        restart: unless-stopped

    huginn-mariadb:
        image: mariadb
        container_name: huginn-mariadb
        environment: 
            - MYSQL_DATABASE=huginn
            - MYSQL_USER=huginn
            - MYSQL_PASSWORD=password
            - MYSQL_ROOT_PASSWORD=password
        volumes: 
            - ./db:/var/lib/mysql
        restart: unless-stopped

配置好了后up起来就安装好了:

docker-compose up -d

打开你的IP:3000端口可以访问到WEB界面,默认的管理员账号:admin密码:password

进去首先把管理员的邮箱和密码修改一下,邮箱是用来接收通知的:

部署就完成了

第一个演示

爬取一个网站的内容制作成rss,我就用我自己站点站来演示,以免造成误会。

第二个演示是,监控搬瓦工传家宝活动页面,如果有货立刻发送给telegram一条消息。

具体请查看视频:

赞(0)
未经允许不得转载:DongVPS » 零代码爬取公开网站内容,制作全文rss订阅
分享到: 更多 (0)

评论 2

  1. #1

    test.

    imajeason1年前 (2023-10-29)回复
    • test2

      imajeason1年前 (2023-10-29)回复