链家数据抓取

链家数据抓取(接口抓取)- H5。

仓库地址

Development

env/.env

数据库参数:

SEQUELIZE_DIALECT=mysql
SEQUELIZE_DATABASE=database
SEQUELIZE_DATABASE_HOST=host
SEQUELIZE_DATABASE_USERNAME=usernmae
SEQUELIZE_DATABASE_PASSWORD=password
bash

env

抓取参数:

配置项 含义
CRAWLER_TYPE 抓取任务类型 1-二手房、2-新房、3-租房,默认值 2
CRAWLER_BATCH 抓取批次,默认值当天
CRAWLER_CRON 定时抓取 cron 表达式(可选)
CRAWLER_CLUSTER 多进程模式,支持数字(可选)

CRAWLER_TYPE:目前仅支持抓取新房数据。

Available Scripts

npm run dev

开发模式运行服务器。

npm run build

构建生产项目。

npm start

运行构建后的项目。

Docker Deploy

构建镜像

docker buildx build --platform linux/amd64 -t lianjia-crawler:latest -f Dockerfile .
bash

立即执行

docker run -p 8081:8081 \
-e CRAWLER_TYPE=2 \
-e SEQUELIZE_DIALECT=mysql \
-e SEQUELIZE_DATABASE=database \
-e SEQUELIZE_DATABASE_HOST=host \
-e SEQUELIZE_DATABASE_USERNAME=usernmae \
-e SEQUELIZE_DATABASE_PASSWORD=password \
 lianjia-crawler
bash

执行 “新房” 抓取任务。

定时执行

docker run -p 8081:8081 \
-e CRAWLER_TYPE=2 \
-e CRAWLER_CRON=0 0 8 * * 1 \
-e SEQUELIZE_DIALECT=mysql \
-e SEQUELIZE_DATABASE=database \
-e SEQUELIZE_DATABASE_HOST=host \
-e SEQUELIZE_DATABASE_USERNAME=usernmae \
-e SEQUELIZE_DATABASE_PASSWORD=password \
 lianjia-crawler
bash

每周一上午8点执行 “新房” 抓取任务。

Preview

预览效果