第250121期 - maxun

7.6k star,开源免费工具,几分钟内将网页数据转换为api或者电子表格

Maxun 是一个开源的无代码网页数据提取平台,旨在让用户能够在几分钟内将网站转换为 API 和电子表格。该项目的目标是简化网页数据提取过程,使其变得更加高效和易于使用。以下是对 Maxun 项目的详细介绍,包括其特点和快速开始的方法。

项目简介

Maxun 是一个开源的无代码平台,用户可以在短短两分钟内训练一个机器人,并自动抓取网页数据。该平台的设计初衷是让网页数据提取变得前所未有的简单和高效。无论是需要从电商网站抓取产品信息,还是从新闻网站提取文章内容,Maxun 都能轻松应对。

项目特点

Maxun 拥有众多强大的功能,使其在同类产品中脱颖而出。以下是一些主要特点:

  1. 无代码数据提取:用户无需编写任何代码即可提取网页数据。
  2. 处理分页和滚动:Maxun 能够处理无限滚动和分页的网站。
  3. 定时运行机器人:用户可以设置机器人在特定时间运行,自动提取数据。
  4. 将网站转换为 API:Maxun 可以将网站数据转换为 API,方便集成到其他应用中。
  5. 将网站转换为电子表格:用户可以将提取的数据直接导出为电子表格。
  6. 适应网站布局变化(即将推出):Maxun 将能够自动适应网站布局的变化,确保数据提取的连续性。
  7. 支持登录和双因素认证(即将推出):Maxun 将支持从需要登录的网站提取数据,并支持双因素认证。
  8. 集成:目前支持 Google Sheet 集成,未来将支持更多集成选项。

快速开始

要快速开始使用 Maxun,可以按照以下步骤进行操作:

安装

  1. 创建项目根文件夹(例如 ‘maxun’)。
  2. 在项目根文件夹中创建一个名为 .env 的文件。可以github项目案例中查看示例 .env 文件,并将其内容复制到你的 .env 文件中。

使用 Docker Compose 安装

  1. docker-compose.yml 文件复制粘贴到项目根文件夹中。
  2. 确保已在同一文件夹中设置 .env 文件。
  3. 在终端中运行以下命令:
    docker-compose up -d
    
  4. 访问前端界面:http://localhost:5173/,访问后端界面:http://localhost:8080/。

不使用 Docker 安装

  1. 确保系统已安装 Node.js、PostgreSQL、MinIO 和 Redis。
  2. 运行以下命令:
    git clone https://github.com/getmaxun/maxun
    cd maxun
    npm install
    cd maxun-core
    npm install
    cd ..
    npx playwright install
    npx playwright install-deps
    cd ..
    npm run start
    
  3. 访问前端界面:http://localhost:5173/,访问后端界面:http://localhost:8080/。

环境变量

在项目根文件夹中创建一个名为 .env 的文件,并根据需要设置以下环境变量:

  • BACKEND_PORT:后端运行端口,默认值:8080
  • FRONTEND_PORT:前端运行端口,默认值:5173
  • BACKEND_URL:后端运行 URL,默认值:http://localhost:8080
  • VITE_BACKEND_URL:前端连接后端的 URL,默认值:http://localhost:8080
  • PUBLIC_URL:前端运行 URL,默认值:http://localhost:5173
  • VITE_PUBLIC_URL:后端连接前端的 URL,默认值:http://localhost:5173
  • JWT_SECRET:用于签署和验证 JSON Web Tokens (JWT) 的密钥
  • DB_NAME:Postgres 数据库名称
  • DB_USER:Postgres 数据库用户名
  • DB_PASSWORD:Postgres 数据库密码
  • DB_HOST:Postgres 数据库服务器地址
  • DB_PORT:Postgres 数据库服务器端口
  • ENCRYPTION_KEY:用于加密敏感数据的密钥
  • MINIO_ENDPOINT:MinIO 的端点 URL
  • MINIO_PORT:MinIO 服务端口
  • MINIO_CONSOLE_PORT:MinIO WebUI 服务端口
  • MINIO_ACCESS_KEY:MinIO 认证访问密钥
  • GOOGLE_CLIENT_ID:Google OAuth 客户端 ID
  • GOOGLE_CLIENT_SECRET:Google OAuth 客户端密钥
  • GOOGLE_REDIRECT_URI:处理 Google OAuth 响应的重定向 URI
  • REDIS_HOST:Redis 服务器地址
  • REDIS_PORT:Redis 服务器端口
  • MAXUN_TELEMETRY:是否禁用遥测数据收集。

结论

Maxun 是一个功能强大且易于使用的无代码网页数据提取平台,适合各种数据提取需求。无论是个人项目还是企业级应用,Maxun 都能提供高效、可靠的数据提取解决方案。通过简单的安装和配置,用户可以快速开始使用 Maxun,享受自动化数据提取带来的便利。

网址 :github.com/getmaxun/maxun