开源大数据流水线系统PiflowX本地开发调试

编译完成后，找到streampark-console-service模块target目录下压缩包apache-streampark-2.2.0-SNAPSHOT-incubating-bin.tar.gz，解压到指定目录。在资源管理中，上传piflowx/piflow-server/target下piflow-server.jar。Program main填写。启动完成，会在项目下生成一个serv

暗影八度

689人浏览 · 2024-04-08 20:44:45

暗影八度 · 2024-04-08 20:44:45 发布

1.代码获取

关注公众号PiflowX，发送“源码”获取github地址。

2.环境准备

说明：本文档基于windows11操作系统，flink和hdfs基于虚拟机centos启动。

2.1 本地flink环境

Flink >= 1.12, 只需要从Flink官网下载解压即可。演示中我下载的是[flink-1.18.0](Apache Archive Distribution Directory)

解压到指定目录，如d:\\env\\flink

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/e5863e7e139343faafb7e46d5e4e2291.png

2.2 本地hadoop环境

由于是windows系统，可以从[github](GitHub - s911415/apache-hadoop-3.1.0-winutils: HADOOP 3.1.0 winutils)下载wintutils。具体步骤可参考文章Windows环境下安装Hadoop3.1.0全过程（超详细手把手一条龙教学）_windows安装hadoop-CSDN博客
在这里插入图片描述

3.后端本地开发

3.1前提条件

java 1.8+
maven
hdfs
flink

3.2项目编译

切换到dev-flow分支。

 mvn clean package -DskipTests

3.3解压压缩包

编译完成后，找到streampark-console-service模块target目录下压缩包apache-streampark-2.2.0-SNAPSHOT-incubating-bin.tar.gz，解压到指定目录。

cd ./streampark-console-service/target
tar -zxvf apache-streampark-2.2.0-SNAPSHOT-incubating-bin.tar.gz

在这里插入图片描述

3.4启动后台服务

找到 streampark-console/streampark-console-service/src/main/java/org/apache/streampark/console/StreamParkConsoleBootstrap.java

修改启动配置

勾选Add VM options，填写参数-Dapp.home=$path，$path是我们刚刚复制的路径

4.PiflowX后端启动

启动服务

找到 piflowx/piflow-server/src/main/scala/cn/piflow/api/HTTPServer.scala，

运行main方法。

启动完成，会在项目下生成一个server.ip文件，文件内容为当前机器ip。

修改streampark-console-service服务baseConfig.properties配置文件，piflowx.server.ip为上述server.ip
在这里插入图片描述

重启streampark-console-service服务。

5.前端本地开发

前提条件

Note

如果你遇到依赖下载缓慢需要配置 npm 镜像源,方法为在用户文件夹下找到 .npmrc 将以下内容写入：
strict-peer-dependencies=false
save-workspace-protocol = rolling
registry = 'http://registry.npmmirror.com'

构建并运行

安装依赖：

cd ../streampark-console/streampark-console-webapp

pnpm install

如果运行失败，执行以下命令：

 pnpm install --ignore-scripts

运行：

pnpm serve

打包

pnpm build

浏览器支持

本地开发推荐使用Chrome 80+ 浏览器，支持现代浏览器, 不支持 IE。

6.flink流水线任务示例

浏览器输入http://localhost:10001/登陆系统。点击登陆进入首页。

在这里插入图片描述

配置flink home

flink home为2.1节flink解压目录（如d:\\env\\flink）

在这里插入图片描述
配置flink cluster

上传flink流水线依赖包

在资源管理中，上传piflowx/piflow-server/target下piflow-server.jar。Program main填写cn.piflow.launcher.flink.StartFlinkFlowMain。
在这里插入图片描述
创建作业

选择Flink Pipeline作业类型创建流水线任务

在这里插入图片描述
资源选择前面上传的Flink流水线作业依赖包

在这里插入图片描述

填写作业名称，点击提交

在这里插入图片描述
在作业列表，可以看到刚刚创建的流水线任务，点击图中图标，进入设计界面。

首次使用系统，是没有flink流水线算子组件的，需要点击reload stops选项加载或刷新组件。

在这里插入图片描述
拖动一个DataGen组件和ShowData组件，模拟生成100条数据，并查看数据。

回到作业首页，发布任务，并启动。
在这里插入图片描述
等待一会，可以看到作业运维界面作业状态已变化。

在这里插入图片描述
在flink web可以看到作业的运行状态。

日志输入可看到流水线生成的模拟数据。
在这里插入图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

基于51单片机的扫地小车：实物设计与功能实现原理图、代码、教程

DAMO开发者矩阵

当自动化洪流冲垮测试岗：一位工程师的纸质救赎

DAMO开发者矩阵

机器人导航：基于 CNN 的实时避障模型实战

本文介绍了基于轻量化CNN模型的机器人实时避障系统实现方案。采用PyTorch框架搭建仅50万参数的1D-CNN网络，输入64线激光雷达距离数据，输出前进/左转/右转三类避障动作。通过在Gazebo仿真环境中采集1万帧训练数据，模型在保证95%以上准确率的同时，推理延迟控制在30ms以内，适用于Jetson Nano等低算力嵌入式设备。该方案相比传统避障算法，具有更好的动态环境适应性和实时性优势。