一. 介绍
StreamX, 项目的初衷是 —— 让 Flink 开发更简单, 使用StreamX开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamX 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供scala和java两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案 data:image/s3,"s3://crabby-images/14deb/14deb19d86ee80574e38b136804dda7cfb6fb72d" alt="在这里插入图片描述"
二. 快速开始
2.1 构建StreamX(需要jdk和maven环境)
安装node,git,maven
curl -sL https://rpm.nodesource.com/setup_16.x | sudo bash -
sudo yum install -y nodejs
sudo yum git -y
sudo yum maven -y
2.1.1 第一种安装方法(建议第二种方法)
- 下载安装包:https://github.com/streamxhub/streamx/releases
- 上传streamx-release-1.2.2.zip,并解压
unzip streamx-release-1.2.0.zip -d /opt/module/
- 编译源码,1.2.2默认flink版本为1.4,如需更改修改pom.xml再进行编译,第二种方法同理。
mvn clean install -DskipTests -Denv=prod
2.1.2 第二种安装方法,我选择的
- 使用官网的1.2.1以后的混合打包
git clone https://github.com/streamxhub/streamx.git
cd streamx
# 注意哦,要把代码分支切换到发行版,否则可能有坑
git branch -a
git checkout remotes/origin/1.2.2-release
# 修改配置文件flink版本
vim pom.xml
<flink.version>1.14.4</flink.version>修改为你想要的版本
# 比较建议本地打包
mvn clean install -DskipTests -Pwebapp
# 打包文件目录
cd streamx-console/streamx-console-service/target/
# 打包的文件
streamx-console-service-${version}-bin.tar.gz
# 解压到对应目录
tar -zxvf streamx-console-service_2.11-1.2.3-bin.tar.gz -C /opt/frame/
# 1.2.1之后需要手动执行streamx库的建表动作,需要看装mysql
script/final.sql #文件,自己到mysql执行下
2.2 修改配置文件
2.2.1 mysql
进入到对应目录,修改配置文件,需要使用mysql地址来存储数据。注意:数据库不会自动创建,需要手动创建
修改为你的mysql的url账号密码
注意,密码不要带特殊字符
vim conf/application.yml
datasource:
# 数据源-1,名称为 primary
primary:
username: streamx
password: streamx
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://localhost:3306/streamx?useUnicode=true&characterEncoding=UTF-8&useJDBCCompliantTimezoneShift=true&useLegacyDatetimeCode=false&serverTimezone=GMT%2B8
# StreamX Console Workspace
streamx:
# HADOOP_USER_NAME
hadoop-user-name: hdfs
# 本地的工作空间,用于存放项目源码,构建的目录等.
workspace:
local: /opt/frame/streamx-console-service-1.2.2/streamx_workspace
remote: hdfs:///streamx # support hdfs:///streamx/ 、 /streamx 、hdfs://host:ip/streamx/
2.2.2 启动
# 如果启动失败,去 logs/streamx.out 查看日志
bin/startup.sh
三. 使用
3.1 登录系统
- 启动完毕后打开访问端口10000:http://你的服务器id:10000/
默认账号:admin 密码:streamx data:image/s3,"s3://crabby-images/44a90/44a901308d309a2838eb58123b9bd8ac6dc56c55" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/da249/da2493c8d3c8ed422e3eb6ef92f773d9e84ef3a7" alt="在这里插入图片描述"
3.2 系统配置
Flink_HOME
data:image/s3,"s3://crabby-images/94309/943095674e9af4c775f830420c01a2b1655a62d9" alt="在这里插入图片描述"
FLINK_CLUSTER
这个url是你的standalone模式的web ui的连接地址,到flink/conf/flink.ymal查看配置,默认是8081,由于我有两个版本,所以配置成8082 data:image/s3,"s3://crabby-images/76a0c/76a0cb976976e9129b122b710ca25a84a874ed1f" alt="在这里插入图片描述"
StreamX Env
StreamX Webapp address 这里配置 StreamX Console 的 web url 访问地址,主要火焰图功能会用到,具体任务会将收集到的信息通过此处暴露的 url 发送 http 请求到系统,进行收集展示 data:image/s3,"s3://crabby-images/6cc03/6cc03960ccf426f499ddd011d5d4027b021aa00b" alt="在这里插入图片描述"
3.3 部署DataStreaming任务
- 添加项目
data:image/s3,"s3://crabby-images/c91eb/c91eb7167c92104aaaebb1b41dd2cf4c95507b8a" alt="在这里插入图片描述" - 填写项目信息
url是你的gitlab的项目 账号密码是你gitlab的账号密码 完了点击提交 data:image/s3,"s3://crabby-images/ac24c/ac24c1da91003af530424145402d14b15c509a79" alt="在这里插入图片描述" - 打包项目
点击这里,然后开始打包继续点击这里可以查看mvn的log,mvn报错就看看是不是java版本或者没有配置阿里云仓库的锅
<mirror>
<id>alimaven</id>
<name>aliyun maven</name>
<url>http://maven.aliyun.com/nexus/content/groups/public/</url>
<mirrorOf>central</mirrorOf>
</mirror>
<profile>
<id>jdk-1.8</id>
<activation>
<activeByDefault>true</activeByDefault>
<jdk>1.8</jdk>
</activation>
<properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<maven.compiler.compilerVersion>1.8</maven.compiler.compilerVersion>
</properties>
</profile>
data:image/s3,"s3://crabby-images/cabba/cabba9b573ab687199c6eb0c892d08311c9fa8a3" alt="在这里插入图片描述" 表示打包成功 data:image/s3,"s3://crabby-images/e3f90/e3f9039b3efd7f720b9f935539c588f3258afe21" alt="在这里插入图片描述" 4) 创建程序 data:image/s3,"s3://crabby-images/4114e/4114e0d6df3bd688571b5c21704712d10cfe53ca" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/bd4d7/bd4d7a4ea4f1abcafe0b7314aed3814e81cb2d21" alt="在这里插入图片描述" 因为是standalone模式,所以内存配置应该是不生效的,最后点击提交 data:image/s3,"s3://crabby-images/3c036/3c036d77c6639f6e32e287642f31a29eb235a5fd" alt="在这里插入图片描述" 点击两次运行 data:image/s3,"s3://crabby-images/9f7e7/9f7e77bc54fc3ca811e65e4e86f8a4f278fe49b7" alt="在这里插入图片描述"
3.4 部署Flink Sql任务
- 添加任务,编写flink sql
data:image/s3,"s3://crabby-images/93a9a/93a9aa3966fa2d51ace77110ab4f100cc7f812bb" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/90549/9054949acc3eea49ca66096a93ba35fc6941d3ca" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/6f123/6f123ec6d69b1fe053781396e4d61f6e5fac3691" alt="在这里插入图片描述" sql
CREATE TABLE device_info (id string, lastModifiedTime bigint) WITH (
'connector' = 'kafka',
-- 使用 kafka connector
'topic' = 'robotChange',
'properties.bootstrap.servers' = 'xxxxxxxxxxx',
'properties.group.id' = 'testGroup001',
'scan.startup.mode' = 'earliest-offset',
'format' = 'json',
'json.fail-on-missing-field' = 'false',
'json.ignore-parse-errors' = 'true'
);
CREATE TABLE robot_day_count (dateDay VARCHAR, orderCount BIGINT,PRIMARY KEY (dateDay) NOT ENFORCED) WITH (
'connector' = 'jdbc',
-- 使用 jdbc connector
'driver'='com.mysql.jdbc.Driver',
'url' = 'jdbc:mysql://localhost:3306/flink',
-- jdbc url
'table-name' = 'robot_day_count',
-- 表名
'username' = 'streamx',
-- 用户名
'password' = 'streamx',
-- 密码
'sink.buffer-flush.max-rows' = '1' -- 默认 5000 条,为了演示改为 1 条
);
insert into
robot_day_count
select
from_unixtime(lastModifiedTime / 1000, 'yyyy-MM-dd') dateDay,
count(distinct id)
from
device_info
group by
from_unixtime(lastModifiedTime / 1000, 'yyyy-MM-dd')
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-kafka_2.11</artifactId>
<version>1.14.2</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-jdbc_2.11</artifactId>
<version>1.14.2</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-json</artifactId>
<version>1.14.2</version>
</dependency>
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>5.1.48</version>
</dependency>
点击提交 data:image/s3,"s3://crabby-images/9d06b/9d06b1c0fc523584b435db021b7c76a0464fbda2" alt="在这里插入图片描述" 点击运行 data:image/s3,"s3://crabby-images/02ef2/02ef270f9ace16c3e6e9238a27f14394f1c2afaf" alt="在这里插入图片描述"
|