附:Flink官方文档(中文)
前段时间工作比较繁忙,一直都没时间好好的去阅读Flink 的文档,本文来整理展开后的Flink 文档的所有目录,以便有一个全局的掌控,直接点击上面的目录结构即可查看下详情。
Flink官方文档目录结构如下:
|------ 1.Try Flink |------------ 1.1 本地模式安装 |------------1.2 基于 DataStream API 实现欺诈检测 |------------1.3 基于 Table API 实现实时报表 |------------1.4 Flink 操作场景 |------ 2. 实践练习 |------------2.1 概览 |------------2.2 DataStream API 简介 |------------2.3 数据管道 & ETL |------------2.4 流式分析 |------------2.5 事件驱动应用 |------------2.6 容错处理 |------3. 概念透析 |------------3.1 概览 |------------3.2 有状态流处理 |------------3.3 及时流处理 |------------3.4 Flink 架构 |------------3.5 词汇表 |------4. 应用开发 |------------4.1 DataStream API |------------------ 4.1.1 概览 |------------------ 4.1.2 执行模式(流/批) |------------------ 4.1.3 事件时间 |------------------------ 4.1.3.1 生成 Watermark |------------------------ 4.1.3.2 内置 Watermark 生成器 |------------------ 4.1.4 状态与容错 |------------------------ 4.1.4.1 使用状态 |------------------------ 4.1.4.2 Broadcast State 模式态 |------------------------ 4.1.4.3 Checkpointing |------------------------ 4.1.4.4 Queryable State |------------------------ 4.1.4.5 State Backends |------------------------ 4.1.4.6 数据类型及序列化 |------------------------------ 4.1.4.6.1 概览 |------------------------------4.1.4.6.2 状态数据结构升级 |------------------------------4.1.4.6.3 Custom Serialization for Managed State |------------------------------4.1.4.6.4 自定义序列化器 |------------------ 4.1.5 用户自定义 Functions |------------------ 4.1.6 算子 |------------------------ 4.1.6.1 概览 |------------------------ 4.1.6.2 窗口 |------------------------ 4.1.6.3 Joining |------------------------ 4.1.6.4 Process Function |------------------------ 4.1.6.5 用于外部数据访问的异步 I/O |------------------ 4.1.7 数据源 |------------------ 4.1.8 旁路输出 |------------------ 4.1.9 应用程序参数处理 |------------------ 4.1.10 测试 |------------------ 4.1.11 实验功能 |------------------ 4.1.12 Scala API 扩展 |------------------ 4.1.13 Java Lambda 表达式 |------------------ 4.1.14 管理执行 |------------------------ 4.1.14.1 执行配置 |------------------------ 4.1.14.2 程序打包和分布式运行 |------------------------ 4.1.14.3 并行执行 |------------------ 4.1.15 Project Configuration |------------4.2 TableAPI & SQL |------------------ 4.2.1 概念与通用 API |------------------ 4.2.2 概览 |------------------ 4.2.3 DataStream API Integration |------------------ 4.2.4 流式概念 |------------------------ 4.2.4.1 概览 |------------------------ 4.2.4.2 动态表 (Dynamic Table) |------------------------ 4.2.4.3 时间属性 |------------------------ 4.2.4.4 时态表(Temporal Tables) |------------------------ 4.2.4.5 Temporal Table Function |------------------ 4.2.5 流式聚合 |------------------ 4.2.6 Data Types |------------------ 4.2.7 时区 |------------------ 4.2.8 Table API |------------------ 4.2.9 SQL |------------------------ 4.2.9.1 概览 |------------------------ 4.2.9.2 入门 |------------------------ 4.2.9.3 Queries 查询 |------------------------------4.2.9.3.1 概览 |------------------------------4.2.9.3.2 Hints |------------------------------4.2.9.3.3 WITH 语句 |------------------------------4.2.9.3.4 SELECT 与 WHERE 子句 |------------------------------4.2.9.3.5 SELECT DISTINCT |------------------------------4.2.9.3.6 窗口函数 |------------------------------4.2.9.3.7 窗口聚合 |------------------------------4.2.9.3.7 分组聚合 |------------------------------4.2.9.3.8 Over聚合 |------------------------------4.2.9.3.9 Join |------------------------------4.2.9.3.10 窗口关联 |------------------------------4.2.9.3.11 集合操作 |------------------------------4.2.9.3.12 ORDER BY 语句 |------------------------------4.2.9.3.13 LIMIT 语句 |------------------------------4.2.9.3.14 Top-N |------------------------------4.2.9.3.15 窗口Top-N |------------------------------4.2.9.3.16 去重 |------------------------------4.2.9.3.17 模式检测 |------------------------ 4.2.9.4 CREATE 语句 |------------------------ 4.2.9.5 DROP 语句 |------------------------ 4.2.9.6 ALTER 语句 |------------------------ 4.2.9.7 INSERT 语句 |------------------------ 4.2.9.8 DESCRIBE Statements |------------------------ 4.2.9.9 EXPLAIN Statements |------------------------ 4.2.9.10 USE 语句 |------------------------ 4.2.9.11 SHOW 语句 |------------------------ 4.2.9.12 LOAD 语句 |------------------------ 4.2.9.13 UNLOAD 语句 |------------------------ 4.2.9.14 SET 语句 |------------------------ 4.2.9.15 RESET 语句 |------------------------ 4.2.9.16 JAR 语句 |------------------ 4.2.10 函数 |------------------------ 4.2.10.1 概览 |------------------------ 4.2.10.2 系统(内置)函数 |------------------------ 4.2.10.3 自定义函数 |------------------ 4.2.11 模块 |------------------ 4.2.12 Catalogs |------------------ 4.2.13 SQL 客户端 |------------------ 4.2.14 配置 |------------------ 4.2.15 User-defined Sources & Sinks |------------4.3 Python API |------------------ 4.3.1 概览 |------------------ 4.3.2 环境安装 |------------------ 4.3.3 Table API 教程 |------------------ 4.3.4 DataStream API 教程 |------------------ 4.3.5 Table API |------------------------ 4.3.5.1 Python Table API 简介 |------------------------ 4.3.5.2 TableEnvironment |------------------------ 4.3.5.3 Operatoins |------------------------------4.3.5.3.1 Row-based Operations |------------------------ 4.3.5.4 数据类型 |------------------------ 4.3.5.5 系统(内置)函数 |------------------------ 4.3.5.6 自定义函数 |------------------------------4.3.5.6.1 概览 |------------------------------4.3.5.6.2 普通自定义函数(UDF) |------------------------------4.3.5.6.3 向量化自定义函数 |------------------------ 4.3.5.7 PyFlink Table 和 Pandas DataFrame 互转 |------------------------ 4.3.5.8 Table 和 DataStream 互转 |------------------------ 4.3.5.9 SQL |------------------------ 4.3.5.10 Catalogs |------------------------ 4.3.5.11 指标 |------------------------ 4.3.5.12 连接器 |------------------ 4.3.6 DataStream API |------------------------ 4.3.6.1 简介 |------------------------ 4.3.6.2 Operators |------------------------------ 4.3.6.2.1 Overview |------------------------------4.3.6.2.2 Windows |------------------------------4.3.6.2.3 Process Function |------------------------ 4.3.6.3 Data Types |------------------------ 4.3.6.4 State |------------------ 4.3.7 依赖管理 |------------------ 4.3.8 配置 |------------------ 4.3.9 调试 |------------------ 4.3.10 环境变量 |------------------ 4.3.11 常见问题 |------------4.4 DataSet API(Legancy) |------------------ 4.4.1 概览 |------------------ 4.4.2 Transformations |------------------ 4.4.3 给 DataSet 中的元素编号 |------------------ 4.4.4 迭代 |------------------ 4.4.5 Hadoop 兼容 |------------------ 4.4.6 本地执行 |------------------ 4.4.7 集群执行 |------------------ 4.4.8 Batch 示例 |------5. Libraries |------------5.1 FlinkCEP - Flink的复杂事件处理 |------------5.2 Graphs |------------------ 5.2.1 概览 |------------------ 5.2.2 Graph API |------------------ 5.2.3 Iterative Graph Processing |------------------ 5.2.4 Library Methods |------------------ 5.2.5 Graph Algorithms |------------------ 5.2.6 Graph Generators |------------------ 5.2.7 Bipartite Graph |------------5.3 State Processor API |------6. Connectors |------------6.1 DataStream Connectors |------------------ 6.1.1 概览 |------------------ 6.1.2 Formats |------------------------ 6.1.2.1 概览 |------------------------ 6.1.2.2 Avro format |------------------------ 6.1.2.3 Azure Table Storage |------------------------ 6.1.2.4 Hadoop formats |------------------------ 6.1.2.5 MongoDB format |------------------------ 6.1.2.6 Parquet format |------------------------ 6.1.2.7 Text files format |------------------ 6.1.3 Data Source 和 Sink 的容错保证 |------------------ 6.1.4 Kafka |------------------ 6.1.5 Cassandra |------------------ 6.1.6 Elasticsearch |------------------ 6.1.7 Kinesis |------------------ 6.1.8 FileSystem |------------------ 6.1.9 RabbitMQ |------------------ 6.1.10 Google Cloud PubSub |------------------ 6.1.11 Hybrid Source |------------------ 6.1.12 NiFi |------------------ 6.1.13 Pulsar |------------------ 6.1.14 Twitter |------------------ 6.1.15 JDBC |------------6.2 Table API Connectors |------------------ 6.2.1 概览 |------------------ 6.2.2 Formats |------------------------ 6.2.2.1 Formats |------------------------ 6.2.2.2 CSV |------------------------ 6.2.2.3 JSON |------------------------ 6.2.2.4 Avro |------------------------ 6.2.2.5 Confluent Avro |------------------------ 6.2.2.6 Debezium |------------------------ 6.2.2.7 Canal |------------------------ 6.2.2.8 Maxwell |------------------------ 6.2.2.9 Parquet |------------------------ 6.2.2.10 Orc |------------------------ 6.2.2.11 Raw |------------------6.2.3 Kafka |------------------6.2.4 Upsert Kafka |------------------6.2.5 Kinesis |------------------6.2.6 JDBC |------------------6.2.7 Elasticsearch |------------------6.2.8 FileSystem |------------------6.2.9 HBase |------------------6.2.10 DataGen |------------------6.2.11 Print |------------------6.2.12 BlackHole |------------------6.2.13 Hive |------------------------ 6.2.13.1 Overview |------------------------ 6.2.13.2 Hive Catalog |------------------------ 6.2.13.3 Hive 方言 |------------------------ 6.2.13.4 Hive Read & Write |------------------------ 6.2.13.5 Hive Functions |----------------- 6.2.14 下载页面 |------7. Deployment |------------7.1 概览 |------------7.2 Resource Providers |------------------ 7.2.1 Standalone |------------------------ 7.2.1.1 概览 |------------------------7.2.1.2 Docker设置 |------------------------7.2.1.3 Kubernetes设置 |------------------ 7.2.2 Native Kubernetes |------------------ 7.2.3 Yarn |------------7.3 配置参数 |------------7.4 内存配置 |------------------ 7.4.1 配置 Flink 进程的内存 |------------------ 7.4.2 配置 TaskManager 内存 |------------------ 7.4.3 配置 JobManager 内存 |------------------ 7.4.4 调优指南 |------------------ 7.4.5 常见问题 |------------------ 7.4.6 升级指南 |------------------ 7.4.7 网络内存调优指南 |------------7.5 Fine-Grained Resource Management |------------7.6 命令行界面 |------------7.7 弹性扩缩容 |------------7.8 File Systems |------------------ 7.8.1 文件系统 |------------------ 7.8.2 通用配置 |------------------ 7.8.3 Amazon S3 |------------------ 7.8.4 Google Cloud Storage |------------------ 7.8.5 阿里云对象存储服务 (OSS) |------------------ 7.8.6 Azure Blob 存储 |------------------ 7.8.7 Plugins |------------7.9 高可用 |------------------ 7.9.1 概览 |------------------ 7.9.2 ZooKeeper 高可用服务 |------------------ 7.9.3 Kubernetes 高可用服务 |------------7.10 Metric Reporters |------------7.11 Security |------------------ 7.11.1 SSL 设置 |------------------ 7.11.2 Kerberos 身份认证设置和配置 |------------7.12 REPLS |------------------ 7.12.1 Python REPL |------------------ 7.12.2 Scala REPL |------------7.13 Advanced |------------------ 7.13.1 扩展资源 |------------------ 7.13.2 History Server |------------------ 7.13.3 日志 |------8. Operations |------------8.1 状态与容错 |------------------ 8.1.1 Checkpoints |------------------ 8.1.2 Checkpointing under backpressure |------------------ 8.1.3 Savepoints |------------------ 8.1.4 State Backends |------------------ 8.1.5 大状态与 Checkpoint 调优 |------------------ 8.1.6 Task 故障恢复 |------------8.2 指标 |------------8.3 REST API |------------8.4 Batch |------------------ 8.4.5 Blocking Shuffle |------------8.5 Debugging |------------------ 8.5.1 调试窗口与事件时间 |------------------ 8.5.2 调试类加载 |------------------ 8.5.3 应用程序分析与调试 |------------8.6 Monitoring |------------------ 8.6.1 监控 Checkpoint |------------------ 8.6.2 监控反压 |------------8.7 升级应用程序和 Flink 版本 |------------8.8 生产就绪情况核对清单 |------9. Flink 开发 |------------9.1 导入 Flink 到 IDE 中 |------------9.2 从源码构建 Flink |------10. 内幕 |------------10.1 作业调度 |------------10.2 Task 生命周期 |------------10.3 文件系统 |------11. 相关文档地址 |------------11.1 Project Homepage |------------11.2 JavaDocs |------------11.3 ScalaDocs |------------11.4 PyDocs
|