Dinky源码数据开发功能主要包含多种类型作业,如Flink、Jdbc类型作业和通用的UDF(用户定义函数)作业,以满足不同需求。FlinkSQLEnv作业类型特别适用于sql作业开发,通过创建此类作业可将通用参数和代码片段封装起来供其他任务引用,以减少重复编写通用语句,提高开发效率。
登录平台并新建作业:登录Dinky平台,进入数据开发页面,新建FlinkSQL作业。选择Local模式作为执行模式,并配置并行度为1。输入SQL并预览结果:输入Flink SQL语句,利用预览功能查看查询结果。此功能主要用于调试,帮助开发时快速验证数据。线上作业需通过执行按钮提交至集群。
建议先集成Flink与ChunJun确保服务正常后,再进行Dinky的集成。遇到问题时,可以参考Dinky官网FAQ或Chunjun官网QuickStart获取解决方案。Dinky的sql编辑模版功能显著提升开发效率,支持多源数据的离线批处理及实时同步任务。然而,UI适配性有待优化,如页面宽度调整后,需刷新页面以适应新尺寸。
DanaStudio数智开发:一站式大数据协作开发、管理平台,解决数据采集融合、数据治理、元数据管理等问题。Dinky:以Apache Flink为基础的一站式实时计算平台,致力于流批一体和湖仓一体的探索与实践。Jupyter Notebook:开源的web应用程序,创建和共享包含实时代码、方程、可视化和文本的文档。
DaNAStudio数智开发:面向开发者、数据管理者、数据应用者提供的一站式大数据协作开发、管理平台,致力于解决结构化、半结构化和非结构化数据的采集融合、数据治理、元数据管理、分层管理、交换服务等问题。
登录Dinky平台,进入数据开发页面,新建FlinkSQL作业。选择Local模式作为执行模式,配置并行度为1。输入Flink SQL语句,预览查询结果。此功能主要用于调试,帮助开发时快速查看数据。线上作业需通过执行按钮提交任务至集群。任务运维:提交任务后,可在运维中心页面查看作业的运行状态、日志、监控等信息。
1、此阶段的核心在于启动TaskExecutor的相关服务,为TaskManager的正式运行做准备。与ResourceManager的连接与注册:生成注册信息:TaskExecutor启动时,会生成新的注册信息。创建未完成的future:同时创建一个表示注册操作尚未完成的future对象。
2、RM在内部的slotManager中查找可用slot,若无,RM会启动一个容器并在此容器中启动TaskExecutor(即TaskManager进程),以承载任务执行。本节将专注于TaskManager进程的创建和启动流程,具体从YarnResourceManager的startTaskExecutorInContainer方法出发。
3、Flink的ResourceManager详解如下:定义与功能 ResourceManager在Flink集群中负责管理计算资源。 它接收来自JobManager的SlotRequest和来自TaskManager的SlotReport,并根据这些信息动态地向集群资源管理器申请Container并启动TaskManager。
4、YARN运行模式:Flink通过YARN接口实现自己的APPlicationMaster。当在YARN中部署Flink时,YARN使用其容器启动Flink的JobManager和TaskManager。运行模式:Flink在YARN上提供了三种运行模式,具体详情可参考官方文档。
5、JobManager: 作业调度:负责接收用户提交的作业,并将这些作业拆解为多个任务进行调度。 资源管理:与 Flink 的资源管理器协作,确保作业所需资源的合理分配。 容错与状态管理:控制作业的执行流程,包括实现容错机制,如设置检查点来保存作业状态,以便在发生故障时能够重新启动作业。
6、Flink配置 Flink的配置文件位于Flink安装目录的conf文件夹下,文件名为flink-conf.yaml。在该文件中,可以设置JobManager和TaskManager的内存、CPU等参数,以确保Flink应用程序能够正常运行。
启动TaskManagerRunner完成初始化和配置后,TaskManagerRunner向RPC端点发送启动消息,启动消息被接收并处理,最终开始执行。至此,TaskManager的创建和启动过程解析完毕。下一节,我们将深入探讨TaskExecutor内部的onStart方法,继续Flink源码的探索之旅。
Flink源码中创建与启动TaskManager的onStart阶段主要过程如下:启动TaskExecutorServices服务:此阶段的核心在于启动TaskExecutor的相关服务,为TaskManager的正式运行做准备。与ResourceManager的连接与注册:生成注册信息:TaskExecutor启动时,会生成新的注册信息。
Flink的ResourceManager详解如下:定义与功能 ResourceManager在Flink集群中负责管理计算资源。 它接收来自JobManager的SlotRequest和来自TaskManager的SlotReport,并根据这些信息动态地向集群资源管理器申请Container并启动TaskManager。
当在YARN中部署Flink时,YARN使用其容器启动Flink的JobManager和TaskManager。运行模式:Flink在YARN上提供了三种运行模式,具体详情可参考官方文档。YARN模式与Standalone模式的主要区别在于入口点不同,Standalone模式使用ClusterEntryPoint作为集群模式的入口基类。