kettle中做查询时,遇到大数据时怎么处理

如题所述

在kettle常常有处理从一个源数据中做转换.做转换的时候, 需要去查另一个数据库.

这种问题遇到数据小时候还好办. 但是数据魇 时候就麻烦来了.
下面针对三种情况做具体情况的选择办法
1. 当需要转换的数据特别大的时候, 例如: 10W条以上.或者100W条以上时.

上图中,hadoop数据导入,导入的数据如果够多,例如100W条以上,其中一个字段需要查询数据库中查询,而这个字段的类型并不多,例如只有10个类
型或者数据库中就只有这10个类型.那么,可以走线路2, 并且线路2中的 "使用缓存"
可以打勾,也可以不打.当然你这个源里的数据太多,打上当然最好了.因为省得再去你的数据库里再查.
但是当源里的数据类型还是只有10个类型,但是你的数据库里面存了有10000条记录时,怎么办?
有两种解决办法:
1).线路2:并且查询节点中的 "使用缓存" 不能打勾.
2).线路1,并在"带条件的结果查询供流查询使用" 这个结点中,用一个SQL,过滤一下数据,然后尽可能地把那里包括的这些记录查出来.这样在流里的比对时.也很快很多.必竟是在内存里做运算了

2. 查另一个数据库的数据量大时,而你的源数据不大.

最好的选择是
线路1,并在"带条件的结果查询供流查询使用" 这个结点中,用一个SQL,过滤一下数据,然后尽可能地把那里包括的这些记录查出来.这样在流里的比对时.也很快很多.必竟是在内存里做运算了

3. 当两个数据源都非常大时(最不想遇到的)
这种情况是最不想遇到的办法
一种选择:
1).线路2中的 "使用缓存" 打勾.
温馨提示:内容为网友见解,仅供参考
无其他回答

kettle中做查询时,遇到大数据时怎么处理
有两种解决办法:1).线路2:并且查询节点中的 "使用缓存" 不能打勾.2).线路1,并在"带条件的结果查询供流查询使用" 这个结点中,用一个SQL,过滤一下数据,然后尽可能地把那里包括的这些记录查出来.这样在流里的比对时.也很快很多.必竟是在内存里做运算了 2. 查另一个数据库的数据量大时,而你的...

2分钟掌握开源 BI 工具 DataEase 小技巧|定时同步提升查询效率
通过设置 Kettle 定时任务,我们可以将数据从源头实时抽取并存储到 Doris 中,这对于聚合查询来说尤其有效,因为结果集通常只有少量数据,查询速度自然快很多。具体操作步骤如下:首先,创建一个直连 SQL 数据集,例如一个多表关联的查询,计算总销售额和总利润。接着,使用相同的 SQL 创建一个定时同步的...

大数据 ETL 处理工具 Kettle 的核心概念
数据行由零到多个字段组成,每个步骤在输出时提供字段描述,即数据行的元数据,包括信息如数据类型和字段名。步骤执行并发,利用行集缓存规则,每个步骤独立运行,最小化内存消耗,非常适合处理大量数据。Kettle的所有步骤同时启动,读取输入跳中的数据并写入输出跳,直至数据耗尽中止。步骤全部中止后,整个转换...

kettle用什么软件
Kettle是其最为流行的图形化界面部分,允许用户通过拖拽和配置节点的方式来设计数据流,进行数据的集成和处理工作。这个工具主要用于大数据的转换和管理,用于整合不同的数据源。无论是从数据库中抽取数据,还是对数据进行清洗和转换,再加载到目标系统中,Kettle都能通过直观的界面完成复杂的流程设计。它支持...

BI商业大数据分析平台二:可视化ETL平台Kettle
案例一:需求为数据处理,通过分析数据,实现需求实现。具体操作步骤包括数据连接、查询与转换,最终成功执行作业。案例二:面临需求时,首先进行数据需求分析,根据分析结果,设计并执行相应的数据处理流程。通过连接MySQL数据库,设置相关参数,实现数据的获取与转换。五、MySQL连接与错误处理 在Kettle中连接...

Kettle实战系列之基于Carte构建微服务
在数据查询服务的实现中,Carte服务通过获取参数的方式提供灵活性,用户可以自定义参数变量,或者利用获取变量组件来接收参数。这种设计使得服务的配置更加灵活,能够适应多样化的数据处理需求。为了确保服务的稳定运行,文章还介绍了Carte任务运行分析、中文乱码处理、服务模型全量数据测试等关键点。特别强调了在...

kettle从oracle向mysql迁移大数据量时报错,求教
数据同步的操作均采用OGG工具进行,考虑数据全量和增量的衔接,OGG需要先将增量同步的抽取进程启动,抓取数据库的redo log,待全量抽取结束后开启增量数据回放,应用全量和增量这段期间产生的日志数据,OGG可基于参数配置进行重复数据处理,所以使用OGG时优先将增量进行配置并启用。此外,为了避免本章节篇幅过长,OGG参数将不再解...

ERP-凭证行大数据量导出-模型的创建和kettle抽取到数仓,finereport导出...
在ERP系统中,面对庞大的EBS凭证行数据量导出,主体公司与下属公司反馈从EBS请求导出流程过于耗时。为解决这一问题,决定在数据仓库中创建数据模型,通过kettle抽取数据,并建立索引,使业务通过FineReport或FineBI直接操作。优化查询效率是关键步骤之一。通过分析发现,账户编码和账户说明的获取方法影响了查询速度...

基于spring-boot的kettle调度
因此我们需要把kettle的调度从项目中分离出来,这样才能够更好地集成到自己的项目中去。于是我觉得将它抽出来,基于spring-boot,具体的业务也分离出来,kettle作为一个组件。renren-kettle 项目说明 项目实现功能 项目结构 实时websocket的接入例子 部署指南 如需加入项目,请邮件 823894716@qq.com ...

kettle有什么特点
在大数据情况下(千万级别以上),处理速度比国内外同类软件要高出300%以上。并针对云端数据库中使用最多的 MySQL 数据库进行优化,使得从源数据库复制到新数据库时保留更多的数据表属性设置。这样大大减少程序员、DBA、实施人员将大型数据库进行迁移时的等待、测试和调试时间,减少公司为了测试某系统转换到...

相似回答