Datax使用

2024-10-30

一、环境介绍

通过datax将业务数据库oracle、mysql里的数据,抽取到hive库SRC贴源层的临时分区里,再通过Python脚本调起impala sql,将数据加工到SRC层增量分区,以及数仓其他层。

各个环节通过DolphinScheduler调度,定时控制并监控任务状态。

Read More

互联网业务术语汇总

2024-10-30

互联网业务术语汇总

企业架构

CEO:首席执行官,是企业的法人代表。是在一个企业中负责日常事务的最高行改官员,主司企业行改事务,故又称作司政.行政总裁、总经理或最高执行长。

COO:首席运营官,主要负责公司的运作和...

Read More

docker入门

2023-09-17

此类技术博客写作要素:

1、技术调研阶段: 技术调研,学习这个组件的动机、个人场景、需求是什么。为什么要学这个。(个人或公司的需求背景)

2、 Read More

互联网金融支付业务通识

2023-07-26

金融支付业务基础通识

一、名词概念

平台账号: 用户或者商户在平台注册的用户账号,作为其唯一识别编码,一般做登陆时使用,如支付宝账号。

账户:支付机构根据客户的真实意愿为其开立的,用于记录预付交易资金余额、客户...

Read More

hive sql常见优化手段

2023-06-21

一、SQL运行慢的常见原因

1.资源紧张,任务优先级比较低

通过大数据管理平台界面,可以查看集群当前资源情况。

任务多,时间点密集、拥堵;单任务占用资源过大;等都有可能导致sql变慢。 Read More

大数据算法

【大数据常用算法总结】

1、哈希分片

数据分片:目前大数据通过横向拓展的方式支持系统可拓展性,通过增加机器数量来获取水平扩展能力。对于待处理的海量数据,需要通过数据分片的方式,将它们切分到各个机器上。

数据路由:...

Read More