10

文章分类:大数据

大数据相关

Way Way 3 年,7月前

airflow2.0 的安装使用

airflow 是一款开源、支持分布式、基于 python 编写的调度工具,几个月前发布了 2.0 的版本,调度效率较 1.x 版本有很大提升。

airflow 是一款开源、支持分布式、基于 python 编写的调度工具,几个月前发布了 2.0 的版本,调度效率较 1.x

Way Way 4 年前

flink 实践系列2-flinksql

flink 1.10 基于 Kafka, MySQL, Elasticsearch, Kibana,使用 Flink SQL 构建一个电商用户行为的实时分析应用

flink 1.10 基于 Kafka, MySQL, Elasticsearch, Kibana,使用 Flink SQL

Way Way 4 年前

flink 实践系列1-安装

flink 实践系列1 ,安装 flink, centos7 + flink 1.10.1 + Hadoop 2.6.0-cdh5.16.1

flink 实践系列1 ,安装 flink, centos7 + flink 1.10.1 + Hadoop 2.6.0-cdh

Way Way 4 年前

nginx 日志分析可视化【批处理】

大数据实践项目,采用离线批处理 hive + datax + mysql

大数据实践项目,采用离线批处理 hive + datax + mysql

Way Way 4 年前

nginx 日志分析可视化【流处理】

大数据实践项目,采用实时流处理 flume + kafka + python + mysql

大数据实践项目,采用实时流处理 flume + kafka + python + mysql

Way Way 4 年,1月前

kafka 常用命令

高吞吐量的分布式发布订阅消息系统,经常用于实时的流处理。

高吞吐量的分布式发布订阅消息系统,经常用于实时的流处理。

Way Way 4 年,1月前

hive 常用命令

hive 是基于 hadoop 的一个数据批处理工具,使用的是 hql 语法,能够自动的将 hql 转化成 map-reduce 执行。

hive 是基于 hadoop 的一个数据批处理工具,使用的是 hql 语法,能够自动的将 hql 转化成 map-reduce

Way Way 4 年,1月前

hadoop 常用命令

hadoop 是一个分布式系统,通过数据的多备份实现自动容错,通过增加机器实现扩容,通过 map-reduce 完成海量数据的计算。

hadoop 是一个分布式系统,通过数据的多备份实现自动容错,通过增加机器实现扩容,通过 map-reduce 完成海量数据的计

Way Way 4 年,1月前

hbase 常用命令

HBase 是一个分布式的、面向列的开源数据库,文件存储基于 hadoop ,类似 mongodb,属于非关系型数据库。

HBase 是一个分布式的、面向列的开源数据库,文件存储基于 hadoop ,类似 mongodb,属于非关系型数据库。

Way Way 4 年,1月前

hive 删除临时文件 .hive-staging_hive

当 hql 任务执行失败时,.hive-staging_hive 的这些临时文件和目录不会被自动删除掉,直到有相关的 hql 执行成功时,才会自动删掉。

当 hql 任务执行失败时,.hive-staging_hive 的这些临时文件和目录不会被自动删除掉,直到有相关的 hql 执