共10篇
文章分类:大数据
大数据相关
airflow2.0 的安装使用
airflow 是一款开源、支持分布式、基于 python 编写的调度工具,几个月前发布了 2.0 的版本,调度效率较 1.x 版本有很大提升。
airflow 是一款开源、支持分布式、基于 python 编写的调度工具,几个月前发布了 2.0 的版本,调度效率较 1.x
nginx 日志分析可视化【批处理】
大数据实践项目,采用离线批处理 hive + datax + mysql
大数据实践项目,采用离线批处理 hive + datax + mysql
nginx 日志分析可视化【流处理】
大数据实践项目,采用实时流处理 flume + kafka + python + mysql
大数据实践项目,采用实时流处理 flume + kafka + python + mysql
hive 删除临时文件 .hive-staging_hive
当 hql 任务执行失败时,.hive-staging_hive 的这些临时文件和目录不会被自动删除掉,直到有相关的 hql 执行成功时,才会自动删掉。
当 hql 任务执行失败时,.hive-staging_hive 的这些临时文件和目录不会被自动删除掉,直到有相关的 hql 执
flink 实践系列2-flinksql
flink 1.10 基于 Kafka, MySQL, Elasticsearch, Kibana,使用 Flink SQL 构建一个电商用户行为的实时分析应用
flink 1.10 基于 Kafka, MySQL, Elasticsearch, Kibana,使用 Flink SQL
hbase 常用命令
HBase 是一个分布式的、面向列的开源数据库,文件存储基于 hadoop ,类似 mongodb,属于非关系型数据库。
HBase 是一个分布式的、面向列的开源数据库,文件存储基于 hadoop ,类似 mongodb,属于非关系型数据库。
flink 实践系列1-安装
flink 实践系列1 ,安装 flink, centos7 + flink 1.10.1 + Hadoop 2.6.0-cdh5.16.1
flink 实践系列1 ,安装 flink, centos7 + flink 1.10.1 + Hadoop 2.6.0-cdh
hadoop 常用命令
hadoop 是一个分布式系统,通过数据的多备份实现自动容错,通过增加机器实现扩容,通过 map-reduce 完成海量数据的计算。
hadoop 是一个分布式系统,通过数据的多备份实现自动容错,通过增加机器实现扩容,通过 map-reduce 完成海量数据的计