大数据_文章分类

Way 3 年前

airflow2.0 的安装使用

airflow 是一款开源、支持分布式、基于 python 编写的调度工具，几个月前发布了 2.0 的版本，调度效率较 1.x 版本有很大提升。

airflow 是一款开源、支持分布式、基于 python 编写的调度工具，几个月前发布了 2.0 的版本，调度效率较 1.x

大数据 2299 0

Way 3 年，4月前

flink 1.10 基于 Kafka, MySQL, Elasticsearch, Kibana，使用 Flink SQL 构建一个电商用户行为的实时分析应用

flink 1.10 基于 Kafka, MySQL, Elasticsearch, Kibana，使用 Flink SQL

大数据 1315 11

Way 3 年，5月前

flink 实践系列1 ，安装 flink， centos7 + flink 1.10.1 + Hadoop 2.6.0-cdh5.16.1

flink 实践系列1 ，安装 flink， centos7 + flink 1.10.1 + Hadoop 2.6.0-cdh

大数据 844 0

Way 3 年，5月前

大数据实践项目，采用离线批处理 hive + datax + mysql

大数据 2073 0

Way 3 年，5月前

大数据实践项目，采用实时流处理 flume + kafka + python + mysql

大数据 1928 5

Way 3 年，6月前

高吞吐量的分布式发布订阅消息系统，经常用于实时的流处理。

大数据 698 0

Way 3 年，6月前

hive 是基于 hadoop 的一个数据批处理工具，使用的是 hql 语法，能够自动的将 hql 转化成 map-reduce 执行。

hive 是基于 hadoop 的一个数据批处理工具，使用的是 hql 语法，能够自动的将 hql 转化成 map-reduce

大数据 727 0

Way 3 年，6月前

hadoop 是一个分布式系统，通过数据的多备份实现自动容错，通过增加机器实现扩容，通过 map-reduce 完成海量数据的计算。

hadoop 是一个分布式系统，通过数据的多备份实现自动容错，通过增加机器实现扩容，通过 map-reduce 完成海量数据的计

大数据 640 0

Way 3 年，6月前

HBase 是一个分布式的、面向列的开源数据库，文件存储基于 hadoop ，类似 mongodb，属于非关系型数据库。

大数据 766 0

Way 3 年，6月前

当 hql 任务执行失败时，.hive-staging_hive 的这些临时文件和目录不会被自动删除掉，直到有相关的 hql 执行成功时，才会自动删掉。

当 hql 任务执行失败时，.hive-staging_hive 的这些临时文件和目录不会被自动删除掉，直到有相关的 hql 执

大数据 1480 0