散文網(wǎng) » 生活 »日常 » 大數(shù)據(jù)------Kylin單機集成CDH安裝（詳細教程）

大數(shù)據(jù)------Kylin單機集成CDH安裝（詳細教程）

2020-10-29 11:21 作者:自學Python的小姐姐呀 0人讀過 | 我要投稿

Apache Kylin是一個開源的分布式分析引擎，提供Hadoop之上的SQL查詢接口及多維分析（OLAP）能力（可以把Kylin定義為OLAP on Hadoop）。Apache Kylin于2015年11月正式畢業(yè)成為Apache基金會(ASF) 頂級項目，是第一個由中國團隊完整貢獻到Apache的頂級項目。

?

Apache Kyiln構建在Hadoop等分布式計算平臺之上，充分利用了MapReduce的并行處理能力和可擴展基礎設施，高效地處理超大規(guī)模數(shù)據(jù)，可根據(jù)數(shù)據(jù)的規(guī)模實現(xiàn)架構的可伸縮。Apache Kylin作為OLAP引擎包含了從數(shù)據(jù)源（Hive／Kafka等）獲取源數(shù)據(jù)，基于MapReduce構建多維立方體(Cube)，并充分利用HBase的列式特性來分布式的存儲立方體數(shù)據(jù)，提供標準SQL解析與查詢優(yōu)化，以及ODBC／JDBC驅動及REST API等多個模塊。可插拔的靈活架構，允許支持更多的數(shù)據(jù)源接入Kylin，也支持采用其它技術作為存儲引擎。

?

大多數(shù)的Hadoop分析工具和SQL是友好的，所以Apache Kylin擁有SQL接口這一點就顯得尤為重要。Kylin用的SQL解析器是開源的Apache Calcite，支持幾乎所有的SQL標準。Hive用的也是Calcite。

?

Kylin和其它SQL ON Hadoop的主要區(qū)別是預計算（離線計算）。用戶在使用之前先選擇一個Hive Table的集合，然后在這個基礎上做一個離線的Cube構建，Cube構建完了之后就可以做SQL查詢了。

?

用離線計算來代替在線計算，在離線過程當中把復雜的、計算量很大的工作做完，在線計算量就會變小，就可以更快的返回查詢結果。通過這種方式，Kylin可以有更少的計算量，更高的吞吐量。

由于superset組件中需要和kylin進行交互，所以需要搭建kylin+cdh的開發(fā)環(huán)境。

可以從官方網(wǎng)站下載apache-kylin-2.0.0-bin-cdh57.tar.gz對應的組件，也可以從本書提供的套件里獲取。

解壓縮：

輸入命令：sudo tar -zxvf apache-kylin-2.0.0-bin-cdh57.tar.gz -C /opt/

修改權限：

輸入命令：sudo chown -R hdfs:hdfs /opt/apache-kylin-2.0.0-bin/

軟鏈接：

輸入命令：sudo ln -s /opt/apache-kylin-2.0.0-bin/ /opt/kylin

配置環(huán)境變量：

輸入命令：vi ~/.bashrc

會看到如下效果（實際的情況看本機而定）：

# User specific aliases and functions

?

alias rm='rm -i'

alias cp='cp -i'

alias mv='mv -i'

?

# Source global definitions

if [ -f /etc/bashrc ]; then

????????. /etc/bashrc

fi

#added by HBase

export HBASE_HOME=/opt/cloudera/parcels/CDH/lib/hbase

export PATH=$HBASE_HOME/bin:$PATH

?

#added by HCat

export HCAT_HOME=/opt/cloudera/parcels/CDH/lib/hive-hcatalog

?

#added by spark

export SPARK_HOME=/opt/apache-kylin-2.1.0-bin-cdh57/spark

?

#added by kafka

export KAFKA_HOME=/opt/cloudera/parcels/KAFKA-2.2.0-1.2.2.0.p0.68/lib/ka

fka

?

# added for Kylin

export KYLIN_HOME=/opt/kylin

?

#added by java

export JAVA_HOME=/usr/java/jdk1.8.0_144

添加紅色部分到環(huán)境。

刷新：

輸入命令：source ~/.bashrc

啟動kylin：

輸入命令：./kylin.sh start

會顯示如下結果：

Retrieving hadoop conf dir...

KYLIN_HOME is set to /opt/kylin

Retrieving hive dependency...

Retrieving hbase dependency...

Retrieving hadoop conf dir...

Retrieving kafka dependency...

Retrieving Spark dependency...

KYLIN_JVM_SETTINGS is -Xms1024M -Xmx4096M -Xss1024K -XX:MaxPermSize=128M -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:/opt/kylin/logs/kylin.gc.31483 -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=64M

A new Kylin instance is started by hadoop. To stop it, run 'kylin.sh stop'

Check the log at /opt/kylin/logs/kylin.log

Web UI is at http://<hostname>:7070/kylin

訪問UI：

輸入命令：http://node10:7070/kylin/login