大數(shù)據(jù)------Kylin單機集成CDH安裝(詳細教程)
Apache Kylin是一個開源的分布式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力(可以把Kylin定義為OLAP on Hadoop)。Apache Kylin于2015年11月正式畢業(yè)成為Apache基金會(ASF) 頂級項目,是第一個由中國團隊完整貢獻到Apache的頂級項目。
?
Apache Kyiln構建在Hadoop等分布式計算平臺之上,充分利用了MapReduce的并行處理能力和可擴展基礎設施,高效地處理超大規(guī)模數(shù)據(jù),可根據(jù)數(shù)據(jù)的規(guī)模實現(xiàn)架構的可伸縮。Apache Kylin作為OLAP引擎包含了從數(shù)據(jù)源(Hive/Kafka等)獲取源數(shù)據(jù),基于MapReduce構建多維立方體(Cube),并充分利用HBase的列式特性來分布式的存儲立方體數(shù)據(jù),提供標準SQL解析與查詢優(yōu)化,以及ODBC/JDBC驅動及REST API等多個模塊。可插拔的靈活架構,允許支持更多的數(shù)據(jù)源接入Kylin,也支持采用其它技術作為存儲引擎。
?
大多數(shù)的Hadoop分析工具和SQL是友好的,所以Apache Kylin擁有SQL接口這一點就顯得尤為重要。Kylin用的SQL解析器是開源的Apache Calcite,支持幾乎所有的SQL標準。Hive用的也是Calcite。
?
Kylin和其它SQL ON Hadoop的主要區(qū)別是預計算(離線計算)。用戶在使用之前先選擇一個Hive Table的集合,然后在這個基礎上做一個離線的Cube構建,Cube構建完了之后就可以做SQL查詢了。
?
用離線計算來代替在線計算,在離線過程當中把復雜的、計算量很大的工作做完,在線計算量就會變小,就可以更快的返回查詢結果。通過這種方式,Kylin可以有更少的計算量,更高的吞吐量。
由于superset組件中需要和kylin進行交互,所以需要搭建kylin+cdh的開發(fā)環(huán)境。
可以從官方網(wǎng)站下載apache-kylin-2.0.0-bin-cdh57.tar.gz對應的組件,也可以從本書提供的套件里獲取。
解壓縮:
輸入命令:sudo tar -zxvf apache-kylin-2.0.0-bin-cdh57.tar.gz -C /opt/
修改權限:
輸入命令:sudo chown -R hdfs:hdfs /opt/apache-kylin-2.0.0-bin/
軟鏈接:
輸入命令:sudo ln -s /opt/apache-kylin-2.0.0-bin/ /opt/kylin
配置環(huán)境變量:
輸入命令:vi ~/.bashrc
會看到如下效果(實際的情況看本機而定):
# User specific aliases and functions
?
alias rm='rm -i'
alias cp='cp -i'
alias mv='mv -i'
?
# Source global definitions
if [ -f /etc/bashrc ]; then
????????. /etc/bashrc
fi
#added by HBase
export HBASE_HOME=/opt/cloudera/parcels/CDH/lib/hbase
export PATH=$HBASE_HOME/bin:$PATH
?
#added by HCat
export HCAT_HOME=/opt/cloudera/parcels/CDH/lib/hive-hcatalog
?
#added by spark
export SPARK_HOME=/opt/apache-kylin-2.1.0-bin-cdh57/spark
?
#added by kafka
export KAFKA_HOME=/opt/cloudera/parcels/KAFKA-2.2.0-1.2.2.0.p0.68/lib/ka
fka
?
# added for Kylin
export KYLIN_HOME=/opt/kylin
?
#added by java
export JAVA_HOME=/usr/java/jdk1.8.0_144
添加紅色部分到環(huán)境。
刷新:
輸入命令:source ~/.bashrc
啟動kylin:
輸入命令:./kylin.sh start
會顯示如下結果:
Retrieving hadoop conf dir...
KYLIN_HOME is set to /opt/kylin
Retrieving hive dependency...
Retrieving hbase dependency...
Retrieving hadoop conf dir...
Retrieving kafka dependency...
Retrieving Spark dependency...
KYLIN_JVM_SETTINGS is -Xms1024M -Xmx4096M -Xss1024K -XX:MaxPermSize=128M -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:/opt/kylin/logs/kylin.gc.31483 -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=64M
A new Kylin instance is started by hadoop. To stop it, run 'kylin.sh stop'
Check the log at /opt/kylin/logs/kylin.log
Web UI is at http://<hostname>:7070/kylin
訪問UI:
輸入命令:http://node10:7070/kylin/login


會看到如下效果。
導入官方提示用例:
輸入命令:./sample.sh
重啟服務即可看到示例。

如果你也喜歡大數(shù)據(jù),對大數(shù)據(jù)感興趣歡迎加入我們:1127558097
如果想學習大數(shù)據(jù),我們這有博學多識,專業(yè)知識過硬的老師,現(xiàn)在報班還有更多優(yōu)惠和好禮相送哦~快來加入我們吧!
大數(shù)據(jù)視頻學習新手小白必看:爬蟲介紹_Python網(wǎng)絡爬蟲實戰(zhàn)全套完整版_【尚學堂】