手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 大數(shù)據(jù)到底應該如何學？

大數(shù)據(jù)到底應該如何學？

2020-12-10 15:00 作者:每天一個禿頂小技巧 0人讀過 | 我要投稿

一、食用須知

再更一篇技術雜談類的文章。。。粉絲甲：所以這就是你拖更系列文章和視頻的理由嗎？？？粉絲乙丙?。壕褪?！就是！都斷更多久了？我：咳。。。最近雜事纏身，還望恕罪！下面是食用須知：

本文適合還不十分了解大數(shù)據(jù)的你，同樣適合不確定要不要學習大數(shù)據(jù)的你，將帶你了解行業(yè)的需求以及與之相關的崗位，也同樣適合剛剛踏入大數(shù)據(jù)領域工作的你，歡迎收藏并將文章分享給身邊的朋友。
筆者從事大數(shù)據(jù)開發(fā)和培訓多年，曾為多家機構(gòu)優(yōu)化完整大數(shù)據(jù)課程體系，也為多所高校設計并實施大數(shù)據(jù)專業(yè)培養(yǎng)方案，并進行過多次大數(shù)據(jù)師資培訓、高校骨干教師學習交流，希望自己的一點粗淺認識能夠幫助到大家。
本文并不是要將大數(shù)據(jù)描述成一個萬能的、可以解決所有問題的東西，而是客觀的闡述其作用，能夠解決的一些問題。希望將這一領域盡可能完整的介紹給你，至于如何選擇需要根據(jù)自己的實際情況來決定，如果有任何問題可以在評論區(qū)留言或加入粉絲群與我直接交流。

二、大數(shù)據(jù)的基本概念

1. 什么是大數(shù)據(jù)

要說什么是大數(shù)據(jù)我想大家多少已經(jīng)有所了解了，很多落地的案例已經(jīng)深入到了我們的生活中。大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)類型豐富復雜、數(shù)據(jù)增長速度快等特點，一切的數(shù)據(jù)分析必須建立在真實的數(shù)據(jù)集上才會有意義，而數(shù)據(jù)質(zhì)量本身也是影響大數(shù)據(jù)分析結(jié)果的重要因素之一。

作為學習者，我們關心的應該是大數(shù)據(jù)能夠解決什么樣的問題，能夠應用在哪些領域，應該學習哪些內(nèi)容，側(cè)重哪一方面。簡單來說，我們需要學習的就是一系列的大數(shù)據(jù)生態(tài)圈技術組件，以及貫穿整個數(shù)據(jù)分析流程的分析方法和思維，并且思路更加重要一些！只有明確了數(shù)據(jù)分析場景與流程，我們才能夠確定需要整合哪些大數(shù)據(jù)組件來解決這一問題。下面我們將一起推開這一領域的大門~

2. 數(shù)據(jù)是如何采集的

大數(shù)據(jù)分析的第一步就是對數(shù)據(jù)的收集和管理，我們需要先來了解一下數(shù)據(jù)是如何產(chǎn)生的？又是被如何捕獲的？那些看似雜亂的數(shù)據(jù)真的能被分析嗎？

主動的數(shù)據(jù)產(chǎn)生與用戶行為數(shù)據(jù)收集

主動產(chǎn)生的數(shù)據(jù)比較好理解，在我們使用互聯(lián)網(wǎng)或者各種應用的過程中，通過填寫提交表單就會產(chǎn)生數(shù)據(jù)。類似的，我們在線下環(huán)境中，比如銀行開卡、紙質(zhì)表格的填寫，最終都會變成電子數(shù)據(jù)流入到系統(tǒng)中。通常，我們會將這一類行為歸為用戶注冊，通常會是產(chǎn)生數(shù)據(jù)的起點。（當然，有些時候我們分析的數(shù)據(jù)也可能并不關心用戶自身的信息。）除此之外，通過使用一些平臺的功能，用戶會上傳和發(fā)布各種類型的數(shù)據(jù)，如文本類信息、音頻、視頻等，這都是數(shù)據(jù)產(chǎn)生和積累的方式。
對于用戶行為數(shù)據(jù)更多的來自于應用埋點和捕獲，因為用戶使用應用必須通過鼠標點擊或者手指觸碰來和用戶界面進行交互。以網(wǎng)頁應用（網(wǎng)站）為例，對于鼠標的所有行為基本上都可以通過事件監(jiān)聽的方式來捕獲，鼠標在某個區(qū)域停留的時間、是否進行點擊，我們甚至可以根據(jù)用戶的行為數(shù)據(jù)刻畫出整個頁面的熱力圖。

在不同的應用場景中，我們可以對行為類型、功能模塊、用戶信息等維度進一步的劃分，做更加深入的分析。

結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)

最常見的結(jié)構(gòu)化數(shù)據(jù)就是存儲在關系型數(shù)據(jù)庫中的數(shù)據(jù)，如MySQL、Oracle等，這些數(shù)據(jù)都具備一個特點，就是十分規(guī)范。因為關系型數(shù)據(jù)庫屬于寫時模式，也就是說不符合預先設定的數(shù)據(jù)類型和規(guī)范的數(shù)據(jù)不會通過校驗，存不到數(shù)據(jù)庫中。除數(shù)據(jù)庫中的數(shù)據(jù)以外，那些能直接導入到數(shù)據(jù)庫中的數(shù)據(jù)文件我們也可以把它們視為結(jié)構(gòu)化的數(shù)據(jù)，如：CSV格式。這些數(shù)據(jù)通常需要具備統(tǒng)一的列分隔符、行分隔符，統(tǒng)一的日期格式等等。
對于非機構(gòu)化的數(shù)據(jù)指的就是除結(jié)構(gòu)化數(shù)據(jù)以外的另一大類數(shù)據(jù)，通常沒有預期的數(shù)據(jù)機構(gòu)，存儲在非關系型數(shù)據(jù)庫中，如：Redis、MongoDB，使用NoSQL來進行操作。也可能是非文本類型的數(shù)據(jù)，需要特別對應的手段來處理和分析。

3. 大數(shù)據(jù)真的能預測嗎

問起大數(shù)據(jù)到底能不能預測，倒不如來說一說大數(shù)據(jù)是如何預測的。如果結(jié)合人工智能領域來說的話就比較復雜了，就說比較簡單的場景：用統(tǒng)計分析的方法進行輔助決策，或者用經(jīng)典數(shù)據(jù)挖掘算法進行模型的訓練。既然是預測，那就有可能準確，也有可能不準確，分析者需要做的就是合理的使用各種數(shù)據(jù)維度，結(jié)合相應的算法或統(tǒng)計分析方法，去訓練或擬合出一個潛在的規(guī)律。這個過程就好比，給了我們?nèi)齻€點（1，1）、（2，2）、（3，3），我們可以大概猜到它的函數(shù)式有可能為 y=x 一樣。當然，實際的分析過程要比這復雜的多得多，畢竟有很多函數(shù)式都可以滿足這三個點，但到底哪一個是我想要的規(guī)律呢？這就需要理論知識與行業(yè)經(jīng)驗并重，不斷的打磨和優(yōu)化才能夠得到一個可靠的模型。
但是我們可以明確的一點是，大數(shù)據(jù)的預測也好、推薦也好，都是基于算法的，是數(shù)學的，也是科學的，但并不會百分之百的準確。

三、什么是大數(shù)據(jù)開發(fā)

了解了什么是大數(shù)據(jù)，接下來介紹一下大數(shù)據(jù)開發(fā)這一崗位，先直接上崗位描述（JD：Job Description）給大家感受一下。然后來說明一下大數(shù)據(jù)開發(fā)工程師的主要工作，最后再來總結(jié)一下需要掌握的技能。

京東大數(shù)據(jù)開發(fā)工程師JD：

小米大數(shù)據(jù)開發(fā)工程師JD：

滴滴大數(shù)據(jù)開發(fā)工程師JD：

主要工作

從上面的崗位描述中我們可以發(fā)現(xiàn)大數(shù)據(jù)開發(fā)工程師一般會與業(yè)務進行對接，要么是基于某一個場景進行有針對性的數(shù)據(jù)處理，要么是打造一個大數(shù)據(jù)產(chǎn)品。在這里我們也需要糾正一個小小的概念，可能有些小伙伴認為有大數(shù)據(jù)崗位需求的公司一定是一個自身具備大量數(shù)據(jù)、有著大量用戶積淀的公司，其實不然。除了分析公司自身業(yè)務數(shù)據(jù)以外，同樣可以打造一款通用的大數(shù)據(jù)產(chǎn)品，大家可以參考我的另一篇文章：如何用開源組件“攢”出一個大數(shù)據(jù)建模平臺。所以大數(shù)據(jù)的崗位雖然不像普通的開發(fā)工程師那么多，但是需求依然存在。
如果是分析公司自身的業(yè)務數(shù)據(jù)，一般會更偏重于使用大數(shù)據(jù)組件和算法庫，構(gòu)建出一個可行的數(shù)據(jù)分析方案。大家可以看出，現(xiàn)在完全不涉及算法的大數(shù)據(jù)崗位已經(jīng)比較少了。這里的算法指的并不是數(shù)據(jù)結(jié)構(gòu)，而是指機器學習庫，與數(shù)據(jù)挖掘相關的算法，至少要知道如何控制算法的輸入與輸出，算法能夠解決的問題，可能不會涉及到親自建模，在大數(shù)據(jù)分析的小節(jié)中會詳細介紹。

如果是開發(fā)一個大數(shù)據(jù)產(chǎn)品，比如建模平臺，或者是致力于解決數(shù)據(jù)采集、數(shù)據(jù)可視化的解決方案。那么這比較適合從開發(fā)工程師轉(zhuǎn)行大數(shù)據(jù)開發(fā)工程師的小伙伴，相當于在開發(fā)一個應用的基礎上又增加了底層的大數(shù)據(jù)組件。這就要求我們既需要懂得原始的服務端框架的那一套，又能夠駕馭大數(shù)據(jù)開發(fā)API。

掌握技能

從事大數(shù)據(jù)開發(fā)需要掌握的技能可以概括為以下幾個方面：

操作系統(tǒng)：Linux（基本操作、軟件維護、權(quán)限管理、定時任務、簡單Shell等）
編程語言：Java（主要）、Scala、Python等
數(shù)據(jù)采集組件及中間件：Flume、Sqoop、Kafka、Logstash、Splunk等
大數(shù)據(jù)集群核心組件：Hadoop、Hive、Impala、HBase、Spark（Core、SQL、Streaming、MLlib）、Flink、Zookeeper等
素養(yǎng)要求：計算機或大數(shù)據(jù)相關專業(yè)

四、什么是大數(shù)據(jù)分析

說到數(shù)據(jù)分析師，這不是本文的重點，因為門檻相對較高，另一方面更偏數(shù)學、統(tǒng)計學方向，更多的是與數(shù)據(jù)、算法打交道，編程的產(chǎn)物通常不是應用，而是一個算法模型。我們還是先來看一看相關的JD：

小紅書數(shù)據(jù)分析師JD：

京東數(shù)據(jù)分析師JD：

新浪微博數(shù)據(jù)分析師：

主要工作：

如果說大數(shù)據(jù)開發(fā)的崗位需求是一條一條的話。。。那么數(shù)據(jù)分析師的崗位需求大概率是一篇一篇的。。。從上面的要求的中可以看到，每一個崗位都講業(yè)務場景介紹的很詳細，畢竟，數(shù)據(jù)分析師的主要工作之一是建立算法模型，這是垂直領域的深耕。通常我們無法直接使用那些已經(jīng)存在的算法，必須要進行評估、優(yōu)化、或是組合使用。除此之外，你還必須擁有這一領域的業(yè)務經(jīng)驗，才能夠很好的勝任。

掌握技能：

算法工程師需要掌握的技能可以概括為以下幾個方面：

編程語言：Python、R、SQL等
建模工具：MATLAB、Mathematica等
熟悉機器學習庫及數(shù)據(jù)挖掘經(jīng)典算法
數(shù)學、統(tǒng)計學、計算機相關專業(yè)，對數(shù)據(jù)敏感

五、應如何學習大數(shù)據(jù)

上面介紹了和大數(shù)據(jù)相關的兩個主要工作崗位，其實與大數(shù)據(jù)相關的崗位還有很多，真正歸納起來，ETL工程師也可以說擦邊，因為隨著數(shù)據(jù)量的不斷增大，無論是銀行內(nèi)部還是大數(shù)據(jù)服務公司都在從傳統(tǒng)ETL工具向大數(shù)據(jù)集群進行過渡。
涉及到了這么多的技術點，如何學習才更加高效呢？首先好入門的自然是大數(shù)據(jù)開發(fā)，對于Linux的操作系統(tǒng)和編程語言的部分沒什么過多說明的，不要覺得有些東西沒用就跳過，有些時候編程思想和解決問題的方法同樣很重要，課本上有的一定要扎實。對于和大數(shù)據(jù)相關的組件，看上去十分的繁雜，很多小伙伴可能都是鉆研于每個組件的用法、算子、函數(shù)、API，這當然沒有錯，但是同時一定不要忘記埋在其中的主線，那就是：完整的數(shù)據(jù)分析流程。在學習的過程中一定要了解各組件的特點、區(qū)別和應用的數(shù)據(jù)場景。

離線計算

在離線計算場景下，使用的都是歷史數(shù)據(jù)，也就是不會再發(fā)生改變的數(shù)據(jù)。在數(shù)據(jù)源確定以后，這些數(shù)據(jù)不會再增加、也不會再更新，比較適合對實時性要求不高的場景。大多數(shù)情況下是周期性的計算某一個指標或執(zhí)行一個Job，運算耗時基本上可以控制在分鐘級。

數(shù)據(jù)源：數(shù)據(jù)文件、數(shù)據(jù)庫中的數(shù)據(jù)等
數(shù)據(jù)采集：Sqoop、HDFS數(shù)據(jù)上傳、Hive數(shù)據(jù)導入等
數(shù)據(jù)存儲：HDFS
數(shù)據(jù)分析：MapReduce、Hive QL
計算結(jié)果：Hive結(jié)果表（HiveJDBC查詢）、導出至關系型數(shù)據(jù)庫

實時計算

實時計算所面對的數(shù)據(jù)是不斷的流入的，要能夠使用合適的組件處理實時流入的數(shù)據(jù)。有些時候單位時間內(nèi)的數(shù)據(jù)流入會比較多，消費的比較慢。有些時候單位時間內(nèi)的數(shù)據(jù)流入會比較少，消費的會比較快。所以在采集數(shù)據(jù)時一方面要保證數(shù)據(jù)不丟失，同時還需要有中間件來管理好數(shù)據(jù)。在進行實時計算時可以使用微批次的方式也可以使用其他方式，同時要處理好計算結(jié)果合并的問題，實時展示最新的結(jié)果。

數(shù)據(jù)源：日志文件增量監(jiān)聽等
數(shù)據(jù)采集：Flume
中間件：Kafka
數(shù)據(jù)分析：Spark-Streaming，F(xiàn)link等
計算結(jié)果：HBase

以上只是簡單的列舉了一些實現(xiàn)不同場景數(shù)據(jù)流程的組件整合方案，詣在告訴大家一定要善于發(fā)現(xiàn)和總結(jié)不同組件的特點，把合適的組件放在合適的位置，這也是面試官經(jīng)常喜歡問的場景題目。其實每個組件的使用方法和調(diào)用API并沒有很復雜，重點還是在于流程化、一體化、把組件之間連接起來，不斷的滲透和強化數(shù)據(jù)分析和處理的思路，能夠把一個需求直接翻譯成數(shù)據(jù)分析方案，這才是學習的重點。

標簽：