更新時間:2024-04-30 08:13:48作者:佚名
你好!
關(guān)于大數(shù)據(jù)有很多東西需要學(xué)習(xí)。 需要從基礎(chǔ)開始,由淺入深,循序漸進,才能扎實掌握大數(shù)據(jù)技術(shù)。
學(xué)習(xí)大數(shù)據(jù)的基礎(chǔ)是Java語言和Linux操作系統(tǒng)。 學(xué)習(xí)順序沒有特定的順序。 一般來說,你會選擇先開始學(xué)習(xí)Java語言。 由于大數(shù)據(jù)相關(guān)軟件基本運行在Linux操作系統(tǒng)上,因此Linux系統(tǒng)也是大數(shù)據(jù)必學(xué)的基礎(chǔ)。 要想深入學(xué)習(xí)真正的大數(shù)據(jù)技術(shù),需要扎實的掌握。
學(xué)習(xí)了這兩個基礎(chǔ)之后,下一步就是大數(shù)據(jù)相關(guān)技術(shù):
1、
這是一個流行的大數(shù)據(jù)處理平臺,幾乎已經(jīng)成為大數(shù)據(jù)的代名詞,所以這是必須學(xué)習(xí)的。 它包括幾個組件:HDFS 和 YARN。 HDFS是存儲數(shù)據(jù)的地方。 就像我們電腦的硬盤一樣,上面存儲著文件。 它處理和計算數(shù)據(jù)。 它的特點之一是,無論數(shù)據(jù)有多大,只要是在短時間內(nèi)就能跑完數(shù)據(jù),但時間可能不會很快,所以稱為數(shù)據(jù)批處理。
YARN是體現(xiàn)平臺理念的重要組件。 憑借其大數(shù)據(jù)生態(tài)系統(tǒng),其他軟件可以在其上運行。 這樣我們就可以更好的利用HDFS大存儲的優(yōu)勢,節(jié)省更多的資源。 例如,我們不再需要構(gòu)建單獨的系統(tǒng)。 如果您有 Spark 集群,只需直接在現(xiàn)有的紗線上運行它即可。
事實上,如果你了解這些組件,你就可以處理大數(shù)據(jù)。 然而,你可能還不清楚“大數(shù)據(jù)”到底有多大。 聽我說,別擔(dān)心這個。 未來,當(dāng)你開始工作時,你會在很多場景中遇到幾十TB/幾百TB的大規(guī)模數(shù)據(jù)。 到時候你就不再覺得大數(shù)據(jù)好。 數(shù)據(jù)越大,你就越頭疼。 當(dāng)然大數(shù)據(jù)技術(shù)是學(xué)什么的,不要害怕處理如此大規(guī)模的數(shù)據(jù),因為這就是你的價值所在。 讓那些做php、html5、DBA的人羨慕不已。
2、
這是萬能的,安裝HA的時候會用到它,以后Hbase也會用到它。 一般用來存儲一些協(xié)作信息。 這個信息比較小,一般不超過1M。 使用它的軟件取決于它。 對于我們個人來說,只需正確安裝并讓它正常運行即可。 就是這樣。
3.MySQL
mysql數(shù)據(jù)庫,一個小型的數(shù)據(jù)處理工具,后面安裝hive的時候會用到。 mysql需要掌握到什么水平? 您可以在Linux上安裝它,運行它,配置簡單的權(quán)限,更改root密碼,并創(chuàng)建數(shù)據(jù)庫。 這里主要是學(xué)習(xí)SQL的語法,因為hive的語法和這個很相似。
4.斯庫普
這是用來將數(shù)據(jù)從Mysql導(dǎo)入到其中的。 當(dāng)然,你也可以跳過這個,直接將Mysql數(shù)據(jù)表導(dǎo)出成文件,然后放到HDFS上。 當(dāng)然,在生產(chǎn)環(huán)境中使用Mysql時要注意Mysql的壓力。
5.蜂巢
這東西對于懂SQL語法的人來說簡直是神器。 它可以讓你處理大數(shù)據(jù)變得非常簡單,你將不再需要為編寫程序而煩惱。 有人說豬? 幾乎就像豬一樣。 你只需要掌握一項。
6.奧茲
既然你學(xué)會了Hive,相信你一定需要這個東西。 它可以幫助您管理 Hive 或 Spark 腳本。 它還可以檢查您的程序是否正確執(zhí)行。 如果發(fā)生錯誤,它會向您發(fā)送警報并幫助您重試程序。 最重要的是它還可以幫助你配置任務(wù)依賴關(guān)系。 相信你一定會喜歡的,不然看著大量的腳本和密密麻麻的crond你會覺得很屎。
7. 數(shù)據(jù)庫
這是生態(tài)系統(tǒng)中的NOSQL數(shù)據(jù)庫。 其數(shù)據(jù)以key和value的形式存儲,并且key是唯一的,因此可以用于重復(fù)數(shù)據(jù)刪除。 與MYSQL相比,它可以存儲大得多的數(shù)據(jù)量。 。 因此,常被用作大數(shù)據(jù)處理完成后的存儲目的地。
8.卡夫卡
這是一個比較好用的隊列工具。 排隊有什么用? 你知道買票必須排隊嗎? 如果數(shù)據(jù)太多了,也需要排隊處理,這樣和你合作的其他同學(xué)就不會尖叫了,你為什么給我這么多數(shù)據(jù)(比如幾百G的文件),我怎么辦?處理它? 不要怪他,因為他不是搞大數(shù)據(jù)的,你可以告訴他,我把數(shù)據(jù)放到隊列里,你用的時候一一拿,這樣他就別再抱怨了,立刻就走來優(yōu)化他的程序。
因為如果他處理不了那就是他的問題了。 不是你提出的問題。 當(dāng)然,我們也可以使用這個工具來存儲在線實時數(shù)據(jù)或者存入HDFS。 這時候可以配合一個叫Flume的工具來使用,它是專門用來提供數(shù)據(jù)的簡單處理,編寫各種Data接收器(比如Kafka)。
9.火花
它是用來彌補數(shù)據(jù)處理速度上的缺點的。 其特點是將數(shù)據(jù)加載到內(nèi)存中進行計算,而不是讀取速度極慢的硬盤。 它特別適合迭代運算大數(shù)據(jù)技術(shù)是學(xué)什么的,所以算法主播特別喜歡它。 它是用scala編寫的。 它可以用Java語言或Scala來操作,因為它們都使用JVM。
當(dāng)你掌握了這些技術(shù)英語作文,你基本上就可以成為一名專業(yè)的大數(shù)據(jù)開發(fā)工程師了。 之后,你可以進一步提高你的語言、機器學(xué)習(xí)等知識,以便你在以后的工作中變得越來越好。
大數(shù)據(jù)開發(fā)主要涉及學(xué)習(xí)編程語言和大數(shù)據(jù)處理技術(shù)。 關(guān)于如何學(xué)習(xí),下面我給大家分享一個學(xué)習(xí)路線。 希望對您有所幫助。 知乎專欄也供大家參考學(xué)習(xí):
「原創(chuàng)內(nèi)容」