欢乐颂小说结局,欢乐颂小说结局,斗破苍穹续集

主頁 > 知識庫 > hive函數(shù)簡介

hive函數(shù)簡介

首先我們要知道hive到底是做什么的。下面這幾段文字很好的描述了hive的特性：　

　1.hive是基于Hadoop的一個數(shù)據(jù)倉庫工具，可以將結(jié)構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供完整的sql查詢功能，可以將sql語句轉(zhuǎn)換為MapReduce任務進行運行。其優(yōu)點是學習成本低，可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計，不必開發(fā)專門的MapReduce應用，十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。

　　2.Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎構架。它提供了一系列的工具，可以用來進行數(shù)據(jù)提取轉(zhuǎn)化加載（ETL），這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規(guī)模數(shù)據(jù)的機制。Hive 定義了簡單的類 SQL 查詢語言，稱為 HQL，它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時，這個語言也允許熟悉 MapReduce 開發(fā)者的開發(fā)自定義的 mapper 和 reducer 來處理內(nèi)建的 mapper 和 reducer 無法完成的復雜的分析工作。

　　要理解hive，必須先理解hadoop和mapreduce，如果有不熟悉的童鞋，可以百度一下。

　　使用hive的命令行接口，感覺很像操作關系數(shù)據(jù)庫，但是hive和關系數(shù)據(jù)庫還是有很大的不同，下面我就比較下hive與關系數(shù)據(jù)庫的區(qū)別，具體如下：

1.hive和關系數(shù)據(jù)庫存儲文件的系統(tǒng)不同，hive使用的是hadoop的HDFS（hadoop的分布式文件系統(tǒng)），關系數(shù)據(jù)庫則是服務器本地的文件系統(tǒng)；

2.hive使用的計算模型是mapreduce，而關系數(shù)據(jù)庫則是自己設計的計算模型；

3.關系數(shù)據(jù)庫都是為實時查詢的業(yè)務進行設計的，而hive則是為海量數(shù)據(jù)做數(shù)據(jù)挖掘設計的，實時性很差；實時性的區(qū)別導致hive的應用場景和關系數(shù)據(jù)庫有很大的不同；

4.Hive很容易擴展自己的存儲能力和計算能力，這個是繼承hadoop的，而關系數(shù)據(jù)庫在這個方面要比數(shù)據(jù)庫差很多。

　　以上都是從宏觀的角度比較hive和關系數(shù)據(jù)庫的區(qū)別，hive和關系數(shù)據(jù)庫的異同還有很多，我在文章的后面會一一描述。

　　下面我來講講hive的技術架構，大家先看下面的架構圖：

　　由上圖可知，hadoop和mapreduce是hive架構的根基。Hive架構包括如下組件：CLI（command line interface）、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)，這些組件我可以分為兩大類：服務端組件和客戶端組件。

　　首先講講服務端組件：

　　Driver組件：該組件包括Complier、Optimizer和Executor，它的作用是將我們寫的HiveQL（類SQL）語句進行解析、編譯優(yōu)化，生成執(zhí)行計劃，然后調(diào)用底層的mapreduce計算框架。

　　Metastore組件：元數(shù)據(jù)服務組件，這個組件存儲hive的元數(shù)據(jù)，hive的元數(shù)據(jù)存儲在關系數(shù)據(jù)庫里，hive支持的關系數(shù)據(jù)庫有derby、mysql。元數(shù)據(jù)對于hive十分重要，因此hive支持把metastore服務獨立出來，安裝到遠程的服務器集群里，從而解耦hive服務和metastore服務，保證hive運行的健壯性，這個方面的知識，我會在后面的metastore小節(jié)里做詳細的講解。

　　Thrift服務：thrift是facebook開發(fā)的一個軟件框架，它用來進行可擴展且跨語言的服務的開發(fā)，hive集成了該服務，能讓不同的編程語言調(diào)用hive的接口。

　　客戶端組件：

　　CLI：command line interface，命令行接口。

　　Thrift客戶端：上面的架構圖里沒有寫上Thrift客戶端，但是hive架構的許多客戶端接口是建立在thrift客戶端之上，包括JDBC和ODBC接口。

　　WEBGUI：hive客戶端提供了一種通過網(wǎng)頁的方式訪問hive所提供的服務。這個接口對應hive的hwi組件（hive web interface），使用前要啟動hwi服務。

　　下面我著重講講metastore組件,具體如下：

　　Hive的metastore組件是hive元數(shù)據(jù)集中存放地。Metastore組件包括兩個部分：metastore服務和后臺數(shù)據(jù)的存儲。后臺數(shù)據(jù)存儲的介質(zhì)就是關系數(shù)據(jù)庫，例如hive默認的嵌入式磁盤數(shù)據(jù)庫derby，還有mysql數(shù)據(jù)庫。Metastore服務是建立在后臺數(shù)據(jù)存儲介質(zhì)之上，并且可以和hive服務進行交互的服務組件，默認情況下，metastore服務和hive服務是安裝在一起的，運行在同一個進程當中。我也可以把metastore服務從hive服務里剝離出來，metastore獨立安裝在一個集群里，hive遠程調(diào)用metastore服務，這樣我們可以把元數(shù)據(jù)這一層放到防火墻之后，客戶端訪問hive服務，就可以連接到元數(shù)據(jù)這一層，從而提供了更好的管理性和安全保障。使用遠程的metastore服務，可以讓metastore服務和hive服務運行在不同的進程里，這樣也保證了hive的穩(wěn)定性，提升了hive服務的效率。

　　Hive的執(zhí)行流程如下圖所示：

圖描述的很清晰了，我這里就不在累述了。

下面我給大家展示一個簡單的例子，看看hive是怎么操作的。

首先我們創(chuàng)建一個普通的文本文件，里面只有一行數(shù)據(jù)，該行也只存儲一個字符串，命令如下：

echo ‘sharpxiajun' > /home/hadoop/test.txt

然后我們建一張hive的表：

hive –e “create table test (value string);

接下來加載數(shù)據(jù)：

Load data local inpath ‘home/hadoop/test.txt' overwrite into table test

最后我們查詢下表：

hive –e ‘select * from test';

　　大家看到了吧，hive十分簡單,很好入門，操作和sql很像，下面我就要深入分析下hive與關系數(shù)據(jù)庫的區(qū)別，這部分可能有些人看的不是很明白，但是很有必要提前提出，以后我的文章里將進一步講述hive，那時不太明白的童鞋在看看這部分，很多問題就會清晰很多，具體如下：

1.關系數(shù)據(jù)庫里，表的加載模式是在數(shù)據(jù)加載時候強制確定的（表的加載模式是指數(shù)據(jù)庫存儲數(shù)據(jù)的文件格式），如果加載數(shù)據(jù)時候發(fā)現(xiàn)加載的數(shù)據(jù)不符合模式，關系數(shù)據(jù)庫則會拒絕加載數(shù)據(jù)，這個就叫“寫時模式”，寫時模式會在數(shù)據(jù)加載時候?qū)?shù)據(jù)模式進行檢查校驗的操作。Hive在加載數(shù)據(jù)時候和關系數(shù)據(jù)庫不同，hive在加載數(shù)據(jù)時候不會對數(shù)據(jù)進行檢查，也不會更改被加載的數(shù)據(jù)文件，而檢查數(shù)據(jù)格式的操作是在查詢操作時候執(zhí)行，這種模式叫“讀時模式”。在實際應用中，寫時模式在加載數(shù)據(jù)時候會對列進行索引，對數(shù)據(jù)進行壓縮，因此加載數(shù)據(jù)的速度很慢，但是當數(shù)據(jù)加載好了，我們?nèi)ゲ樵償?shù)據(jù)的時候，速度很快。但是當我們的數(shù)據(jù)是非結(jié)構化，存儲模式也是未知時候，關系數(shù)據(jù)操作這種場景就麻煩多了，這時候hive就會發(fā)揮它的優(yōu)勢。

2.關系數(shù)據(jù)庫一個重要的特點是可以對某一行或某些行的數(shù)據(jù)進行更新、刪除操作，hive不支持對某個具體行的操作，hive對數(shù)據(jù)的操作只支持覆蓋原數(shù)據(jù)和追加數(shù)據(jù)。Hive也不支持事務和索引。更新、事務和索引都是關系數(shù)據(jù)庫的特征，這些hive都不支持，也不打算支持，原因是hive的設計是海量數(shù)據(jù)進行處理，全數(shù)據(jù)的掃描時常態(tài)，針對某些具體數(shù)據(jù)進行操作的效率是很差的，對于更新操作，hive是通過查詢將原表的數(shù)據(jù)進行轉(zhuǎn)化最后存儲在新表里，這和傳統(tǒng)數(shù)據(jù)庫的更新操作有很大不同。

3.Hive也可以在hadoop做實時查詢上做一份自己的貢獻，那就是和hbase集成，hbase可以進行快速查詢，但是hbase不支持類SQL的語句，那么此時hive可以給hbase提供sql語法解析的外殼，可以用類sql語句操作hbase數(shù)據(jù)庫

您可能感興趣的文章:

Mysql 5.7.19 winx64 ZIP Archive 安裝及使用過程問題小結(jié)
php使用ZipArchive函數(shù)實現(xiàn)文件的壓縮與解壓縮
nodejs下打包模塊archiver詳解
php使用ZipArchive提示Fatal error: Class ZipArchive not found in的解決方法
php的ZipArchive類用法實例
ORACLE DATAGUARD中手工處理日志v$archive_GAP的方法
php ZipArchive壓縮函數(shù)詳解實例

標簽：景德鎮(zhèn) 江蘇瀘州威海柳州荊門那曲淮安

巨人網(wǎng)絡通訊聲明：本文標題《hive函數(shù)簡介》，本文關鍵詞 hive,函數(shù),簡介,hive,函數(shù),；如發(fā)現(xiàn)本文內(nèi)容存在版權問題，煩請?zhí)峁┫嚓P信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡，涉及言論、版權與本站無關。