濮阳杆衣贸易有限公司

主頁 > 知識(shí)庫 > Go語言中的UTF-8實(shí)現(xiàn)

Go語言中的UTF-8實(shí)現(xiàn)

熱門標(biāo)簽:外呼系統(tǒng)顯本地手機(jī)號 壽光微信地圖標(biāo)注 百度地圖標(biāo)注后傳給手機(jī) 阿克蘇地圖標(biāo)注 評價(jià)高的400電話辦理 外呼系統(tǒng)用什么卡 excel地圖標(biāo)注分布數(shù)據(jù) 涿州代理外呼系統(tǒng) 電話機(jī)器人軟件免費(fèi)

計(jì)算機(jī)剛誕生的時(shí)候,計(jì)算機(jī)內(nèi)的字符可以全部由 ASCII 來表示,ASCII 字符的長度是 7 位,可以表示 128 個(gè)字符,對于美國等國家來說是夠了,但是對于世界上的其他國家,特別是東亞國家,文字不是由字母組成,漢字就有幾萬個(gè),ASCII 碼根本不夠用。

字符本質(zhì)就是對應(yīng)計(jì)算機(jī)中的一個(gè)數(shù)值,既然不夠用,那么解決方法就是把這個(gè)范圍擴(kuò)大,Unicode 的出現(xiàn)就解決了這個(gè)問題,它包括了世界上所有的字符,每一個(gè)字符都對應(yīng)一個(gè)數(shù)值,這個(gè)數(shù)值被稱之為 Unicode 碼點(diǎn)。

但是 Unicode 也不是沒有缺點(diǎn),因?yàn)楸硎镜姆秶?,所以每一個(gè) Unicode 都需要 4 個(gè)字節(jié)來表示,但是對于原本的 ASCII 編碼,本來只需要一個(gè)字節(jié),現(xiàn)在也需要 4個(gè)字節(jié),這樣會(huì)浪費(fèi)很多存儲(chǔ)。

UTF-8 的出現(xiàn)解決了這個(gè)問題,它解決問題的思路是讓每個(gè)字符選擇自己的大小,需要多少字節(jié)就用多少。對于占不同字節(jié)的字符,有不同的表示格式:

  • 1 字節(jié):0xxxxxxx
  • 2 字節(jié):110xxxxx 10xxxxxx
  • 3 字節(jié):1110xxxx 10xxxxxx 10xxxxxx
  • 4 字節(jié):11110xxx 10 xxxxxx 10xxxxxx 10xxxxxx

通過識(shí)別每個(gè)字符串的頭部來判斷占幾個(gè)字節(jié)。

每個(gè) Unicode 字符都對應(yīng)一個(gè)碼點(diǎn),在字符串中,可以對碼點(diǎn)進(jìn)行轉(zhuǎn)義,使用 \uhhhh 表示 16 位碼點(diǎn),使用 \Uhhhhhhhh 來表示 32 位碼點(diǎn),每一個(gè) h 都代表一個(gè)十六進(jìn)制的數(shù)字。

這里有一點(diǎn)比較特殊,對于碼點(diǎn)值小于 256 的文字符號可以使用單個(gè)十六進(jìn)制的數(shù)字來表示,比如 'A' 可以使用 '\x41' 來表示,對于大于 256 的碼點(diǎn),就必須使用 \u 或者 \U 來轉(zhuǎn)義。

Go 語言對于 UTF-8 的支持很好,這里有一點(diǎn)很有意思,Go 語言的兩位作者 Ken Thompson 和 Rob Pike 同時(shí)也是 UTF-8 的發(fā)明者,Go 語言對 UTF-8 的支持贏在起跑線。

Go 語言總是使用 UTF-8 來處理源文件,同時(shí)也是優(yōu)先使用 UTF-8 來處理字符串。所以上面說到的那些 Unicode 字符的轉(zhuǎn)義被 Go 直接處理,比如下面三個(gè)字符串在 Go 語言中是等價(jià)的:

"世界"
"\u4e16\u754c"
"\U00004e16\U0000u754c"

Go 字符串使用只讀的 []byte 來存儲(chǔ),所以字符串值是不變的,這樣做更安全,效率也很高:

s := "left root"
t := s
s += ", right root"

fmt.Println(s) // left root, right root
fmt.Println(t) // left root

在上面的例子中, s 的值出現(xiàn)了變化,但是 t 的值還是舊的字符串。由于是 [] byte 是 slice 類型,所以字符串的截取操作效率很高,但是在字符串截取的過程中,就會(huì)出現(xiàn)一些坑。
Go 中的字符串底層使用了只讀的 []byte 來存儲(chǔ),所以**本質(zhì)上 Go 語言中的字符串是使用字節(jié)來表示,而不是字符表示,**理解這一點(diǎn)很重要。

str := "hello world"
fmt.Println(str[:2]) // he

str = "你好,世界"
fmt.Println(str[:2]) // ��,這個(gè)符號用來表示 UTF-8 里面的未知字符,碼點(diǎn)是

非 ASCII 碼的字符一般占用的字節(jié)會(huì)超過一個(gè),如果直接截取,就會(huì)導(dǎo)致截取不到正確的位置,從而亂碼。在上面的例子中,一個(gè)中文字符占 3 個(gè)字節(jié),只有嚴(yán)格按照字節(jié)數(shù)來截取才能獲取到顯示正常的字符:

str = "你好,世界"
fmt.Println(str[:3]) // 你

那么在這個(gè)時(shí)候,如果要按照字符截取,就需要把字符串轉(zhuǎn)成 []rune,每個(gè) rune 都代表一個(gè) UTF-8 中的碼點(diǎn),對 []rune 按照字符截取就不會(huì)出現(xiàn)亂碼:

str = "你好,世界"
runeStr := []rune(str)
fmt.Println(string(runeStr[:1])) // 你

把字符串轉(zhuǎn)成 []rune,就是把字符串轉(zhuǎn)成 UTF-8 碼點(diǎn),而不是 []byte,rune 其實(shí)就是 int32 類型。

Go 語言中有一個(gè)專門 unicode/utf8 包來處理 utf8 字符。由于每個(gè)字符占據(jù)的字節(jié)可能不一樣,所以字符數(shù)和字節(jié)數(shù)大小是兩回事:

s := "Hello, 世界" // 逗號是半角符號
fmt.Println(len(s))                    // 13
fmt.Println(utf8.RuneCountInString(s)) // 9

如果要獲取字符占據(jù)的總字節(jié)數(shù),就使用 len 方法,如果需要計(jì)算字符的個(gè)數(shù),那就需要使用 utf8.RuneCountInString 方法。
這個(gè)包里面還提供了其他常用函數(shù):

// 判斷是否符合 utf8 編碼:
func Valid(p []byte) bool
func ValidRune(r rune) bool
func ValidString(s string) bool
// 判斷 rune 所占的字節(jié)數(shù)
func RuneLen(r rune) int
// 判斷字節(jié)串或者字符串中的 rune 字符數(shù)
func RuneCount(p []byte) int
func RuneCountInString(s string) int
// 對 rune 的編碼和解碼
func EncodeRune(p []byte, r rune) int
func DecodeRune(p []byte) (r rune, size int)
func DecodeRuneInString(s string) (r rune, size int)
func DecodeLastRune(p []byte) (r rune, size int)
func DecodeLastRuneInString(s string) (r rune, size int)

除了 utf8 包之外, unicode 包對提供了一系列 IsXX 函數(shù)來 rune 的檢查:

func Is(rangeTab *RangeTable, r rune) bool // 是否是 RangeTable 類型的
func In(r rune, ranges ...*RangeTable) bool  // 是否是 ranges 中任意一個(gè)類型的字符
func IsControl(r rune) bool  // 是否是控制字符
func IsDigit(r rune) bool  // 是否是阿拉伯?dāng)?shù)字字符,即 0-9
func IsGraphic(r rune) bool // 是否是圖形字符
func IsLetter(r rune) bool // 是否是字母
func IsLower(r rune) bool // 是否是小寫字符
func IsMark(r rune) bool // 是否是符號字符
func IsNumber(r rune) bool // 是否是數(shù)字字符,包含羅馬數(shù)字
func IsOneOf(ranges []*RangeTable, r rune) bool // 是否是 RangeTable 中的一個(gè)
func IsPrint(r rune) bool // 是否是可打印字符
func IsPunct(r rune) bool // 是否是標(biāo)點(diǎn)符號
func IsSpace(r rune) bool // 是否是空格
func IsSymbol(r rune) bool // 是否符號字符
func IsTitle(r rune) bool // 字符串中的每個(gè)單詞的第一個(gè)字符是否是大寫
func IsUpper(r rune) bool // 是否是大寫字符

RangeTable 是對所有 Unicode 字符的分類,比如驗(yàn)證一個(gè)字符是否是漢字:

r := '中'
result := unicode.Is(unicode.Han, r)
fmt.Println(result) // true

其中 unicode.Han 就是 RangeTable 類型,表示漢字。

到此這篇關(guān)于Go語言中的UTF-8實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Go語言UTF-8內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • 利用go-kit組件進(jìn)行服務(wù)注冊與發(fā)現(xiàn)和健康檢查的操作
  • Goland 斷點(diǎn)調(diào)試Debug的操作
  • golang中的空slice案例
  • Go語言切片前或中間插入項(xiàng)與內(nèi)置copy()函數(shù)詳解
  • golang中切片copy復(fù)制和等號復(fù)制的區(qū)別介紹
  • go語言中切片與內(nèi)存復(fù)制 memcpy 的實(shí)現(xiàn)操作
  • go-kit組件使用hystrix中間件的操作

標(biāo)簽:重慶 吐魯番 蘭州 梅河口 欽州 汕頭 雞西 銅川

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Go語言中的UTF-8實(shí)現(xiàn)》,本文關(guān)鍵詞  語言,中的,UTF-8,實(shí)現(xiàn),語言,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Go語言中的UTF-8實(shí)現(xiàn)》相關(guān)的同類信息!
  • 本頁收集關(guān)于Go語言中的UTF-8實(shí)現(xiàn)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    铁岭县| 龙门县| 武胜县| 本溪| 焦作市| 台安县| 滦平县| 尤溪县| 甘孜县| 封开县| 南昌县| 东乌珠穆沁旗| 双流县| 阿坝县| 鹤岗市| 富平县| 包头市| 南雄市| 陵水| 上蔡县| 陵川县| 沁阳市| 建水县| 呼和浩特市| 嘉黎县| 宜兰县| 靖西县| 龙州县| 鲁甸县| 札达县| 韶关市| 河西区| 思茅市| 安岳县| 富阳市| 东丰县| 年辖:市辖区| 柯坪县| 新巴尔虎右旗| 崇阳县| 凤山县|