mysql寫入特殊中文字元亂碼?

時間 2021-06-28 02:37:20

1樓:愛可生雲資料庫

一、轉碼失敗

在資料寫入到表的過程中轉碼失敗,資料庫端也沒有進行恰當的處理,導致存放在表裡的資料亂碼。

針對這種情況,前幾篇文章介紹過客戶端傳送請求到服務端。

其中任意乙個編碼不一致,都會導致表裡的資料存入不正確的編碼而產生亂碼。

比如下面簡單一條語句:

set @a = "文字字串";

insert into t1 values(@a);

1. 變數 @a 的字元編碼是由引數 CHARACTER_SET_CLIENT 決定的,假設此時編碼為 A,也就是變數 @a 的編碼。

2. 寫入語句在傳送到 MySQL 服務端之前的編碼由 CHARACTER_SET_CONNECTION 決定,假設此時編碼為 B。

3. 經過 MySQL 一系列詞法,語法解析等處理後,寫入到表 t1,表 t1 的編碼為 C。

那這裡編碼 A、編碼 B、編碼 C 如果不相容,寫入的資料就直接亂碼。

二、客戶端亂碼

表資料正常,但是客戶端展示後出現亂碼。

這一類場景,指的是從 MySQL 表裡拿資料出來返回到客戶端,MySQL 裡的資料本身沒有問題。客戶端傳送請求到 MySQL,表的編碼為 D,從 MySQL 拿到記錄結果傳輸到客戶端,此時記錄編碼為 E(CHARACTER_SET_RESULTS)。

那以上編碼 E 和 D 如果不相容,檢索出來的資料就看起來亂碼了。但是由於資料本身沒有被破壞,所以換個相容的編碼就可以獲取正確的結果。

這一類又分為以下三個不同的小類:

1)字段編碼和表一致,客戶端是不同的編碼

比如下面例子, 表資料的編碼是 utf8mb4,而 SESSION 1 發起的連線編碼為 gbk。那由於編碼不相容,檢索出來的資料肯定為亂碼。

2)表編碼和客戶端的編碼一致,但是記錄之間編碼存在不一致的情形

比如表編碼是 utf8mb4,應用端編碼也是 utf8mb4,但是表裡的資料可能一半編碼是 utf8mb4,另外一半是 gbk。那麼此時表的資料也是正常的,不過此時採用哪種編碼都讀不到所有完整的資料。這樣資料產生的原因很多,比如其中一種可能性就是表編碼多次變更而且每次變更不徹底導致(變更不徹底,我之前的篇章裡有介紹)。

舉個例子,表 t3 的編碼之前是 utf8mb4,現在是 gbk,而且兩次編碼期間都被寫入了正常的資料。

3)每個欄位的編碼不一致,導致亂碼

和第二點一樣的場景。不同的是:非記錄間的編碼不統一,而是每個字段編碼不統一。

舉個例子,表 c1 字段 a1,a2。a1 編碼 gbk,a2 編碼是 utf8mb4。那每個字段單獨讀出來資料是完整的,但是所有字段一起讀出來,資料總會有一部分亂碼。

三、LATIN1

還有一種情形就是以 LATIN1 的編碼儲存資料

估計大家都知道字符集 LATIN1,LATIN1 對所有字元都是單位元組流處理,遇到不能處理的位元組流,保持原樣,那麼在以上兩種存入和檢索的過程中都能保證資料一致,所以 MySQL 長期以來預設的編碼都是 LATIN1。這種情形,看起來也沒啥不對的點,資料也沒亂碼,那為什麼還有選用其他的編碼呢?原因就是對字元儲存的位元組數不一樣,比如 emoji 字元 "",如果用 utf8mb4 儲存,占用 3 個位元組,那 varchar(12) 就能存放 12 個字元,但是換成 LATIN1,只能存 4 個字元。

2樓:

@温國兵 你好,我也遇到存入GBK特殊字元到mysql,查詢出來也是一堆亂碼?今天看到你的回答,按照你的方法去執行了一遍,發現還是亂碼哦

懷疑是不是安裝MySQL是沒有加入GBK編碼,然後自己又重新安裝MySQL 5.5.58版本,編譯引數如下:

```shell

cmake . \

-DCMAKE_INSTALL_PREFIX=/usr/local/mysql \

-DMYSQL_DATADIR=/sites/3306/data \

-DMYSQL_UNIX_ADDR=/tmp/mysql.sock \

-DMYSQL_TCP_PORT=3306 \

-DDEFAULT_CHARSET=utf8 \

-DDEFAULT_COLLATION=utf8_general_ci \

-DEXTRA_CHARSETS=all \

安裝好後特意看了下字符集所在的目錄,發現沒有gbk的檔案,下圖

作業系統的編碼:

感覺好沒頭緒啊!能幫我分析下嗎?

3樓:TommyChiu

同意樓上的,如果對於字符集的處理流程沒有很清楚的乙個概念,簡單點得方法就是將variables中得所有字符集設定成一樣的

4樓:Robin

首先讚下題主的提問方式,這才叫做提問啊!

遇到這種字元亂碼問題,要麼忍痛割愛,換成UTF-8,要麼換下MySQL版本試試,要麼在插入資料之前執行SET NAMES GBK;

令:我的5.1沒問題,以下是操作日誌:

1.首先確認MySQL版本,我的是5.1.43:

2.接著檢視當前資料庫伺服器的字符集設定,可以看到是utf8;

3.建立表,指定字符集是GBK,並且插入資料,可以看到有乙個警告(Incorrect string value: '\xFEf' for column 'name' at row 1),檢視資料出現問號;

4.接著執行SET NAMES GBK,再次插入資料,檢視成功(最後一條資料,我在執行SET NAMES GBK之前插入了兩次);

綜上,MySQL字符集包括伺服器(server),資料庫(database),資料表(table)和連線(connection)。

SET NAMES 『x『語句是用來設定客戶端的字符集的,與伺服器端的字符集無關,與這三個語句等價:

mysql> SET character_set_client = x;

mysql> SET character_set_results = x;

mysql> SET character_set_connection = x;

我們在執行插入時,需要使用到character_set_client和character_set_connection兩個配置引數,因預設的字符集與表的字符集不一致,故會出現亂碼問題。最好的是SHOW VARIABLES LIKE 'character_set_%';出現的結果完全一致。

個人拙見,僅供參考。

如何為中文文字做中文標籤推薦?

陳義 首先,如果有比文字更可靠的資料來源,一定要把它們充分利用起來。這是廢話。其次,如果能把這個問題轉化成有監督的問題,要盡可能地把它轉化成有監督的問題。無監督的問題終歸更難處理點,除非你天才地發現了一些簡單易操作的先驗規律,否則無監督方法就是拼時間的體力活。第三,大眾讀物大體可以分為兩類,實體密集...

中文有沒有類似 Lorem ipsum 的文字?

可以用盡26個字母的一句英語是什麼?The quick brown fox jumps over the lazy dog.那只敏捷的棕毛狐狸躍過那只懶狗。在以前的打字機時代,打字機維修工們每當擦拭和除錯好機器後,都要檢查打字機的印模印出的字母是否清晰 知道打字機結構的朋友們都應該知道是怎麼一回事 ...

Python 如何列印出中文字元?

用於 Python 2 coding utf 8 import sys reload sys sys.setdefaultencoding utf8 開頭加上這些就好了。 胡說 哈哈,剛好遇到了這個問題,python2.7.14.notepad 編碼設定成了 以UTF 8無BOM格式編碼 微軟win...