記事本編寫的HTML亂碼，如何解決？

天第一次看HTML5的書籍，嘗試使用記事本編寫第一個(gè)網(wǎng)頁，不料，打開網(wǎng)頁后，竟然是亂碼狀態(tài)，愁煞吾也，這個(gè)問題怎么破呢？經(jīng)查相關(guān)資料，是因?yàn)橛浭卤灸J(rèn)存儲(chǔ)的編碼格式與html中的編碼格式不一致導(dǎo)致的.....

情況具體是這樣的：

第一步是將寫好的內(nèi)容的記事本的后綴“TXT”改成了HTML

打開網(wǎng)頁之后是這樣的：亂碼

查閱資料后，解決方法是這樣的：

在網(wǎng)頁空白處點(diǎn)擊右鍵，找到編碼點(diǎn)擊，選擇UTF-8，問題就解決了。

還有一種方法就是，使用記事本另存為修改后綴名為HTML，編碼處選擇UTF-8，就不會(huì)出現(xiàn)亂碼現(xiàn)象了。

幾天有OMI的用戶反映，安裝OMI時(shí)有中文亂碼現(xiàn)象，我還說不可能。我們的程序在windows，linux都部署過無數(shù)次了，開發(fā)時(shí)都是UTF8編碼的，咋還會(huì)亂碼呢。結(jié)果看了半天也沒看出個(gè)啥，還是沒解決。

最近新安裝程序時(shí)，新下載了一個(gè)tomcat8.5的版本，一跑程序還真是html頁亂碼了，但JSP頁沒事。因?yàn)橹拔覀兊某绦蚨际桥茉趖omcat7，最高是tomcat8.0，沒試過更高的，高版本確實(shí)有問題，且控制臺(tái)中文也是亂碼。

一、嘗試了一些網(wǎng)友給的辦法，下面說一下解決方案：

1、tomcat\bin\catalina.bat 中添加，

set JAVA_OPTS=-Xms512m -Xms1024m -XX:MaxPermSize=1024m -Dfile.encoding=UTF-8

我的添加位置如圖

?前面是正好順便設(shè)置了JVM的內(nèi)存，解決問題的主要后面的部分。

2、修改tomcat\conf\server.xml，加入 URIEncoding="UTF-8"

加入如圖位置

?好象是第一步就可以了，保險(xiǎn)起見第二步也加上吧。

二、關(guān)于控制臺(tái)亂碼解決辦法：

修改tomcat\conf\logging.properties

#java.util.logging.ConsoleHandler.encoding = UTF-8（GBK）

將UTF-8改為GBK，或者把整行注掉

我是把相關(guān)編碼全注了

以上，如未解決問題可以加QQ群交流，群名：Kettle實(shí)戰(zhàn)。

者 | 丁彥軍
責(zé)編 | 仲培藝

近日，有位粉絲向我請(qǐng)教，在爬取某網(wǎng)站時(shí)，網(wǎng)頁的源代碼出現(xiàn)了中文亂碼問題，本文就將與大家一起總結(jié)下關(guān)于網(wǎng)絡(luò)爬蟲的亂碼處理。注意，這里不僅是中文亂碼，還包括一些如日文、韓文、俄文、藏文之類的亂碼處理，因?yàn)樗麄兊慕鉀Q方式是一致的，故在此統(tǒng)一說明。

亂碼問題的出現(xiàn)

就以爬取 51job 網(wǎng)站舉例，講講為何會(huì)出現(xiàn)“亂碼”問題，如何解決它以及其背后的機(jī)制。

代碼示例：

import requests
url = "http://search.51job.com"
res = requests.get(url)
print(res.text)

顯示結(jié)果：

打印 res.text 時(shí)，發(fā)現(xiàn)了什么？中文亂碼！！！不過發(fā)現(xiàn)，網(wǎng)頁的字符集類型采用的是 GBK 編碼格式。

我們知道 Requests 會(huì)基于 HTTP 頭部對(duì)響應(yīng)的編碼作出有根據(jù)的推測(cè)。當(dāng)你訪問 r.text 之時(shí)，Requests 會(huì)使用其推測(cè)的文本編碼。你可以找出 Requests 使用了什么編碼，并且能夠使用 r.encoding 屬性來改變它。

接下來，我們一起通過 Resquests 的一些用法，來看看 Requests 會(huì)基于 HTTP 頭部對(duì)響應(yīng)的編碼方式。

print(res.encoding) #查看網(wǎng)頁返回的字符集類型
print(res.apparent_encoding) #自動(dòng)判斷字符集類型

輸出結(jié)果為：

可以發(fā)現(xiàn) Requests 推測(cè)的文本編碼（也就是網(wǎng)頁返回即爬取下來后的編碼轉(zhuǎn)換）與源網(wǎng)頁編碼不一致，由此可知其正是導(dǎo)致亂碼原因。

亂碼背后的奧秘

當(dāng)源網(wǎng)頁編碼和爬取下來后的編碼轉(zhuǎn)換不一致時(shí)，如源網(wǎng)頁為 GBK 編碼的字節(jié)流，而我們抓取下后程序直接使用 UTF-8 進(jìn)行編碼并輸出到存儲(chǔ)文件中，這必然會(huì)引起亂碼，即當(dāng)源網(wǎng)頁編碼和抓取下來后程序直接使用處理編碼一致時(shí)，則不會(huì)出現(xiàn)亂碼，此時(shí)再進(jìn)行統(tǒng)一的字符編碼也就不會(huì)出現(xiàn)亂碼了。最終爬取的所有網(wǎng)頁無論何種編碼格式，都轉(zhuǎn)化為 UTF-8 格式進(jìn)行存儲(chǔ)。

注意：區(qū)分源網(wǎng)編碼 A-GBK、程序直接使用的編碼 B-ISO-8859-1、統(tǒng)一轉(zhuǎn)換字符的編碼 C-UTF-8。

在此，我們拓展講講 Unicode、ISO-8859-1、GBK2312、GBK、UTF-8 等之間的區(qū)別聯(lián)系，大概如下：

最早的編碼是 ISO8859-1，和 ASCII 編碼相似。但為了方便表示各種各樣的語言，逐漸出現(xiàn)了很多標(biāo)準(zhǔn)編碼。ISO8859-1 屬于單字節(jié)編碼，最多能表示的字符范圍是 0-255，應(yīng)用于英文系列。很明顯，ISO8859-1 編碼表示的字符范圍很窄，無法表示中文字符。

1981 年中國人民通過對(duì) ASCII 編碼的中文擴(kuò)充改造，產(chǎn)生了 GB2312 編碼，可以表示 6000 多個(gè)常用漢字。但漢字實(shí)在是太多了，包括繁體和各種字符，于是產(chǎn)生了 GBK 編碼，它包括了 GB2312 中的編碼，同時(shí)擴(kuò)充了很多。中國又是個(gè)多民族國家，各個(gè)民族幾乎都有自己獨(dú)立的語言系統(tǒng)，為了表示那些字符，繼續(xù)把 GBK 編碼擴(kuò)充為 GB18030 編碼。每個(gè)國家都像中國一樣，把自己的語言編碼，于是出現(xiàn)了各種各樣的編碼，如果你不安裝相應(yīng)的編碼，就無法解釋相應(yīng)編碼想表達(dá)的內(nèi)容。終于，有個(gè)叫 ISO 的組織看不下去了。他們一起創(chuàng)造了一種編碼 Unicode，這種編碼非常大，大到可以容納世界上任何一個(gè)文字和標(biāo)志。所以只要電腦上有 Unicode 這種編碼系統(tǒng)，無論是全球哪種文字，只需要保存文件的時(shí)候，保存成 Unicode 編碼就可以被其他電腦正常解釋。Unicode 在網(wǎng)絡(luò)傳輸中，出現(xiàn)了兩個(gè)標(biāo)準(zhǔn) UTF-8 和 UTF-16，分別每次傳輸 8 個(gè)位和 16 個(gè)位。于是就會(huì)有人產(chǎn)生疑問，UTF-8 既然能保存那么多文字、符號(hào)，為什么國內(nèi)還有這么多使用 GBK 等編碼的人？因?yàn)?UTF-8 等編碼體積比較大，占電腦空間比較多，如果面向的使用人群絕大部分都是中國人，用 GBK 等編碼也可以。

也可以這樣來理解：字符串是由字符構(gòu)成，字符在計(jì)算機(jī)硬件中通過二進(jìn)制形式存儲(chǔ)，這種二進(jìn)制形式就是編碼。如果直接使用 “字符串??字符??二進(jìn)制表示（編碼）” ，會(huì)增加不同類型編碼之間轉(zhuǎn)換的復(fù)雜性。所以引入了一個(gè)抽象層，“字符串??字符??與存儲(chǔ)無關(guān)的表示??二進(jìn)制表示（編碼）” ，這樣，可以用一種與存儲(chǔ)無關(guān)的形式表示字符，不同的編碼之間轉(zhuǎn)換時(shí)可以先轉(zhuǎn)換到這個(gè)抽象層，然后再轉(zhuǎn)換為其他編碼形式。在這里，Unicode 就是 “與存儲(chǔ)無關(guān)的表示”，UTF-8 就是 “二進(jìn)制表示”。

亂碼的解決方法

根據(jù)原因來找解決方法，就非常簡單了。

方法一：直接指定 res.encoding

import requests
url = "http://search.51job.com"
res = requests.get(url)
res.encoding = "gbk"
html = res.text
print(html)

方法二：通過 res.apparent_encoding 屬性指定

import requests
url = "http://search.51job.com"
res = requests.get(url)
res.encoding = res.apparent_encoding
html = res.text
print(html)

方法三：通過編碼、解碼的方式

import requests
url = "http://search.51job.com"
res = requests.get(url)
html = res.text.encode('iso-8859-1').decode('gbk')
print(html)

輸出結(jié)果：

基本思路三步走：確定源網(wǎng)頁的編碼 A---GBK、程序通過編碼 B---ISO-8859-1 對(duì)源網(wǎng)頁數(shù)據(jù)還原、統(tǒng)一轉(zhuǎn)換字符的編碼 C-UTF-8。至于為啥出現(xiàn)統(tǒng)一轉(zhuǎn)碼這一步呢？網(wǎng)絡(luò)爬蟲系統(tǒng)數(shù)據(jù)來源很多，不可能使用數(shù)據(jù)時(shí)，再轉(zhuǎn)化為其原始的數(shù)據(jù)，這樣做是很廢事的。所以一般的爬蟲系統(tǒng)都要對(duì)抓取下來的結(jié)果進(jìn)行統(tǒng)一編碼，從而在使用時(shí)做到一致對(duì)外，方便使用。

比如如果我們想講網(wǎng)頁數(shù)據(jù)保存下來，則會(huì)將起轉(zhuǎn)為 UTF-8，代碼如下：

with open("a.txt",'w',encoding='utf-8') as f:
 f.write(html)

總結(jié)

關(guān)于網(wǎng)絡(luò)爬蟲亂碼問題，這里不僅給出了一個(gè)解決方案，還深入到其中的原理，由此問題引申出很多有意思的問題，如 UTF-8、GBK、GB2312 的編碼方式怎樣的？為什么這樣轉(zhuǎn)化就可以解決問題？

最后，多動(dòng)腦，多思考，多總結(jié)，致每一位碼農(nóng)！

本文為作者投稿，版權(quán)歸其所有。

在線咨詢

上一篇：IBM Business Automation Workflow使用體驗(yàn)
下一篇：Typora輸入代碼塊、數(shù)學(xué)公式、繪制流程圖并導(dǎo)出為html

您的項(xiàng)目需求

*請(qǐng)認(rèn)真填寫需求信息，我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。

整合營銷服務(wù)商

記事本編寫的HTML亂碼，如何解決？

您的項(xiàng)目需求