Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 色狠狠成人综合色,九九热精品视频在线观看,欧美成人在线免费视频

          整合營銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          html亂碼-解決gb2312編碼導(dǎo)致亂碼問題

          幾天保存了網(wǎng)絡(luò)上的一個(gè)頁面,瀏覽器打開后,發(fā)現(xiàn)是亂碼。如下圖:

          亂碼網(wǎng)頁

          出現(xiàn)這個(gè)問題怎么處理呢?下面幫你解決

          頁面html源碼

          查看html,看到這里用了國標(biāo)標(biāo)準(zhǔn),看源碼截圖

          <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

          解決方法:

          把gb2312改成utf-8即可

          修改為utf-8

          修改后的結(jié)果,如圖:

          修改后的展示

          知識分享:

          utf-8 和gb3212 的區(qū)別

          utf-8 這個(gè)是國際通用字庫,支持各種不同的語言

          gb3212這個(gè)是中國的字庫,支持簡體中文和少數(shù)外語+一些符號,文件資源少一點(diǎn)

          區(qū)別:utf-8跨平臺兼容性更好,由于它字庫更全所以加載會慢好多

          html的charset屬性

          charset屬性是定義HTML文檔的字符編碼格式。

          常見的字符編碼有:Unicode、utf-8、gbk、gb2312

          其中:

          gbk是國家標(biāo)準(zhǔn)的擴(kuò)展版(增加了繁體并包含所有亞洲字符集)

          Unicode是國際組織制定的旨在容納全球所有字符的編碼方案,包括字符集、編碼方案等。又稱為萬國碼、統(tǒng)一碼、單一碼

          天第一次看HTML5的書籍,嘗試使用記事本編寫第一個(gè)網(wǎng)頁,不料,打開網(wǎng)頁后,竟然是亂碼狀態(tài),愁煞吾也,這個(gè)問題怎么破呢?經(jīng)查相關(guān)資料,是因?yàn)橛浭卤灸J(rèn)存儲的編碼格式與html中的編碼格式不一致導(dǎo)致的.....

          情況具體是這樣的:

          第一步是將寫好的內(nèi)容的記事本的后綴“TXT”改成了HTML

          打開網(wǎng)頁之后是這樣的:亂碼


          查閱資料后,解決方法是這樣的:

          在網(wǎng)頁空白處點(diǎn)擊右鍵,找到編碼點(diǎn)擊,選擇UTF-8,問題就解決了。



          還有一種方法就是,使用記事本另存為修改后綴名為HTML,編碼處選擇UTF-8,就不會出現(xiàn)亂碼現(xiàn)象了。

          者 | 丁彥軍

          責(zé)編 | 仲培藝

          近日,有位粉絲向我請教,在爬取某網(wǎng)站時(shí),網(wǎng)頁的源代碼出現(xiàn)了中文亂碼問題,本文就將與大家一起總結(jié)下關(guān)于網(wǎng)絡(luò)爬蟲的亂碼處理。注意,這里不僅是中文亂碼,還包括一些如日文、韓文 、俄文、藏文之類的亂碼處理,因?yàn)樗麄兊慕鉀Q方式是一致的,故在此統(tǒng)一說明。

          亂碼問題的出現(xiàn)

          就以爬取 51job 網(wǎng)站舉例,講講為何會出現(xiàn)“亂碼”問題,如何解決它以及其背后的機(jī)制。

          代碼示例:

          import requests
          url = "http://search.51job.com"
          res = requests.get(url)
          print(res.text)
          

          顯示結(jié)果:

          打印 res.text 時(shí),發(fā)現(xiàn)了什么?中文亂碼!!!不過發(fā)現(xiàn),網(wǎng)頁的字符集類型采用的是 GBK 編碼格式。

          我們知道 Requests 會基于 HTTP 頭部對響應(yīng)的編碼作出有根據(jù)的推測。當(dāng)你訪問 r.text 之時(shí),Requests 會使用其推測的文本編碼。你可以找出 Requests 使用了什么編碼,并且能夠使用 r.encoding 屬性來改變它。

          接下來,我們一起通過 Resquests 的一些用法,來看看 Requests 會基于 HTTP 頭部對響應(yīng)的編碼方式。

          print(res.encoding) #查看網(wǎng)頁返回的字符集類型
          print(res.apparent_encoding) #自動判斷字符集類型
          

          輸出結(jié)果為:

          可以發(fā)現(xiàn) Requests 推測的文本編碼(也就是網(wǎng)頁返回即爬取下來后的編碼轉(zhuǎn)換)與源網(wǎng)頁編碼不一致,由此可知其正是導(dǎo)致亂碼原因。

          亂碼背后的奧秘

          當(dāng)源網(wǎng)頁編碼和爬取下來后的編碼轉(zhuǎn)換不一致時(shí),如源網(wǎng)頁為 GBK 編碼的字節(jié)流,而我們抓取下后程序直接使用 UTF-8 進(jìn)行編碼并輸出到存儲文件中,這必然會引起亂碼,即當(dāng)源網(wǎng)頁編碼和抓取下來后程序直接使用處理編碼一致時(shí),則不會出現(xiàn)亂碼,此時(shí)再進(jìn)行統(tǒng)一的字符編碼也就不會出現(xiàn)亂碼了。最終爬取的所有網(wǎng)頁無論何種編碼格式,都轉(zhuǎn)化為 UTF-8 格式進(jìn)行存儲。

          注意:區(qū)分源網(wǎng)編碼 A-GBK、程序直接使用的編碼 B-ISO-8859-1、統(tǒng)一轉(zhuǎn)換字符的編碼 C-UTF-8。

          在此,我們拓展講講 Unicode、ISO-8859-1、GBK2312、GBK、UTF-8 等之間的區(qū)別聯(lián)系,大概如下:

          最早的編碼是 ISO8859-1,和 ASCII 編碼相似。但為了方便表示各種各樣的語言,逐漸出現(xiàn)了很多標(biāo)準(zhǔn)編碼。ISO8859-1 屬于單字節(jié)編碼,最多能表示的字符范圍是 0-255,應(yīng)用于英文系列。很明顯,ISO8859-1 編碼表示的字符范圍很窄,無法表示中文字符。

          1981 年中國人民通過對 ASCII 編碼的中文擴(kuò)充改造,產(chǎn)生了 GB2312 編碼,可以表示 6000 多個(gè)常用漢字。但漢字實(shí)在是太多了,包括繁體和各種字符,于是產(chǎn)生了 GBK 編碼,它包括了 GB2312 中的編碼,同時(shí)擴(kuò)充了很多。中國又是個(gè)多民族國家,各個(gè)民族幾乎都有自己獨(dú)立的語言系統(tǒng),為了表示那些字符,繼續(xù)把 GBK 編碼擴(kuò)充為 GB18030 編碼。每個(gè)國家都像中國一樣,把自己的語言編碼,于是出現(xiàn)了各種各樣的編碼,如果你不安裝相應(yīng)的編碼,就無法解釋相應(yīng)編碼想表達(dá)的內(nèi)容。終于,有個(gè)叫 ISO 的組織看不下去了。他們一起創(chuàng)造了一種編碼 Unicode,這種編碼非常大,大到可以容納世界上任何一個(gè)文字和標(biāo)志。所以只要電腦上有 Unicode 這種編碼系統(tǒng),無論是全球哪種文字,只需要保存文件的時(shí)候,保存成 Unicode 編碼就可以被其他電腦正常解釋。Unicode 在網(wǎng)絡(luò)傳輸中,出現(xiàn)了兩個(gè)標(biāo)準(zhǔn) UTF-8 和 UTF-16,分別每次傳輸 8 個(gè)位和 16 個(gè)位。于是就會有人產(chǎn)生疑問,UTF-8 既然能保存那么多文字、符號,為什么國內(nèi)還有這么多使用 GBK 等編碼的人?因?yàn)?UTF-8 等編碼體積比較大,占電腦空間比較多,如果面向的使用人群絕大部分都是中國人,用 GBK 等編碼也可以。

          也可以這樣來理解:字符串是由字符構(gòu)成,字符在計(jì)算機(jī)硬件中通過二進(jìn)制形式存儲,這種二進(jìn)制形式就是編碼。如果直接使用 “字符串??字符??二進(jìn)制表示(編碼)” ,會增加不同類型編碼之間轉(zhuǎn)換的復(fù)雜性。所以引入了一個(gè)抽象層,“字符串??字符??與存儲無關(guān)的表示??二進(jìn)制表示(編碼)” ,這樣,可以用一種與存儲無關(guān)的形式表示字符,不同的編碼之間轉(zhuǎn)換時(shí)可以先轉(zhuǎn)換到這個(gè)抽象層,然后再轉(zhuǎn)換為其他編碼形式。在這里,Unicode 就是 “與存儲無關(guān)的表示”,UTF-8 就是 “二進(jìn)制表示”。

          亂碼的解決方法

          根據(jù)原因來找解決方法,就非常簡單了。

          方法一:直接指定 res.encoding

          import requests
          url = "http://search.51job.com"
          res = requests.get(url)
          res.encoding = "gbk"
          html = res.text
          print(html)
          

          方法二:通過 res.apparent_encoding 屬性指定

          import requests
          url = "http://search.51job.com"
          res = requests.get(url)
          res.encoding = res.apparent_encoding
          html = res.text
          print(html)
          

          方法三:通過編碼、解碼的方式

          import requests
          url = "http://search.51job.com"
          res = requests.get(url)
          html = res.text.encode('iso-8859-1').decode('gbk')
          print(html)
          

          輸出結(jié)果:

          基本思路三步走:確定源網(wǎng)頁的編碼 A---GBK、程序通過編碼 B---ISO-8859-1 對源網(wǎng)頁數(shù)據(jù)還原、統(tǒng)一轉(zhuǎn)換字符的編碼 C-UTF-8。至于為啥出現(xiàn)統(tǒng)一轉(zhuǎn)碼這一步呢? 網(wǎng)絡(luò)爬蟲系統(tǒng)數(shù)據(jù)來源很多,不可能使用數(shù)據(jù)時(shí),再轉(zhuǎn)化為其原始的數(shù)據(jù),這樣做是很廢事的。所以一般的爬蟲系統(tǒng)都要對抓取下來的結(jié)果進(jìn)行統(tǒng)一編碼,從而在使用時(shí)做到一致對外,方便使用。

          比如如果我們想講網(wǎng)頁數(shù)據(jù)保存下來,則會將起轉(zhuǎn)為 UTF-8,代碼如下:

          with open("a.txt",'w',encoding='utf-8') as f:
           f.write(html)
          

          總結(jié)

          關(guān)于網(wǎng)絡(luò)爬蟲亂碼問題,這里不僅給出了一個(gè)解決方案,還深入到其中的原理,由此問題引申出很多有意思的問題,如 UTF-8、GBK、GB2312 的編碼方式怎樣的?為什么這樣轉(zhuǎn)化就可以解決問題?

          最后,多動腦,多思考,多總結(jié),致每一位碼農(nóng)!

          本文為作者投稿,版權(quán)歸其所有。


          主站蜘蛛池模板: 国产伦理一区二区三区| 亚洲一区二区三区在线| 一区二区和激情视频| 一区二区三区国模大胆| 亚洲av无码一区二区三区观看 | 伊人久久精品无码av一区| 国产精品熟女视频一区二区| 天堂资源中文最新版在线一区| 亚洲乱色熟女一区二区三区蜜臀| 免费一区二区无码东京热| 丝袜美腿一区二区三区| 高清一区二区三区免费视频| 老鸭窝毛片一区二区三区| 亚洲熟妇成人精品一区| 色一乱一伦一图一区二区精品| 福利一区福利二区| 国产在线精品观看一区| 老熟妇高潮一区二区三区| 亚洲永久无码3D动漫一区| 一区二区三区在线视频播放| 在线欧美精品一区二区三区| 骚片AV蜜桃精品一区| 中文人妻av高清一区二区| 国产精品一区二区av不卡| 久久无码人妻一区二区三区| 中文字幕乱码一区久久麻豆樱花| 久99精品视频在线观看婷亚洲片国产一区一级在线 | 一区二区高清在线| AV无码精品一区二区三区| 国产在线视频一区二区三区98| 激情啪啪精品一区二区| 免费人人潮人人爽一区二区| 中文精品一区二区三区四区| 中文字幕日韩精品一区二区三区| 精品福利视频一区二区三区| 老熟女高潮一区二区三区| 亚洲一区二区中文| 精品女同一区二区三区免费站| 国产短视频精品一区二区三区| 精品一区二区视频在线观看| 中文字幕日韩精品一区二区三区 |