HTML入門基礎知識

TML的入門

1. HTML的代碼文件

（1）打開Hbuilder開發工具，新建項目，點擊右鍵新建一個HTML文檔。

（2）在文檔中寫HTML代碼

<!DOCTYPE html>

<html>

<head>

</head>

<body>

這是產品頁面

</body>

</html>

溫馨提示：

常用的快捷鍵：

Ctrl+s:保存

ctrl+c:復制

ctrl+x：剪切

ctrl+v：粘貼

2. HTML的基本結構

對于HTML文件的后綴名一般為“html”或“htm”

2.1HTML的標簽格式

（1）什么是HTML標簽？

HTML標簽是有開始標簽和結束標簽組成

開始標簽：是被尖括號包圍的元素名。

結束標簽：是被尖括號包圍的斜杠和元素名

<元素>內容 </元素>

例如：<b>好好學習天天向上</b>

注意：有些HTML標簽是沒有結束標簽的, <hr/>

(2)單標簽和雙標簽

雙標簽：例如：<b></b>

單標簽：<hr/> <br/>

(3) 標簽的屬性

我是一個標題標簽

</h1>

3. HTML基本結構的認識

<!DOCTYPE html>

<html>

<head>

<!--

meta：提供網頁的相關信息，有利于搜索引擎收錄

charset="UTF-8"：設置網頁編碼方式為utf-8

name="Keywords" ：設置網頁關鍵字

name="viewport": 設置網頁視窗大小

-->

</head>

<body>

<!--

<body></body>：網頁的主體內容，用戶呈現的內容，比如文字，圖片，鏈接，視頻……

-->

</body>

</html>

4. HTML的注釋

5. HTML的編碼問題

常見編碼個格式：

UTF-8:國際通用的編碼格式

GBK/GB2312:中文編碼字符

HTML的編碼：<meta charset="UTF-8">

6. HTML規范

（1）html標簽都是有尖括號包圍的標簽，比如<b>

（2）標簽通常是成對存在，<b></b>,<h1></h1>

（3）HTML不區分大小寫，我們建議小寫。

（4）HTML可以嵌套，但是允許交叉嵌套

正確寫法：<b> <h1>我很粗</h1> </b>

錯誤寫法：

~~<b> <h1>我很粗 </b></h1>~~

篇主要介紹爬取500彩票網，獲取所有雙色球的開獎結果，寫入到csv文件。

(1) 分析標題

通過分析，發現標題信息在如下地方顯示：

私信小編007即可獲取小編精心準備的資料呢！如有需要源碼請單獨私信！

(2) 分析開獎號碼

通過分析，發現開獎號碼在如下地方顯示：

(3) 分析往期開獎結果url

通過分析，發現網頁是通過一個下拉菜單，選擇相應的期號，會自動跳轉對應的網站。

網站規律就是http://kaijiang.500.com/shtml/ssq/+"期號"+.shtml

2、思路分析

先提取網頁數據，用Beautiful Soup從網頁抓取數據，然后通過正則表達式，提取想要的數據。

3、代碼：

import requests
from bs4 import BeautifulSoup
import re
#獲取網頁數據，偽裝成瀏覽器
def gethtml(url):
 headers = {
 "Use-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) Apple
WebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"
 }
 req = requests.get(url,headers = headers)
 req.encoding = "GBK"
 html = req.text
 bf = BeautifulSoup(html, "html.parser")
 return bf
#爬取標題
def gettitle(html):
 titlehtml = html.find_all("td", class_="td_title01")
 titletxt = str(titlehtml).strip()
 p1 = r'shtml">(.*?)<f.*?<strong>(.*?)</strong>.*?</font>(.*?)</a>
.*?right">(.*?)</span>'
 titles = re.compile(p1, re.S).findall(titletxt)
 qi = list(titles[0])
 qi[2] = ('期')
 return ''.join(qi)
#爬取紅色球
def getred(html):
 redhtml = html.find_all("li", class_="ball_red")
 redtxt = str(redhtml).strip()
 p1 = r'red">(.*?)</li>'
 reds = re.compile(p1, re.S).findall(redtxt)
 return '紅球:' + ' '.join(reds)
#爬取藍色球
def getbule(html):
 bulehtml = html.find_all("li", class_="ball_blue")
 buletxt = str(bulehtml).strip()
 p1 = r'blue">(.*?)</li>'
 bules = re.compile(p1, re.S).findall(buletxt)
 return '藍球:' + ' '.join(bules)
#獲取所有url
def getlistnum(html):
 listnumhtml = html.find_all("span", class_="iSelectBox")
 p1 = r'href="(.*?)">'
 listnums = re.compile(p1, re.S).findall(str(listnumhtml))
 return listnums[1:]
url = 'http://kaijiang.500.com/shtml/ssq/18131.shtml'
def main():
 html = gethtml(url)
 htmlurls = getlistnum(html)
 for htmlurl in htmlurls:
 ssqhtml = gethtml(htmlurl)
 a = gettitle(ssqhtml)
 b = getred(ssqhtml)
 c = getbule(ssqhtml)
 #寫入txt文件
 with open(r'D:\1.txt','a') as f:
 print(htmlurl)
 f.write(a + '\n'+ b + '\n'+ c + '\n')
 f.close()
if __name__ == "__main__":
 main()

代碼自行拿去用吧！輸出文件：

到此結束！需要源碼請后臺私信小編即可哦！

景說明

假設需要劫持http響應并在html頁面中注入一段js代碼后再傳回瀏覽器，實現在瀏覽器出現一個彈框消息提醒。

由于原始html頁面編碼格式存在UTF-8、GBK等多種編碼格式，如果注入的js包含中文消息的話，那么在UTF-8或GBK編碼的頁面就會有一個出現亂碼。有沒有辦法做到不管是針對GBK、UTF-8編碼的頁面都能做到正常顯示而不會出現亂碼哪？

產生亂碼的原因

首先來分析一下產生亂碼的原因，我們在瀏覽器看到的信息都是通過圖形學手段在顯示器上呈現出來的，而實際保存在計算機硬件上的都是0和1（因為計算機實現是基于二進制），那么計算機要顯示、傳遞信息就需要依靠一套規則把一串串的0和1識別為正確的字符，這就是編碼。

例如01000001在ASCII編碼規則下對應字母A。相同的0/1串，不同的編碼解析出的字符一般是不同的，因此如果html頁面按照UTF-8的編碼解析正常，那么按照GBK的編碼解析就會是亂碼了。根據上面的示意圖，假設注入的js代碼為utf-8編碼格式，而原始html編碼格式也為UTF-8編碼格式，那么最終注入這部分中的中文就能正常顯示，但是如果原始html為GBK編碼，那注入的這部分js代碼的中文就會顯示亂碼。

解決辦法

有一種unicode統一編碼字符集，目標是把所有文字、字符統一編碼，也就是一串0/1組合在unicode字符集下對應的字符是唯一的，不會存在歧義。而js是支持解析unicode字符的，那么就可以在注入js中把要顯示的消息統一轉換為unicode編碼，瀏覽器端去解析這個unicode編碼，這樣不管原始html是UTF-8還是GBK，都能正常顯示中文。

原始注入js代碼關于中文字符的部分

// utf-8編碼格式
let message = "中文";

解決亂碼的注入js代碼關于中文字符的部分

// utf-8編碼格式
let message = "\\u4e2d\\u6587";  // 這個編碼對應上面的message"中文"

注意：

注入的js代碼仍然是utf-8編碼格式，只是消息內容轉換為unicode編碼的形式；
unicode中0x4e2d表示的0/1串對應漢字"中"，0x6587對應的0/1串對應漢字"文";
message其實也不是真正的unicode編碼，它只是普通的字符串，只是使用了unicode對應的碼點（也就是二進制對應的數值），因為可以利用這個碼點在瀏覽器中恢復出正確的字符，事實上unicode字符集并沒有規定具體的編碼格式。

在線咨詢

上一篇：html轉image 保存到zip
下一篇：極簡javascript時鐘，代碼卻不簡單！

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

HTML入門基礎知識

TML的入門

景說明

產生亂碼的原因

解決辦法

您的項目需求