HTML頁(yè)面基本結(jié)構(gòu)和加載過(guò)程

家好，我是皮皮。

前言

對(duì)于前端來(lái)說(shuō)，HTML 都是最基礎(chǔ)的內(nèi)容。

今天，我們來(lái)了解一下 HTML 和網(wǎng)頁(yè)有什么關(guān)系，以及與 DOM 有什么不同。通過(guò)本講內(nèi)容，你將掌握瀏覽器是怎么處理 HTML 內(nèi)容的，以及在這個(gè)過(guò)程中我們可以進(jìn)行怎樣的處理來(lái)提升網(wǎng)頁(yè)的性能，從而提升用戶的體驗(yàn)。

一、瀏覽器頁(yè)面加載過(guò)程

不知你是否有過(guò)這樣的體驗(yàn)：當(dāng)打開(kāi)某個(gè)瀏覽器的時(shí)候，發(fā)現(xiàn)一直在轉(zhuǎn)圈，或者等了好長(zhǎng)時(shí)間才打開(kāi)頁(yè)面……

此時(shí)的你，會(huì)選擇關(guān)掉頁(yè)面還是耐心等待呢？

這一現(xiàn)象，除了網(wǎng)絡(luò)不穩(wěn)定、網(wǎng)速過(guò)慢等原因，大多數(shù)都是由于頁(yè)面設(shè)計(jì)不合理導(dǎo)致加載時(shí)間過(guò)長(zhǎng)導(dǎo)致的。

我們都知道，頁(yè)面是用 HTML/CSS/JavaScript 來(lái)編寫的。

HTML 的職責(zé)在于告知瀏覽器如何組織頁(yè)面，以及搭建頁(yè)面的基本結(jié)構(gòu)；
CSS 用來(lái)裝飾 HTML，讓我們的頁(yè)面更好看；
JavaScript 則可以豐富頁(yè)面功能，使靜態(tài)頁(yè)面動(dòng)起來(lái)。

HTML由一系列的元素組成，通常稱為HTML元素。HTML 元素通常被用來(lái)定義一個(gè)網(wǎng)頁(yè)結(jié)構(gòu)，基本上所有網(wǎng)頁(yè)都是這樣的 HTML 結(jié)構(gòu)：

<html>
    <head></head>
    <body></body>
</html>

其中：

html元素是頁(yè)面的根元素，它描述完整的網(wǎng)頁(yè)；
head元素包含了我們想包含在 HTML 頁(yè)面中，但不希望顯示在網(wǎng)頁(yè)里的內(nèi)容；
body元素包含了我們?cè)L問(wèn)頁(yè)面時(shí)所有顯示在頁(yè)面上的內(nèi)容，是用戶最終能看到的內(nèi)容;

HTML 中的元素特別多，其中還包括可用于 Web Components 的自定義元素。

前面我們提到頁(yè)面 HTML 結(jié)構(gòu)不合理可能會(huì)導(dǎo)致頁(yè)面響應(yīng)慢，這個(gè)過(guò)程很多時(shí)候體現(xiàn)在<script>和<style>元素的設(shè)計(jì)上，它們會(huì)影響頁(yè)面加載過(guò)程中對(duì) Javascript 和 CSS 代碼的處理。

因此，如果想要提升頁(yè)面的加載速度，就需要了解瀏覽器頁(yè)面的加載過(guò)程是怎樣的，從根本上來(lái)解決問(wèn)題。

瀏覽器在加載頁(yè)面的時(shí)候會(huì)用到 GUI 渲染線程和 JavaScript 引擎線程（更詳細(xì)的瀏覽器加載和渲染機(jī)制將在第 7 講中介紹）。其中，GUI 渲染線程負(fù)責(zé)渲染瀏覽器界面 HTML 元素，JavaScript 引擎線程主要負(fù)責(zé)處理 JavaScript 腳本程序。

由于 JavaScript 在執(zhí)行過(guò)程中還可能會(huì)改動(dòng)界面結(jié)構(gòu)和樣式，因此它們之間被設(shè)計(jì)為互斥的關(guān)系。也就是說(shuō)，當(dāng) JavaScript 引擎執(zhí)行時(shí)，GUI 線程會(huì)被掛起。

以網(wǎng)易云課堂官網(wǎng)為例，我們來(lái)看看網(wǎng)頁(yè)加載流程。

（1）當(dāng)我們打開(kāi)官網(wǎng)的時(shí)候，瀏覽器會(huì)從服務(wù)器中獲取到 HTML 內(nèi)容。

（2）瀏覽器獲取到 HTML 內(nèi)容后，就開(kāi)始從上到下解析 HTML 的元素。

（3）<head>元素內(nèi)容會(huì)先被解析，此時(shí)瀏覽器還沒(méi)開(kāi)始渲染頁(yè)面。

我們看到<head>元素里有用于描述頁(yè)面元數(shù)據(jù)的<meta>元素，還有一些<link>元素涉及外部資源（如圖片、CSS 樣式等），此時(shí)瀏覽器會(huì)去獲取這些外部資源。除此之外，我們還能看到<head>元素中還包含著不少的<script>元素，這些<script>元素通過(guò)src屬性指向外部資源。

（4）當(dāng)瀏覽器解析到這里時(shí)（步驟 3），會(huì)暫停解析并下載 JavaScript 腳本。

（5）當(dāng) JavaScript 腳本下載完成后，瀏覽器的控制權(quán)轉(zhuǎn)交給 JavaScript 引擎。當(dāng)腳本執(zhí)行完成后，控制權(quán)會(huì)交回給渲染引擎，渲染引擎繼續(xù)往下解析 HTML 頁(yè)面。

（6）此時(shí)<body>元素內(nèi)容開(kāi)始被解析，瀏覽器開(kāi)始渲染頁(yè)面。

在這個(gè)過(guò)程中，我們看到<head>中放置的<script>元素會(huì)阻塞頁(yè)面的渲染過(guò)程：把 JavaScript 放在<head>里，意味著必須把所有 JavaScript 代碼都下載、解析和解釋完成后，才能開(kāi)始渲染頁(yè)面。

到這里，我們就明白了：如果外部腳本加載時(shí)間很長(zhǎng)（比如一直無(wú)法完成下載），就會(huì)造成網(wǎng)頁(yè)長(zhǎng)時(shí)間失去響應(yīng)，瀏覽器就會(huì)呈現(xiàn)“假死”狀態(tài)，用戶體驗(yàn)會(huì)變得很糟糕。

因此，對(duì)于對(duì)性能要求較高、需要快速將內(nèi)容呈現(xiàn)給用戶的網(wǎng)頁(yè)，常常會(huì)將 JavaScript 腳本放在<body>的最后面。這樣可以避免資源阻塞，頁(yè)面得以迅速展示。我們還可以使用defer/async/preload等屬性來(lái)標(biāo)記<script>標(biāo)簽，來(lái)控制 JavaScript 的加載順序。

百度首頁(yè)

三、DOM 解析

對(duì)于百度這樣的搜索引擎來(lái)說(shuō)，必須要在最短的時(shí)間內(nèi)提供到可用的服務(wù)給用戶，其中就包括搜索框的顯示及可交互，除此之外的內(nèi)容優(yōu)先級(jí)會(huì)相對(duì)較低。

瀏覽器在渲染頁(yè)面的過(guò)程需要解析 HTML、CSS 以得到 DOM 樹(shù)和 CSS 規(guī)則樹(shù)，它們結(jié)合后才生成最終的渲染樹(shù)并渲染。因此，我們還常常將 CSS 放在<head>里，可用來(lái)避免瀏覽器渲染的重復(fù)計(jì)算。

二、HTML 與 DOM 有什么不同

我們知道<p>是 HTML 元素，但又常常將<p>這樣一個(gè)元素稱為 DOM 節(jié)點(diǎn)，那么 HTML 和 DOM 到底有什么不一樣呢？

根據(jù) MDN 官方描述：文檔對(duì)象模型（DOM）是 HTML 和 XML 文檔的編程接口。

也就是說(shuō)，DOM 是用來(lái)操作和描述 HTML 文檔的接口。如果說(shuō)瀏覽器用 HTML 來(lái)描述網(wǎng)頁(yè)的結(jié)構(gòu)并渲染，那么使用 DOM 則可以獲取網(wǎng)頁(yè)的結(jié)構(gòu)并進(jìn)行操作。一般來(lái)說(shuō)，我們使用 JavaScript 來(lái)操作 DOM 接口，從而實(shí)現(xiàn)頁(yè)面的動(dòng)態(tài)變化，以及用戶的交互操作。

在開(kāi)發(fā)過(guò)程中，常常用對(duì)象的方式來(lái)描述某一類事物，用特定的結(jié)構(gòu)集合來(lái)描述某些事物的集合。DOM 也一樣，它將 HTML 文檔解析成一個(gè)由 DOM 節(jié)點(diǎn)以及包含屬性和方法的相關(guān)對(duì)象組成的結(jié)構(gòu)集合。

三、DOM 解析

我們常見(jiàn)的 HTML 元素，在瀏覽器中會(huì)被解析成節(jié)點(diǎn)。比如下面這樣的 HTML 內(nèi)容：

<html>
    <head>
        <title>標(biāo)題</title>
    </head>
    <body>
        <a href='xx.com'>我的超鏈接</a>
        <h1>頁(yè)面第一標(biāo)題</h1>
    </body>
</html>

打開(kāi)控制臺(tái) Elements 面板，可以看到這樣的 HTML 結(jié)構(gòu)，如下圖所示：

在瀏覽器中，上面的 HTML 會(huì)被解析成這樣的 DOM 樹(shù)，如下圖所示：

我們都知道，對(duì)于樹(shù)狀結(jié)構(gòu)來(lái)說(shuō)，常常使用parent/child/sibling等方式來(lái)描述各個(gè)節(jié)點(diǎn)之間的關(guān)系，對(duì)于 DOM 樹(shù)也不例外。

舉個(gè)例子，我們常常會(huì)對(duì)頁(yè)面功能進(jìn)行抽象，并封裝成組件。但不管怎么進(jìn)行整理，頁(yè)面最終依然是基于 DOM 的樹(shù)狀結(jié)構(gòu)，因此組件也是呈樹(shù)狀結(jié)構(gòu)，組件間的關(guān)系也同樣可以使用parent/child/sibling這樣的方式來(lái)描述。同時(shí)，現(xiàn)在大多數(shù)應(yīng)用程序同樣以root為根節(jié)點(diǎn)展開(kāi)，我們進(jìn)行狀態(tài)管理、數(shù)據(jù)管理也常常會(huì)呈現(xiàn)出樹(shù)狀結(jié)構(gòu)。

四、事件委托

我們知道，瀏覽器中各個(gè)元素從頁(yè)面中接收事件的順序包括事件捕獲階段、目標(biāo)階段、事件冒泡階段。其中，基于事件冒泡機(jī)制，我們可以實(shí)現(xiàn)將子元素的事件委托給父級(jí)元素來(lái)進(jìn)行處理，這便是事件委托。

如果我們?cè)诿總€(gè)元素上都進(jìn)行監(jiān)聽(tīng)的話，則需要綁定三個(gè)事件;(假設(shè)頁(yè)面上有a,b,c三個(gè)兄弟節(jié)點(diǎn))

function clickEventFunction(e) {
  console.log(e.target === this); // logs `true`
  // 這里可以用 this 獲取當(dāng)前元素
}
// 元素a,b,c綁定
element2.addEventListener("click", clickEventFunction, false);
element5.addEventListener("click", clickEventFunction, false);
element8.addEventListener("click", clickEventFunction, false);

使用事件委托，可以通過(guò)將事件添加到它們的父節(jié)點(diǎn)，而將事件委托給父節(jié)點(diǎn)來(lái)觸發(fā)處理函數(shù)：

function clickEventFunction(event) {
  console.log(e.target === this); // logs `false`
  // 獲取被點(diǎn)擊的元素
  const eventTarget = event.target;
  // 檢查源元素`event.target`是否符合預(yù)期
  // 此處控制廣告面板的展示內(nèi)容
}
// 元素1綁定
element1.addEventListener("click", clickEventFunction, false);

這樣能解決什么問(wèn)題呢？

綁定子元素會(huì)綁定很多次的事件，而綁定父元素只需要一次綁定。
將事件委托給父節(jié)點(diǎn)，這樣我們對(duì)子元素的增加和刪除、移動(dòng)等，都不需要重新進(jìn)行事件綁定。

常見(jiàn)的使用方式主要是上述這種列表結(jié)構(gòu)，每個(gè)選項(xiàng)都可以進(jìn)行編輯、刪除、添加標(biāo)簽等功能，而把事件委托給父元素，不管我們新增、刪除、更新選項(xiàng)，都不需要手動(dòng)去綁定和移除事件。

如果在列表數(shù)量?jī)?nèi)容較大的時(shí)候，對(duì)成千上萬(wàn)節(jié)點(diǎn)進(jìn)行事件監(jiān)聽(tīng)，也是不小的性能消耗。使用事件委托的方式，我們可以大量減少瀏覽器對(duì)元素的監(jiān)聽(tīng)，也是在前端性能優(yōu)化中比較簡(jiǎn)單和基礎(chǔ)的一個(gè)做法。

注意:

如果我們直接在document.body上進(jìn)行事件委托，可能會(huì)帶來(lái)額外的問(wèn)題;
由于瀏覽器在進(jìn)行頁(yè)面渲染的時(shí)候會(huì)有合成的步驟，合成的過(guò)程會(huì)先將頁(yè)面分成不同的合成層，而用戶與瀏覽器進(jìn)行交互的時(shí)候需要接收事件。此時(shí)，瀏覽器會(huì)將頁(yè)面上具有事件處理程序的區(qū)域進(jìn)行標(biāo)記，被標(biāo)記的區(qū)域會(huì)與主線程進(jìn)行通信。
如果我們document.body上被綁定了事件，這時(shí)候整個(gè)頁(yè)面都會(huì)被標(biāo)記;
即使我們的頁(yè)面不關(guān)心某些部分的用戶交互，合成器線程也必須與主線程進(jìn)行通信，并在每次事件發(fā)生時(shí)進(jìn)行等待。這種情況，我們可以使用passive: true選項(xiàng)來(lái)解決

五、總結(jié)

我們了解了 HTML 的作用，以及它是如何影響瀏覽器中頁(yè)面的加載過(guò)程的，同時(shí)還介紹了使用 DOM 接口來(lái)控制 HTML 的展示和功能邏輯。我們了解了DOM解析事件委托等相關(guān)概念。

. SourceTree是什么

擁有可視化界面的項(xiàng)目版本控制軟件，適用于git項(xiàng)目管理
window、mac可用

2. 獲取項(xiàng)目代碼

1. 點(diǎn)擊克隆/新建

2. 在彈出框中輸入項(xiàng)目地址，http或者ssh地址都可以

如果箭頭指向的倉(cāng)庫(kù)類型表明“這不是一個(gè)標(biāo)準(zhǔn)的Git倉(cāng)庫(kù)”，可能是有以下原因

1) 項(xiàng)目地址獲取錯(cuò)誤

2) 沒(méi)有項(xiàng)目訪問(wèn)權(quán)限

3. 點(diǎn)擊“克隆”，等待項(xiàng)目克隆完成，完成后，左側(cè)只有一個(gè)分支master

克隆完成后，得到的是發(fā)布后的master源碼，如果想要獲取最新的正在開(kāi)發(fā)中的源碼，需要對(duì)項(xiàng)目流進(jìn)行初始化，點(diǎn)擊“Git工作流”

直接點(diǎn)“確定”，獲取develop分支源碼

開(kāi)發(fā)任務(wù)都是在develop分支上完成的

4. 分支共有5種類型

1) master，最終發(fā)布版本，整個(gè)項(xiàng)目中有且只有一個(gè)

2) develop，項(xiàng)目的開(kāi)發(fā)分支，原則上項(xiàng)目中有且只有一個(gè)

3) feature，功能分支，用于開(kāi)發(fā)一個(gè)新的功能

4) release，預(yù)發(fā)布版本，介于develop和master之間的一個(gè)版本，主要用于測(cè)試

5) hotfix，修復(fù)補(bǔ)丁，用于修復(fù)master上的bug，直接作用于master

5. master和develop上文中已介紹過(guò)，當(dāng)開(kāi)發(fā)中需要增加一個(gè)新的功能時(shí)，可新建feature分支，用于增加新功能，并且不影響開(kāi)發(fā)中的develop源碼，當(dāng)新功能增加完成后，完成feature分支，將新功能合并到develop中，更新develop上的代碼

1) 新建feature。首先當(dāng)前開(kāi)發(fā)分支指向develop，點(diǎn)擊“Git工作流”

選擇“建立新的分支”

在預(yù)覽中可看到，feature分支是從develop分出的，輸入功能名稱，點(diǎn)擊確定，項(xiàng)目結(jié)構(gòu)中增加feature分支，并且當(dāng)前開(kāi)發(fā)分支指向新建的feature分支

2) 在F_add_feature分支下進(jìn)行開(kāi)發(fā)任務(wù)，并提交

以上操作分別增加了feature_1、feature_2、feature_3文件，共提交3次，現(xiàn)項(xiàng)目文件夾下共三個(gè)文件

當(dāng)切換為develop分支后，會(huì)發(fā)現(xiàn)，在develop下并沒(méi)有新增的三個(gè)文件，說(shuō)明在feature下進(jìn)行操作，并不影響develop分支源碼

3) 完成feature開(kāi)發(fā)后，將feature中的源碼合并到develop分支。將當(dāng)前分支指向F_add_feature分支，點(diǎn)擊“Git工作流”，選擇“完成功能”

預(yù)覽中，表明feature分支將合并到develop，點(diǎn)擊確定，進(jìn)行提交合并，合并成功后

4) 需要再增加新的功能時(shí)，重復(fù)以上操作即可

5) 當(dāng)多人協(xié)作開(kāi)發(fā)時(shí)，可能會(huì)出現(xiàn)，不同人員對(duì)同一文件進(jìn)行操作，從而引起合并沖突，對(duì)這種情況進(jìn)行模擬，在當(dāng)前新建兩個(gè)feature，分別對(duì)feature_1文件進(jìn)行修改，然后分別合并

feature_1在feature_1.txt下做如下操作

feature_2在feature_1.txt下做如下操作

先后合并F_feature_1和F_feature_2，會(huì)出現(xiàn)沖突

點(diǎn)擊close，查看未提交的更改，提示feature_1.txt出現(xiàn)沖突，

打開(kāi)feature_1.txt

出現(xiàn)<<<<<<< HEAD、=======、>>>>>>> feature/F_feature_2，HEAD和=號(hào)之間表示當(dāng)前分支下的代碼，=號(hào)和>>>>>>> feature/F_feature_2之間表示要合并的分支下的代碼，>>>>>>> feature/F_feature_2表示了要合并的分支的分支名稱，

根據(jù)情況區(qū)分要保留的代碼，要?jiǎng)h除的代碼，最后再刪除<<<<<<< HEAD、=======、和>>>>>>> feature/F_feature_2

將修改的代碼再進(jìn)行一次提交

一旦出現(xiàn)feature合并沖突，要合并的feature分支不會(huì)被刪除，如F_feature_2，確保合并沒(méi)有問(wèn)題后，可手動(dòng)刪除F_feature_2

6. 當(dāng)開(kāi)發(fā)到一定階段，可以發(fā)布測(cè)試版本時(shí)，可以從develop分支，建立release分支，進(jìn)入預(yù)發(fā)布測(cè)試階段。點(diǎn)擊“Git工作流”，選擇“建立新的發(fā)布版本”

預(yù)覽中可以看到，release是從develop分出的，輸入發(fā)布版本名‘R_v1.0’，點(diǎn)擊確定

R_v1.0為階段性發(fā)布版本，主要用于發(fā)布前進(jìn)行測(cè)試，后續(xù)的開(kāi)發(fā)工作仍舊在develop上進(jìn)行，如果在測(cè)試過(guò)程中發(fā)現(xiàn)問(wèn)題，直接在release上進(jìn)行修改，修改完成后進(jìn)行提交

7. 對(duì)release分支R_v1.0進(jìn)行兩次修改后，測(cè)試完成，可以進(jìn)行正式發(fā)布，在當(dāng)前分支指向R_v1.0分支下，點(diǎn)擊“Git工作流”，選擇“完成發(fā)布版本”

在預(yù)覽中可以看到，R_v1.0向develop和master分別合并，點(diǎn)擊確定，完成正式發(fā)布。

完成合并后，默認(rèn)指向develop為當(dāng)前分支，master增加多個(gè)版本更新，將master分支推送到origin，完成線上發(fā)布

8. 正式版本發(fā)布后，develop可繼續(xù)進(jìn)行后續(xù)開(kāi)發(fā)，當(dāng)正式版本出現(xiàn)問(wèn)題時(shí)，需要進(jìn)行問(wèn)題的修改，可以在master分支建立修改補(bǔ)丁hotfix。將當(dāng)前分支切換到master，點(diǎn)擊“Git工作流”，選擇“建立新的修復(fù)補(bǔ)丁”

預(yù)覽中hotfix分支是從master拉去出來(lái)的，輸入修復(fù)補(bǔ)丁名，點(diǎn)確定

在該分支下進(jìn)行master的問(wèn)題修改，修改完成后進(jìn)行提交。當(dāng)所有補(bǔ)丁問(wèn)題修改完成后，點(diǎn)擊“Git工作流”，選擇“完成修復(fù)補(bǔ)丁”

預(yù)覽中，H_fix_1向master和develop分別合并，點(diǎn)擊確定，完成分支合并。

合并完成后，默認(rèn)當(dāng)前分支為develop，master分支有版本需要更新，當(dāng)前分支切換為master，進(jìn)行推送，完成補(bǔ)丁修復(fù)。

9. 在完成發(fā)布版本和完成修復(fù)補(bǔ)丁時(shí)，如果遇到?jīng)_突，可仿照上述5進(jìn)行沖突修改，再進(jìn)行后續(xù)操作

者：崔家華

東北大學(xué)|模式識(shí)別與智能系統(tǒng)研究生

量子位已獲授權(quán)編輯發(fā)布

在模式識(shí)別領(lǐng)域中，K-近鄰算法（KNN算法）是一種用于分類和回歸的非參數(shù)統(tǒng)計(jì)方法。

在這篇文章中，作者先詳細(xì)介紹了K-近鄰算法的基礎(chǔ)知識(shí)，接著在Python 3中演示了約會(huì)網(wǎng)站配對(duì)實(shí)戰(zhàn)和sklearn手寫數(shù)字識(shí)別。形象生動(dòng)，簡(jiǎn)明易懂。

在文章正式開(kāi)始前，可能你需要這些信息——

Github代碼獲取：

https://github.com/Jack-Cherish/Machine-Learning/

Python版本： Python3.x

運(yùn)行平臺(tái)： Windows

IDE： Sublime text3

想入門的你還不快來(lái)上車。

一. 簡(jiǎn)單k-近鄰算法

本文將從k-鄰近算法的思想開(kāi)始講起，使用python3一步一步編寫代碼進(jìn)行實(shí)戰(zhàn)訓(xùn)練。并且，我也提供了相應(yīng)的數(shù)據(jù)集，對(duì)代碼進(jìn)行了詳細(xì)的注釋。除此之外，本文也對(duì)sklearn實(shí)現(xiàn)k-鄰近算法的方法進(jìn)行了講解。

實(shí)戰(zhàn)實(shí)例：電影類別分類、約會(huì)網(wǎng)站配對(duì)效果判定、手寫數(shù)字識(shí)別。

本文出現(xiàn)的所有代碼和數(shù)據(jù)集，均可在我的github上下載，歡迎Follow、Star——

下載地址：

https://github.com/Jack-Cherish/Machine-Learning/tree/master/kNN

1.k-近鄰法簡(jiǎn)介

k近鄰法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一種基本分類與回歸方法。

它的工作原理是：存在一個(gè)樣本數(shù)據(jù)集合，也稱作為訓(xùn)練樣本集，并且樣本集中每個(gè)數(shù)據(jù)都存在標(biāo)簽，即我們知道樣本集中每一個(gè)數(shù)據(jù)與所屬分類的對(duì)應(yīng)關(guān)系。

輸入沒(méi)有標(biāo)簽的新數(shù)據(jù)后，將新的數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較，然后算法提取樣本最相似數(shù)據(jù)(最近鄰)的分類標(biāo)簽。一般來(lái)說(shuō)，我們只選擇樣本數(shù)據(jù)集中前k個(gè)最相似的數(shù)據(jù)，這就是k-近鄰算法中k的出處，通常k是不大于20的整數(shù)。

最后，選擇k個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類，作為新數(shù)據(jù)的分類。

舉個(gè)簡(jiǎn)單的例子，我們可以使用k-近鄰算法分類一個(gè)電影是愛(ài)情片還是動(dòng)作片。

△ 表1.1 每部電影的打斗鏡頭數(shù)、接吻鏡頭數(shù)以及電影類型

表1.1 就是我們已有的數(shù)據(jù)集合，也就是訓(xùn)練樣本集。這個(gè)數(shù)據(jù)集有兩個(gè)特征，即打斗鏡頭數(shù)和接吻鏡頭數(shù)。除此之外，我們也知道每個(gè)電影的所屬類型，即分類標(biāo)簽。用肉眼粗略地觀察，接吻鏡頭多的，是愛(ài)情片。打斗鏡頭多的，是動(dòng)作片。

以我們多年的看片經(jīng)驗(yàn)，這個(gè)分類還算合理。如果現(xiàn)在給我一部電影，你告訴我這個(gè)電影打斗鏡頭數(shù)和接吻鏡頭數(shù)。

不告訴我這個(gè)電影類型，我可以根據(jù)你給我的信息進(jìn)行判斷，這個(gè)電影是屬于愛(ài)情片還是動(dòng)作片。而k-近鄰算法也可以像我們?nèi)艘粯幼龅竭@一點(diǎn)，不同的地方在于，我們的經(jīng)驗(yàn)更”牛逼”，而k-鄰近算法是靠已有的數(shù)據(jù)。

比如，你告訴我這個(gè)電影打斗鏡頭數(shù)為2，接吻鏡頭數(shù)為102，我的經(jīng)驗(yàn)會(huì)告訴你這個(gè)是愛(ài)情片，k-近鄰算法也會(huì)告訴你這個(gè)是愛(ài)情片。

你又告訴我另一個(gè)電影打斗鏡頭數(shù)為49，接吻鏡頭數(shù)為51，我”邪惡”的經(jīng)驗(yàn)可能會(huì)告訴你，這有可能是個(gè)”愛(ài)情動(dòng)作片”，畫面太美，我不敢想象。 (如果說(shuō)，你不知道”愛(ài)情動(dòng)作片”是什么？請(qǐng)?jiān)u論留言與我聯(lián)系，我需要你這樣像我一樣純潔的朋友。)

但是k-近鄰算法不會(huì)告訴你這些，因?yàn)樵谒难劾铮娪邦愋椭挥袗?ài)情片和動(dòng)作片，它會(huì)提取樣本集中特征最相似數(shù)據(jù)(最鄰近)的分類標(biāo)簽，得到的結(jié)果可能是愛(ài)情片，也可能是動(dòng)作片，但絕不會(huì)是”愛(ài)情動(dòng)作片”。當(dāng)然，這些取決于數(shù)據(jù)集的大小以及最近鄰的判斷標(biāo)準(zhǔn)等因素。

2.距離度量

我們已經(jīng)知道k-近鄰算法根據(jù)特征比較，然后提取樣本集中特征最相似數(shù)據(jù)(最鄰近)的分類標(biāo)簽。那么，如何進(jìn)行比較呢？比如，我們還是以表1.1為例，怎么判斷紅色圓點(diǎn)標(biāo)記的電影所屬的類別呢？如圖1.1所示。

△ 圖1.1 電影分類

我們可以從散點(diǎn)圖大致推斷，這個(gè)紅色圓點(diǎn)標(biāo)記的電影可能屬于動(dòng)作片，因?yàn)榫嚯x已知的那兩個(gè)動(dòng)作片的圓點(diǎn)更近。k-近鄰算法用什么方法進(jìn)行判斷呢？

沒(méi)錯(cuò)，就是距離度量。這個(gè)電影分類的例子有2個(gè)特征，也就是在2維實(shí)數(shù)向量空間，可以使用我們高中學(xué)過(guò)的兩點(diǎn)距離公式計(jì)算距離，如圖1.2所示。

通過(guò)計(jì)算，我們可以得到如下結(jié)果：

(101,20)->動(dòng)作片(108,5)的距離約為16.55

(101,20)->動(dòng)作片(115,8)的距離約為18.44

(101,20)->愛(ài)情片(5,89)的距離約為118.22

(101,20)->愛(ài)情片(1,101)的距離約為128.69

通過(guò)計(jì)算可知，紅色圓點(diǎn)標(biāo)記的電影到動(dòng)作片 (108,5)的距離最近，為16.55。如果算法直接根據(jù)這個(gè)結(jié)果，判斷該紅色圓點(diǎn)標(biāo)記的電影為動(dòng)作片，這個(gè)算法就是最近鄰算法，而非k-近鄰算法。那么k-鄰近算法是什么呢？k-近鄰算法步驟如下：

計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離；

按照距離遞增次序排序；

選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn)；

確定前k個(gè)點(diǎn)所在類別的出現(xiàn)頻率；

返回前k個(gè)點(diǎn)所出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類。

比如，現(xiàn)在我這個(gè)k值取3，那么在電影例子中，按距離依次排序的三個(gè)點(diǎn)分別是動(dòng)作片(108,5)、動(dòng)作片(115,8)、愛(ài)情片(5,89)。在這三個(gè)點(diǎn)中，動(dòng)作片出現(xiàn)的頻率為三分之二，愛(ài)情片出現(xiàn)的頻率為三分之一，所以該紅色圓點(diǎn)標(biāo)記的電影為動(dòng)作片。

這個(gè)判別過(guò)程就是k-近鄰算法。

3.Python3代碼實(shí)現(xiàn)

我們已經(jīng)知道了k-近鄰算法的原理，那么接下來(lái)就是使用Python3實(shí)現(xiàn)該算法，依然以電影分類為例。

(1)準(zhǔn)備數(shù)據(jù)集

對(duì)于表1.1中的數(shù)據(jù)，我們可以使用numpy直接創(chuàng)建，代碼如下：

運(yùn)行結(jié)果，如圖1.3所示：

△ 圖1.3 運(yùn)行結(jié)果

(2)k-近鄰算法

根據(jù)兩點(diǎn)距離公式，計(jì)算距離，選擇距離最小的前k個(gè)點(diǎn)，并返回分類結(jié)果。

運(yùn)行結(jié)果，如圖1.4所示：

△ 圖1.4 運(yùn)行結(jié)果

可以看到，分類結(jié)果根據(jù)我們的”經(jīng)驗(yàn)”，是正確的，盡管這種分類比較耗時(shí)，用時(shí)1.4s。

到這里，也許有人早已經(jīng)發(fā)現(xiàn)，電影例子中的特征是2維的，這樣的距離度量可以用兩點(diǎn)距離公式計(jì)算，但是如果是更高維的呢？

對(duì)，沒(méi)錯(cuò)。我們可以用歐氏距離(也稱歐幾里德度量)，如圖1.5所示。我們高中所學(xué)的兩點(diǎn)距離公式就是歐氏距離在二維空間上的公式，也就是歐氏距離的n的值為2的情況。

△ 圖1.5 歐氏距離公式

看到這里，有人可能會(huì)問(wèn)：“分類器何種情況下會(huì)出錯(cuò)？”或者“答案是否總是正確的？”答案是否定的，分類器并不會(huì)得到百分百正確的結(jié)果，我們可以使用多種方法檢測(cè)分類器的正確率。此外分類器的性能也會(huì)受到多種因素的影響，如分類器設(shè)置和數(shù)據(jù)集等。

不同的算法在不同數(shù)據(jù)集上的表現(xiàn)可能完全不同。為了測(cè)試分類器的效果，我們可以使用已知答案的數(shù)據(jù)，當(dāng)然答案不能告訴分類器，檢驗(yàn)分類器給出的結(jié)果是否符合預(yù)期結(jié)果。

通過(guò)大量的測(cè)試數(shù)據(jù)，我們可以得到分類器的錯(cuò)誤率-分類器給出錯(cuò)誤結(jié)果的次數(shù)除以測(cè)試執(zhí)行的總數(shù)。

錯(cuò)誤率是常用的評(píng)估方法，主要用于評(píng)估分類器在某個(gè)數(shù)據(jù)集上的執(zhí)行效果。完美分類器的錯(cuò)誤率為0，最差分類器的錯(cuò)誤率是1.0。

同時(shí)，我們也不難發(fā)現(xiàn)，k-近鄰算法沒(méi)有進(jìn)行數(shù)據(jù)的訓(xùn)練，直接使用未知的數(shù)據(jù)與已知的數(shù)據(jù)進(jìn)行比較，得到結(jié)果。因此，可以說(shuō)k-鄰近算法不具有顯式的學(xué)習(xí)過(guò)程。

二.k-近鄰算法實(shí)戰(zhàn)之約會(huì)網(wǎng)站配對(duì)效果判定

上一小結(jié)學(xué)習(xí)了簡(jiǎn)單的k-近鄰算法的實(shí)現(xiàn)方法，但是這并不是完整的k-近鄰算法流程，k-近鄰算法的一般流程：

收集數(shù)據(jù)：可以使用爬蟲(chóng)進(jìn)行數(shù)據(jù)的收集，也可以使用第三方提供的免費(fèi)或收費(fèi)的數(shù)據(jù)。一般來(lái)講，數(shù)據(jù)放在txt文本文件中，按照一定的格式進(jìn)行存儲(chǔ)，便于解析及處理。
準(zhǔn)備數(shù)據(jù)：使用Python解析、預(yù)處理數(shù)據(jù)。
分析數(shù)據(jù)：可以使用很多方法對(duì)數(shù)據(jù)進(jìn)行分析，例如使用Matplotlib將數(shù)據(jù)可視化。
測(cè)試算法：計(jì)算錯(cuò)誤率。
使用算法：錯(cuò)誤率在可接受范圍內(nèi)，就可以運(yùn)行k-近鄰算法進(jìn)行分類。

已經(jīng)了解了k-近鄰算法的一般流程，下面開(kāi)始進(jìn)入實(shí)戰(zhàn)內(nèi)容。

1.實(shí)戰(zhàn)背景

海倫女士一直使用在線約會(huì)網(wǎng)站尋找適合自己的約會(huì)對(duì)象。盡管約會(huì)網(wǎng)站會(huì)推薦不同的任選，但她并不是喜歡每一個(gè)人。經(jīng)過(guò)一番總結(jié)，她發(fā)現(xiàn)自己交往過(guò)的人可以進(jìn)行如下分類：

不喜歡的人
魅力一般的人
極具魅力的人

海倫收集約會(huì)數(shù)據(jù)已經(jīng)有了一段時(shí)間，她把這些數(shù)據(jù)存放在文本文件datingTestSet.txt中，每個(gè)樣本數(shù)據(jù)占據(jù)一行，總共有1000行。

datingTestSet.txt數(shù)據(jù)下載：

https://github.com/Jack-Cherish/Machine-Learning/blob/master/kNN/2.%E6%B5%B7%E4%BC%A6%E7%BA%A6%E4%BC%9A/datingTestSet.txt

海倫收集的樣本數(shù)據(jù)主要包含以下3種特征：

每年獲得的飛行常客里程數(shù)

玩視頻游戲所消耗時(shí)間百分比

每周消費(fèi)的冰淇淋公升數(shù)

這里不得不吐槽一句，海倫是個(gè)小吃貨啊，冰淇淋公斤數(shù)都影響自己擇偶標(biāo)準(zhǔn)。打開(kāi)txt文本文件，數(shù)據(jù)格式如圖2.1所示。

△ 圖2.1 datingTestSet.txt格式

2.準(zhǔn)備數(shù)據(jù)：數(shù)據(jù)解析

在將上述特征數(shù)據(jù)輸入到分類器前，必須將待處理的數(shù)據(jù)的格式改變?yōu)榉诸惼骺梢越邮盏母袷健７诸惼鹘邮盏臄?shù)據(jù)是什么格式的？

從上小結(jié)已經(jīng)知道，要將數(shù)據(jù)分類兩部分，即特征矩陣和對(duì)應(yīng)的分類標(biāo)簽向量。在kNN_test02.py文件中創(chuàng)建名為file2matrix的函數(shù)，以此來(lái)處理輸入格式問(wèn)題。將datingTestSet.txt放到與kNN_test02.py相同目錄下，編寫代碼如下：

運(yùn)行上述代碼，得到的數(shù)據(jù)解析結(jié)果如圖2.2所示。

△ 圖2.2 數(shù)據(jù)解析結(jié)果

可以看到，我們已經(jīng)順利導(dǎo)入數(shù)據(jù)，并對(duì)數(shù)據(jù)進(jìn)行解析，格式化為分類器需要的數(shù)據(jù)格式。接著我們需要了解數(shù)據(jù)的真正含義。可以通過(guò)友好、直觀的圖形化的方式觀察數(shù)據(jù)。

3.分析數(shù)據(jù)：數(shù)據(jù)可視化

在kNN_test02.py文件中編寫名為showdatas的函數(shù)，用來(lái)將數(shù)據(jù)可視化。編寫代碼如下：

運(yùn)行上述代碼，得到的數(shù)據(jù)解析結(jié)果如圖2.2所示。

△ 圖2.2 數(shù)據(jù)解析結(jié)果

3.分析數(shù)據(jù)：數(shù)據(jù)可視化

在kNN_test02.py文件中編寫名為showdatas的函數(shù)，用來(lái)將數(shù)據(jù)可視化。編寫代碼如下：

運(yùn)行上述代碼，可以看到可視化結(jié)果如圖2.3所示。

△ 圖2.3 數(shù)據(jù)可視化結(jié)果

通過(guò)數(shù)據(jù)可以很直觀的發(fā)現(xiàn)數(shù)據(jù)的規(guī)律，比如以玩游戲所消耗時(shí)間占比與每年獲得的飛行常客里程數(shù)，只考慮這二維的特征信息，給我的感覺(jué)就是海倫喜歡有生活質(zhì)量的男人。

為什么這么說(shuō)呢？每年獲得的飛行常客里程數(shù)表明，海倫喜歡能享受飛行常客獎(jiǎng)勵(lì)計(jì)劃的男人，但是不能經(jīng)常坐飛機(jī)，疲于奔波，滿世界飛。

同時(shí)，這個(gè)男人也要玩視頻游戲，并且占一定時(shí)間比例。能到處飛，又能經(jīng)常玩游戲的男人是什么樣的男人？很顯然，有生活質(zhì)量，并且生活悠閑的人。我的分析，僅僅是通過(guò)可視化的數(shù)據(jù)總結(jié)的個(gè)人看法。我想，每個(gè)人的感受應(yīng)該也是不盡相同。

4.準(zhǔn)備數(shù)據(jù)：數(shù)據(jù)歸一化

表2.1給出了四組樣本，如果想要計(jì)算樣本3和樣本4之間的距離，可以使用歐拉公式計(jì)算。

△ 表2.1 約會(huì)網(wǎng)站樣本數(shù)據(jù)

計(jì)算方法如圖2.4所示。

△ 圖2.4 計(jì)算公式

我們很容易發(fā)現(xiàn)，上面方程中數(shù)字差值最大的屬性對(duì)計(jì)算結(jié)果的影響最大，也就是說(shuō)，每年獲取的飛行常客里程數(shù)對(duì)于計(jì)算結(jié)果的影響將遠(yuǎn)遠(yuǎn)大于表2.1中其他兩個(gè)特征-玩視頻游戲所耗時(shí)間占比和每周消費(fèi)冰淇淋公斤數(shù)的影響。

而產(chǎn)生這種現(xiàn)象的唯一原因，僅僅是因?yàn)轱w行常客里程數(shù)遠(yuǎn)大于其他特征值。但海倫認(rèn)為這三種特征是同等重要的，因此作為三個(gè)等權(quán)重的特征之一，飛行常客里程數(shù)并不應(yīng)該如此嚴(yán)重地影響到計(jì)算結(jié)果。

在處理這種不同取值范圍的特征值時(shí)，我們通常采用的方法是將數(shù)值歸一化，如將取值范圍處理為０到１或者-１到１之間。下面的公式可以將任意取值范圍的特征值轉(zhuǎn)化為０到１區(qū)間內(nèi)的值：

其中min和max分別是數(shù)據(jù)集中的最小特征值和最大特征值。雖然改變數(shù)值取值范圍增加了分類器的復(fù)雜度，但為了得到準(zhǔn)確結(jié)果，我們必須這樣做。在kNN_test02.py文件中編寫名為autoNorm的函數(shù)，用該函數(shù)自動(dòng)將數(shù)據(jù)歸一化。代碼如下：

運(yùn)行上述代碼，得到結(jié)果如圖2.4所示。

△ 圖2.4 歸一化函數(shù)運(yùn)行結(jié)果

從圖2.4的運(yùn)行結(jié)果可以看到，我們已經(jīng)順利將數(shù)據(jù)歸一化了，并且求出了數(shù)據(jù)的取值范圍和數(shù)據(jù)的最小值，這兩個(gè)值是在分類的時(shí)候需要用到的，直接先求解出來(lái)，也算是對(duì)數(shù)據(jù)預(yù)處理了。

5.測(cè)試算法：驗(yàn)證分類器

機(jī)器學(xué)習(xí)算法一個(gè)很重要的工作就是評(píng)估算法的正確率，通常我們只提供已有數(shù)據(jù)的90%作為訓(xùn)練樣本來(lái)訓(xùn)練分類器，而使用其余的10%數(shù)據(jù)去測(cè)試分類器，檢測(cè)分類器的正確率。

需要注意的是，10%的測(cè)試數(shù)據(jù)應(yīng)該是隨機(jī)選擇的，由于海倫提供的數(shù)據(jù)并沒(méi)有按照特定目的來(lái)排序，所以我么你可以隨意選擇10%數(shù)據(jù)而不影響其隨機(jī)性。

為了測(cè)試分類器效果，在kNN_test02.py文件中創(chuàng)建函數(shù)datingClassTest，編寫代碼如下：

運(yùn)行上述代碼，得到結(jié)果如圖2.5所示。

△ 圖2.5 驗(yàn)證分類器結(jié)果

從圖2.5驗(yàn)證分類器結(jié)果中可以看出，錯(cuò)誤率是3%，這是一個(gè)想當(dāng)不錯(cuò)的結(jié)果。我們可以改變函數(shù)datingClassTest內(nèi)變量hoRatio和分類器k的值，檢測(cè)錯(cuò)誤率是否隨著變量值的變化而增加。依賴于分類算法、數(shù)據(jù)集和程序設(shè)置，分類器的輸出結(jié)果可能有很大的不同。

6.使用算法：構(gòu)建完整可用系統(tǒng)

我們可以給海倫一個(gè)小段程序，通過(guò)該程序海倫會(huì)在約會(huì)網(wǎng)站上找到某個(gè)人并輸入他的信息。程序會(huì)給出她對(duì)男方喜歡程度的預(yù)測(cè)值。

在kNN_test02.py文件中創(chuàng)建函數(shù)classifyPerson，代碼如下：

在cmd中，運(yùn)行程序，并輸入數(shù)據(jù)(12,44000,0.5)，預(yù)測(cè)結(jié)果是”你可能有些喜歡這個(gè)人”，也就是這個(gè)人魅力一般。一共有三個(gè)檔次：討厭、有些喜歡、非常喜歡，對(duì)應(yīng)著不喜歡的人、魅力一般的人、極具魅力的人。結(jié)果如圖2.6所示。

△ 圖2.6 預(yù)測(cè)結(jié)果

三、k-近鄰算法實(shí)戰(zhàn)之sklearn手寫數(shù)字識(shí)別

1.實(shí)戰(zhàn)背景

對(duì)于需要識(shí)別的數(shù)字已經(jīng)使用圖形處理軟件，處理成具有相同的色彩和大小：寬高是32像素x32像素。盡管采用本文格式存儲(chǔ)圖像不能有效地利用內(nèi)存空間，但是為了方便理解，我們將圖片轉(zhuǎn)換為文本格式，數(shù)字的文本格式如圖3.1所示。

△ 圖3.1 數(shù)字的文本格式

與此同時(shí)，這些文本格式存儲(chǔ)的數(shù)字的文件命名也很有特點(diǎn)，格式為：數(shù)字的值_該數(shù)字的樣本序號(hào)，如圖3.2所示。

△ 圖3.2 文本數(shù)字的存儲(chǔ)格式

對(duì)于這樣已經(jīng)整理好的文本，我們可以直接使用Python處理，進(jìn)行數(shù)字預(yù)測(cè)。數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集，使用上小結(jié)的方法，自己設(shè)計(jì)k-近鄰算法分類器，可以實(shí)現(xiàn)分類。數(shù)據(jù)集和實(shí)現(xiàn)

代碼下載地址：

https://github.com/Jack-Cherish/Machine-Learning/tree/master/kNN/3.%E6%95%B0%E5%AD%97%E8%AF%86%E5%88%AB

這里不再講解自己用Python寫的k-鄰域分類器的方法，因?yàn)檫@不是本小節(jié)的重點(diǎn)。接下來(lái)，我們將使用強(qiáng)大的第三方Python科學(xué)計(jì)算庫(kù)Sklearn構(gòu)建手寫數(shù)字系統(tǒng)。

2.sklearn簡(jiǎn)介

Scikit learn 也簡(jiǎn)稱sklearn，是機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)中最知名的python模塊之一。sklearn包含了很多機(jī)器學(xué)習(xí)的方式：
Classification 分類
Regression 回歸
Clustering 非監(jiān)督分類
Dimensionality reduction 數(shù)據(jù)降維
Model Selection 模型選擇
Preprocessing 數(shù)據(jù)與處理

使用sklearn可以很方便地讓我們實(shí)現(xiàn)一個(gè)機(jī)器學(xué)習(xí)算法。一個(gè)復(fù)雜度算法的實(shí)現(xiàn)，使用sklearn可能只需要調(diào)用幾行API即可。所以學(xué)習(xí)sklearn，可以有效減少我們特定任務(wù)的實(shí)現(xiàn)周期。

3.sklearn安裝

在安裝sklearn之前，需要安裝兩個(gè)庫(kù)，即numpy+mkl和scipy。不要使用pip3直接進(jìn)行安裝，因?yàn)閜ip3默安裝的是numpy，而不是numpy+mkl。

第三方庫(kù)下載地址：

http://www.lfd.uci.edu/~gohlke/pythonlibs/

這個(gè)網(wǎng)站的使用方法，我在之前的文章里有講過(guò)：

http://blog.csdn.net/c406495762/article/details/60156205

找到對(duì)應(yīng)python版本的numpy+mkl和scipy，下載安裝即可，如圖3.3和圖3.4所示。

△ 圖3.3 numpy+mkl

△ 圖3.4 scipy

使用pip3安裝好這兩個(gè)whl文件后，使用如下指令安裝sklearn。

4.sklearn實(shí)現(xiàn)k-近鄰算法簡(jiǎn)介

官網(wǎng)英文文檔：

http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

sklearn.neighbors模塊實(shí)現(xiàn)了k-近鄰算法，內(nèi)容如圖3.5所示。

△ 圖3.5 sklearn.neighbors

我們使用sklearn.neighbors.KNeighborsClassifier就可以是實(shí)現(xiàn)上小結(jié)，我們實(shí)現(xiàn)的k-近鄰算法。KNeighborsClassifier函數(shù)一共有8個(gè)參數(shù)，如圖3.6所示。

△ 圖3.6 KNeighborsClassifier

KNneighborsClassifier參數(shù)說(shuō)明：

n_neighbors：默認(rèn)為5，就是k-NN的k的值，選取最近的k個(gè)點(diǎn)。

weights：默認(rèn)是uniform，參數(shù)可以是uniform、distance，也可以是用戶自己定義的函數(shù)。uniform是均等的權(quán)重，就說(shuō)所有的鄰近點(diǎn)的權(quán)重都是相等的。distance是不均等的權(quán)重，距離近的點(diǎn)比距離遠(yuǎn)的點(diǎn)的影響大。用戶自定義的函數(shù)，接收距離的數(shù)組，返回一組維數(shù)相同的權(quán)重。

algorithm：快速k近鄰搜索算法，默認(rèn)參數(shù)為auto，可以理解為算法自己決定合適的搜索算法。除此之外，用戶也可以自己指定搜索算法ball_tree、kd_tree、brute方法進(jìn)行搜索，brute是蠻力搜索，也就是線性掃描，當(dāng)訓(xùn)練集很大時(shí)，計(jì)算非常耗時(shí)。

kd_tree，構(gòu)造kd樹(shù)存儲(chǔ)數(shù)據(jù)以便對(duì)其進(jìn)行快速檢索的樹(shù)形數(shù)據(jù)結(jié)構(gòu)，kd樹(shù)也就是數(shù)據(jù)結(jié)構(gòu)中的二叉樹(shù)。以中值切分構(gòu)造的樹(shù)，每個(gè)結(jié)點(diǎn)是一個(gè)超矩形，在維數(shù)小于20時(shí)效率高。

ball tree是為了克服kd樹(shù)高緯失效而發(fā)明的，其構(gòu)造過(guò)程是以質(zhì)心C和半徑r分割樣本空間，每個(gè)節(jié)點(diǎn)是一個(gè)超球體。

leaf_size：默認(rèn)是30，這個(gè)是構(gòu)造的kd樹(shù)和ball樹(shù)的大小。這個(gè)值的設(shè)置會(huì)影響樹(shù)構(gòu)建的速度和搜索速度，同樣也影響著存儲(chǔ)樹(shù)所需的內(nèi)存大小。需要根據(jù)問(wèn)題的性質(zhì)選擇最優(yōu)的大小。

metric：用于距離度量，默認(rèn)度量是minkowski，也就是p=2的歐氏距離(歐幾里德度量)。

p：距離度量公式。在上小結(jié)，我們使用歐氏距離公式進(jìn)行距離度量。除此之外，還有其他的度量方法，例如曼哈頓距離。這個(gè)參數(shù)默認(rèn)為2，也就是默認(rèn)使用歐式距離公式進(jìn)行距離度量。也可以設(shè)置為1，使用曼哈頓距離公式進(jìn)行距離度量。

metric_params：距離公式的其他關(guān)鍵參數(shù)，這個(gè)可以不管，使用默認(rèn)的None即可。

n_jobs：并行處理設(shè)置。默認(rèn)為1，臨近點(diǎn)搜索并行工作數(shù)。如果為-1，那么CPU的所有cores都用于并行工作。

KNeighborsClassifier提供了以一些方法供我們使用，如圖3.7所示。

△ 圖3.5 KNeighborsClassifier的方法

由于篇幅原因，每個(gè)函數(shù)的怎么用，就不具體講解了。官方手冊(cè)已經(jīng)講解的很詳細(xì)了，各位可以查看這個(gè)手冊(cè)進(jìn)行學(xué)習(xí)，我們直接講手寫數(shù)字識(shí)別系統(tǒng)的實(shí)現(xiàn)。

5.sklearn小試牛刀

我們知道數(shù)字圖片是32x32的二進(jìn)制圖像，為了方便計(jì)算，我們可以將32x32的二進(jìn)制圖像轉(zhuǎn)換為1x1024的向量。

對(duì)于sklearn的KNeighborsClassifier輸入可以是矩陣，不用一定轉(zhuǎn)換為向量，不過(guò)為了跟自己寫的k-近鄰算法分類器對(duì)應(yīng)上，這里也做了向量化處理。然后構(gòu)建kNN分類器，利用分類器做預(yù)測(cè)。創(chuàng)建kNN_test04.py文件，編寫代碼如下：

運(yùn)行上述代碼，得到如圖3.8所示的結(jié)果。

△ 圖3.8 sklearn運(yùn)行結(jié)果

上述代碼使用的algorithm參數(shù)是auto，更改algorithm參數(shù)為brute，使用暴力搜索，你會(huì)發(fā)現(xiàn)，運(yùn)行時(shí)間變長(zhǎng)了，變?yōu)?0s+。更改n_neighbors參數(shù)，你會(huì)發(fā)現(xiàn)，不同的值，檢測(cè)精度也是不同的。自己可以嘗試更改這些參數(shù)的設(shè)置，加深對(duì)其函數(shù)的理解。

四、總結(jié)

1.kNN算法的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

簡(jiǎn)單好用，容易理解，精度高，理論成熟，既可以用來(lái)做分類也可以用來(lái)做回歸；

可用于數(shù)值型數(shù)據(jù)和離散型數(shù)據(jù)；

訓(xùn)練時(shí)間復(fù)雜度為O(n)；無(wú)數(shù)據(jù)輸入假定；

對(duì)異常值不敏感

缺點(diǎn)

計(jì)算復(fù)雜性高；空間復(fù)雜性高；

樣本不平衡問(wèn)題（即有些類別的樣本數(shù)量很多，而其它樣本的數(shù)量很少）；

一般數(shù)值很大的時(shí)候不用這個(gè)，計(jì)算量太大。但是單個(gè)樣本又不能太少，否則容易發(fā)生誤分。

最大的缺點(diǎn)是無(wú)法給出數(shù)據(jù)的內(nèi)在含義。

2.其他

關(guān)于algorithm參數(shù)kd_tree的原理，可以查看《統(tǒng)計(jì)學(xué)方法李航》書中的講解；

關(guān)于距離度量的方法還有切比雪夫距離、馬氏距離、巴氏距離等；

下篇文章將講解決策樹(shù)，歡迎各位的捧場(chǎng)！

如有問(wèn)題，請(qǐng)留言。如有錯(cuò)誤，還望指正，謝謝！

五.參考說(shuō)明

本文中提到的電影類別分類、約會(huì)網(wǎng)站配對(duì)效果判定、手寫數(shù)字識(shí)別實(shí)例和數(shù)據(jù)集，均來(lái)自于《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》的第二章k-近鄰算法。

本文的理論部分，參考自《統(tǒng)計(jì)學(xué)習(xí)方法李航》的第三章k近鄰法以及《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》的第二章k-鄰近算法。

點(diǎn)擊左下角“閱讀原文”處，可以進(jìn)入作者的知乎專欄，可以查看高清完整版代碼

還能解鎖更多優(yōu)質(zhì)文章~

— 完 —

誠(chéng)摯招聘

量子位正在招募編輯/記者，工作地點(diǎn)在北京中關(guān)村。期待有才氣、有熱情的同學(xué)加入我們！相關(guān)細(xì)節(jié)，請(qǐng)?jiān)诹孔游还娞?hào)(QbitAI)對(duì)話界面，回復(fù)“招聘”兩個(gè)字。

量子位 QbitAI

?'?' ? 追蹤AI技術(shù)和產(chǎn)品新動(dòng)態(tài)

在線咨詢

上一篇：用HTML怎么制作網(wǎng)頁(yè)呢？
下一篇：我打造了一款，平民化的、高性能、高靈活的表單（vue

您的項(xiàng)目需求

*請(qǐng)認(rèn)真填寫需求信息，我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。

整合營(yíng)銷服務(wù)商

HTML頁(yè)面基本結(jié)構(gòu)和加載過(guò)程

家好，我是皮皮。

前言

一、瀏覽器頁(yè)面加載過(guò)程

三、DOM 解析

二、HTML 與 DOM 有什么不同

三、DOM 解析

四、事件委托

五、總結(jié)

. SourceTree是什么

2. 獲取項(xiàng)目代碼

一. 簡(jiǎn)單k-近鄰算法

二.k-近鄰算法實(shí)戰(zhàn)之約會(huì)網(wǎng)站配對(duì)效果判定

三、k-近鄰算法實(shí)戰(zhàn)之sklearn手寫數(shù)字識(shí)別

四、總結(jié)

五.參考說(shuō)明

您的項(xiàng)目需求