Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 亚洲资源在线,德国一级毛片在线播放,亚洲精品视频在线播放

          整合營(yíng)銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          HTML頁(yè)面基本結(jié)構(gòu)和加載過(guò)程

          家好,我是皮皮。

          前言

          對(duì)于前端來(lái)說(shuō),HTML 都是最基礎(chǔ)的內(nèi)容。

          今天,我們來(lái)了解一下 HTML 和網(wǎng)頁(yè)有什么關(guān)系,以及與 DOM 有什么不同。通過(guò)本講內(nèi)容,你將掌握瀏覽器是怎么處理 HTML 內(nèi)容的,以及在這個(gè)過(guò)程中我們可以進(jìn)行怎樣的處理來(lái)提升網(wǎng)頁(yè)的性能,從而提升用戶的體驗(yàn)。


          一、瀏覽器頁(yè)面加載過(guò)程

          不知你是否有過(guò)這樣的體驗(yàn):當(dāng)打開(kāi)某個(gè)瀏覽器的時(shí)候,發(fā)現(xiàn)一直在轉(zhuǎn)圈,或者等了好長(zhǎng)時(shí)間才打開(kāi)頁(yè)面……

          此時(shí)的你,會(huì)選擇關(guān)掉頁(yè)面還是耐心等待呢?

          這一現(xiàn)象,除了網(wǎng)絡(luò)不穩(wěn)定、網(wǎng)速過(guò)慢等原因,大多數(shù)都是由于頁(yè)面設(shè)計(jì)不合理導(dǎo)致加載時(shí)間過(guò)長(zhǎng)導(dǎo)致的。

          我們都知道,頁(yè)面是用 HTML/CSS/JavaScript 來(lái)編寫的。

          • HTML 的職責(zé)在于告知瀏覽器如何組織頁(yè)面,以及搭建頁(yè)面的基本結(jié)構(gòu);
          • CSS 用來(lái)裝飾 HTML,讓我們的頁(yè)面更好看;
          • JavaScript 則可以豐富頁(yè)面功能,使靜態(tài)頁(yè)面動(dòng)起來(lái)。

          HTML由一系列的元素組成,通常稱為HTML元素。HTML 元素通常被用來(lái)定義一個(gè)網(wǎng)頁(yè)結(jié)構(gòu),基本上所有網(wǎng)頁(yè)都是這樣的 HTML 結(jié)構(gòu):

          <html>
              <head></head>
              <body></body>
          </html>

          其中:

          • html元素是頁(yè)面的根元素,它描述完整的網(wǎng)頁(yè);
          • head元素包含了我們想包含在 HTML 頁(yè)面中,但不希望顯示在網(wǎng)頁(yè)里的內(nèi)容;
          • body元素包含了我們?cè)L問(wèn)頁(yè)面時(shí)所有顯示在頁(yè)面上的內(nèi)容,是用戶最終能看到的內(nèi)容;


          HTML 中的元素特別多,其中還包括可用于 Web Components 的自定義元素。

          前面我們提到頁(yè)面 HTML 結(jié)構(gòu)不合理可能會(huì)導(dǎo)致頁(yè)面響應(yīng)慢,這個(gè)過(guò)程很多時(shí)候體現(xiàn)在<script><style>元素的設(shè)計(jì)上,它們會(huì)影響頁(yè)面加載過(guò)程中對(duì) Javascript 和 CSS 代碼的處理。

          因此,如果想要提升頁(yè)面的加載速度,就需要了解瀏覽器頁(yè)面的加載過(guò)程是怎樣的,從根本上來(lái)解決問(wèn)題。

          瀏覽器在加載頁(yè)面的時(shí)候會(huì)用到 GUI 渲染線程和 JavaScript 引擎線程(更詳細(xì)的瀏覽器加載和渲染機(jī)制將在第 7 講中介紹)。其中,GUI 渲染線程負(fù)責(zé)渲染瀏覽器界面 HTML 元素,JavaScript 引擎線程主要負(fù)責(zé)處理 JavaScript 腳本程序。

          由于 JavaScript 在執(zhí)行過(guò)程中還可能會(huì)改動(dòng)界面結(jié)構(gòu)和樣式,因此它們之間被設(shè)計(jì)為互斥的關(guān)系。也就是說(shuō),當(dāng) JavaScript 引擎執(zhí)行時(shí),GUI 線程會(huì)被掛起。

          以網(wǎng)易云課堂官網(wǎng)為例,我們來(lái)看看網(wǎng)頁(yè)加載流程。

          (1)當(dāng)我們打開(kāi)官網(wǎng)的時(shí)候,瀏覽器會(huì)從服務(wù)器中獲取到 HTML 內(nèi)容。

          (2)瀏覽器獲取到 HTML 內(nèi)容后,就開(kāi)始從上到下解析 HTML 的元素。

          (3)<head>元素內(nèi)容會(huì)先被解析,此時(shí)瀏覽器還沒(méi)開(kāi)始渲染頁(yè)面。

          我們看到<head>元素里有用于描述頁(yè)面元數(shù)據(jù)的<meta>元素,還有一些<link>元素涉及外部資源(如圖片、CSS 樣式等),此時(shí)瀏覽器會(huì)去獲取這些外部資源。除此之外,我們還能看到<head>元素中還包含著不少的<script>元素,這些<script>元素通過(guò)src屬性指向外部資源。

          (4)當(dāng)瀏覽器解析到這里時(shí)(步驟 3),會(huì)暫停解析并下載 JavaScript 腳本。

          (5)當(dāng) JavaScript 腳本下載完成后,瀏覽器的控制權(quán)轉(zhuǎn)交給 JavaScript 引擎。當(dāng)腳本執(zhí)行完成后,控制權(quán)會(huì)交回給渲染引擎,渲染引擎繼續(xù)往下解析 HTML 頁(yè)面。

          (6)此時(shí)<body>元素內(nèi)容開(kāi)始被解析,瀏覽器開(kāi)始渲染頁(yè)面。

          在這個(gè)過(guò)程中,我們看到<head>中放置的<script>元素會(huì)阻塞頁(yè)面的渲染過(guò)程:把 JavaScript 放在<head>里,意味著必須把所有 JavaScript 代碼都下載、解析和解釋完成后,才能開(kāi)始渲染頁(yè)面。

          到這里,我們就明白了:如果外部腳本加載時(shí)間很長(zhǎng)(比如一直無(wú)法完成下載),就會(huì)造成網(wǎng)頁(yè)長(zhǎng)時(shí)間失去響應(yīng),瀏覽器就會(huì)呈現(xiàn)“假死”狀態(tài),用戶體驗(yàn)會(huì)變得很糟糕。

          因此,對(duì)于對(duì)性能要求較高、需要快速將內(nèi)容呈現(xiàn)給用戶的網(wǎng)頁(yè),常常會(huì)將 JavaScript 腳本放在<body>的最后面。這樣可以避免資源阻塞,頁(yè)面得以迅速展示。我們還可以使用defer/async/preload等屬性來(lái)標(biāo)記<script>標(biāo)簽,來(lái)控制 JavaScript 的加載順序。

          百度首頁(yè)

          三、DOM 解析

          對(duì)于百度這樣的搜索引擎來(lái)說(shuō),必須要在最短的時(shí)間內(nèi)提供到可用的服務(wù)給用戶,其中就包括搜索框的顯示及可交互,除此之外的內(nèi)容優(yōu)先級(jí)會(huì)相對(duì)較低。

          瀏覽器在渲染頁(yè)面的過(guò)程需要解析 HTML、CSS 以得到 DOM 樹(shù)和 CSS 規(guī)則樹(shù),它們結(jié)合后才生成最終的渲染樹(shù)并渲染。因此,我們還常常將 CSS 放在<head>里,可用來(lái)避免瀏覽器渲染的重復(fù)計(jì)算。


          二、HTML 與 DOM 有什么不同

          我們知道<p>是 HTML 元素,但又常常將<p>這樣一個(gè)元素稱為 DOM 節(jié)點(diǎn),那么 HTML 和 DOM 到底有什么不一樣呢?

          根據(jù) MDN 官方描述:文檔對(duì)象模型(DOM)是 HTML 和 XML 文檔的編程接口。

          也就是說(shuō),DOM 是用來(lái)操作和描述 HTML 文檔的接口。如果說(shuō)瀏覽器用 HTML 來(lái)描述網(wǎng)頁(yè)的結(jié)構(gòu)并渲染,那么使用 DOM 則可以獲取網(wǎng)頁(yè)的結(jié)構(gòu)并進(jìn)行操作。一般來(lái)說(shuō),我們使用 JavaScript 來(lái)操作 DOM 接口,從而實(shí)現(xiàn)頁(yè)面的動(dòng)態(tài)變化,以及用戶的交互操作。

          在開(kāi)發(fā)過(guò)程中,常常用對(duì)象的方式來(lái)描述某一類事物,用特定的結(jié)構(gòu)集合來(lái)描述某些事物的集合。DOM 也一樣,它將 HTML 文檔解析成一個(gè)由 DOM 節(jié)點(diǎn)以及包含屬性和方法的相關(guān)對(duì)象組成的結(jié)構(gòu)集合。


          三、DOM 解析

          我們常見(jiàn)的 HTML 元素,在瀏覽器中會(huì)被解析成節(jié)點(diǎn)。比如下面這樣的 HTML 內(nèi)容:

          <html>
              <head>
                  <title>標(biāo)題</title>
              </head>
              <body>
                  <a href='xx.com'>我的超鏈接</a>
                  <h1>頁(yè)面第一標(biāo)題</h1>
              </body>
          </html>

          打開(kāi)控制臺(tái) Elements 面板,可以看到這樣的 HTML 結(jié)構(gòu),如下圖所示:

          在瀏覽器中,上面的 HTML 會(huì)被解析成這樣的 DOM 樹(shù),如下圖所示:


          我們都知道,對(duì)于樹(shù)狀結(jié)構(gòu)來(lái)說(shuō),常常使用parent/child/sibling等方式來(lái)描述各個(gè)節(jié)點(diǎn)之間的關(guān)系,對(duì)于 DOM 樹(shù)也不例外。

          舉個(gè)例子,我們常常會(huì)對(duì)頁(yè)面功能進(jìn)行抽象,并封裝成組件。但不管怎么進(jìn)行整理,頁(yè)面最終依然是基于 DOM 的樹(shù)狀結(jié)構(gòu),因此組件也是呈樹(shù)狀結(jié)構(gòu),組件間的關(guān)系也同樣可以使用parent/child/sibling這樣的方式來(lái)描述。同時(shí),現(xiàn)在大多數(shù)應(yīng)用程序同樣以root為根節(jié)點(diǎn)展開(kāi),我們進(jìn)行狀態(tài)管理、數(shù)據(jù)管理也常常會(huì)呈現(xiàn)出樹(shù)狀結(jié)構(gòu)。


          四、事件委托

          我們知道,瀏覽器中各個(gè)元素從頁(yè)面中接收事件的順序包括事件捕獲階段、目標(biāo)階段、事件冒泡階段。其中,基于事件冒泡機(jī)制,我們可以實(shí)現(xiàn)將子元素的事件委托給父級(jí)元素來(lái)進(jìn)行處理,這便是事件委托。

          如果我們?cè)诿總€(gè)元素上都進(jìn)行監(jiān)聽(tīng)的話,則需要綁定三個(gè)事件;(假設(shè)頁(yè)面上有a,b,c三個(gè)兄弟節(jié)點(diǎn))

          function clickEventFunction(e) {
            console.log(e.target === this); // logs `true`
            // 這里可以用 this 獲取當(dāng)前元素
          }
          // 元素a,b,c綁定
          element2.addEventListener("click", clickEventFunction, false);
          element5.addEventListener("click", clickEventFunction, false);
          element8.addEventListener("click", clickEventFunction, false);

          使用事件委托,可以通過(guò)將事件添加到它們的父節(jié)點(diǎn),而將事件委托給父節(jié)點(diǎn)來(lái)觸發(fā)處理函數(shù):

          function clickEventFunction(event) {
            console.log(e.target === this); // logs `false`
            // 獲取被點(diǎn)擊的元素
            const eventTarget = event.target;
            // 檢查源元素`event.target`是否符合預(yù)期
            // 此處控制廣告面板的展示內(nèi)容
          }
          // 元素1綁定
          element1.addEventListener("click", clickEventFunction, false);

          這樣能解決什么問(wèn)題呢?

          • 綁定子元素會(huì)綁定很多次的事件,而綁定父元素只需要一次綁定。
          • 將事件委托給父節(jié)點(diǎn),這樣我們對(duì)子元素的增加和刪除、移動(dòng)等,都不需要重新進(jìn)行事件綁定。

          常見(jiàn)的使用方式主要是上述這種列表結(jié)構(gòu),每個(gè)選項(xiàng)都可以進(jìn)行編輯、刪除、添加標(biāo)簽等功能,而把事件委托給父元素,不管我們新增、刪除、更新選項(xiàng),都不需要手動(dòng)去綁定和移除事件。

          如果在列表數(shù)量?jī)?nèi)容較大的時(shí)候,對(duì)成千上萬(wàn)節(jié)點(diǎn)進(jìn)行事件監(jiān)聽(tīng),也是不小的性能消耗。使用事件委托的方式,我們可以大量減少瀏覽器對(duì)元素的監(jiān)聽(tīng),也是在前端性能優(yōu)化中比較簡(jiǎn)單和基礎(chǔ)的一個(gè)做法。

          注意:

          1. 如果我們直接在document.body上進(jìn)行事件委托,可能會(huì)帶來(lái)額外的問(wèn)題;
          2. 由于瀏覽器在進(jìn)行頁(yè)面渲染的時(shí)候會(huì)有合成的步驟,合成的過(guò)程會(huì)先將頁(yè)面分成不同的合成層,而用戶與瀏覽器進(jìn)行交互的時(shí)候需要接收事件。此時(shí),瀏覽器會(huì)將頁(yè)面上具有事件處理程序的區(qū)域進(jìn)行標(biāo)記,被標(biāo)記的區(qū)域會(huì)與主線程進(jìn)行通信。
          3. 如果我們document.body上被綁定了事件,這時(shí)候整個(gè)頁(yè)面都會(huì)被標(biāo)記;
          4. 即使我們的頁(yè)面不關(guān)心某些部分的用戶交互,合成器線程也必須與主線程進(jìn)行通信,并在每次事件發(fā)生時(shí)進(jìn)行等待。這種情況,我們可以使用passive: true選項(xiàng)來(lái)解決


          五、總結(jié)

          我們了解了 HTML 的作用,以及它是如何影響瀏覽器中頁(yè)面的加載過(guò)程的,同時(shí)還介紹了使用 DOM 接口來(lái)控制 HTML 的展示和功能邏輯。我們了解了DOM解析事件委托等相關(guān)概念。

          . SourceTree是什么

          • 擁有可視化界面的項(xiàng)目版本控制軟件,適用于git項(xiàng)目管理
          • window、mac可用

          2. 獲取項(xiàng)目代碼

          1. 點(diǎn)擊克隆/新建

          2. 在彈出框中輸入項(xiàng)目地址,http或者ssh地址都可以

          如果箭頭指向的倉(cāng)庫(kù)類型表明“這不是一個(gè)標(biāo)準(zhǔn)的Git倉(cāng)庫(kù)”,可能是有以下原因

          1) 項(xiàng)目地址獲取錯(cuò)誤

          2) 沒(méi)有項(xiàng)目訪問(wèn)權(quán)限

          3. 點(diǎn)擊“克隆”,等待項(xiàng)目克隆完成,完成后,左側(cè)只有一個(gè)分支master

          克隆完成后,得到的是發(fā)布后的master源碼,如果想要獲取最新的正在開(kāi)發(fā)中的源碼,需要對(duì)項(xiàng)目流進(jìn)行初始化,點(diǎn)擊“Git工作流”

          直接點(diǎn)“確定”,獲取develop分支源碼

          開(kāi)發(fā)任務(wù)都是在develop分支上完成的

          4. 分支共有5種類型

          1) master,最終發(fā)布版本,整個(gè)項(xiàng)目中有且只有一個(gè)

          2) develop,項(xiàng)目的開(kāi)發(fā)分支,原則上項(xiàng)目中有且只有一個(gè)

          3) feature,功能分支,用于開(kāi)發(fā)一個(gè)新的功能

          4) release,預(yù)發(fā)布版本,介于develop和master之間的一個(gè)版本,主要用于測(cè)試

          5) hotfix,修復(fù)補(bǔ)丁,用于修復(fù)master上的bug,直接作用于master

          5. master和develop上文中已介紹過(guò),當(dāng)開(kāi)發(fā)中需要增加一個(gè)新的功能時(shí),可新建feature分支,用于增加新功能,并且不影響開(kāi)發(fā)中的develop源碼,當(dāng)新功能增加完成后,完成feature分支,將新功能合并到develop中,更新develop上的代碼

          1) 新建feature。首先當(dāng)前開(kāi)發(fā)分支指向develop,點(diǎn)擊“Git工作流”

          選擇“建立新的分支”

          在預(yù)覽中可看到,feature分支是從develop分出的,輸入功能名稱,點(diǎn)擊確定,項(xiàng)目結(jié)構(gòu)中增加feature分支,并且當(dāng)前開(kāi)發(fā)分支指向新建的feature分支

          2) 在F_add_feature分支下進(jìn)行開(kāi)發(fā)任務(wù),并提交

          以上操作分別增加了feature_1、feature_2、feature_3文件,共提交3次,現(xiàn)項(xiàng)目文件夾下共三個(gè)文件

          當(dāng)切換為develop分支后,會(huì)發(fā)現(xiàn),在develop下并沒(méi)有新增的三個(gè)文件,說(shuō)明在feature下進(jìn)行操作,并不影響develop分支源碼

          3) 完成feature開(kāi)發(fā)后,將feature中的源碼合并到develop分支。將當(dāng)前分支指向F_add_feature分支,點(diǎn)擊“Git工作流”,選擇“完成功能”

          預(yù)覽中,表明feature分支將合并到develop,點(diǎn)擊確定,進(jìn)行提交合并,合并成功后

          4) 需要再增加新的功能時(shí),重復(fù)以上操作即可

          5) 當(dāng)多人協(xié)作開(kāi)發(fā)時(shí),可能會(huì)出現(xiàn),不同人員對(duì)同一文件進(jìn)行操作,從而引起合并沖突,對(duì)這種情況進(jìn)行模擬,在當(dāng)前新建兩個(gè)feature,分別對(duì)feature_1文件進(jìn)行修改,然后分別合并

          feature_1在feature_1.txt下做如下操作

          feature_2在feature_1.txt下做如下操作

          先后合并F_feature_1和F_feature_2,會(huì)出現(xiàn)沖突

          點(diǎn)擊close,查看未提交的更改,提示feature_1.txt出現(xiàn)沖突,

          打開(kāi)feature_1.txt

          出現(xiàn)<<<<<<< HEAD、=======、>>>>>>> feature/F_feature_2,HEAD和=號(hào)之間表示當(dāng)前分支下的代碼,=號(hào)和>>>>>>> feature/F_feature_2之間表示要合并的分支下的代碼,>>>>>>> feature/F_feature_2表示了要合并的分支的分支名稱,

          根據(jù)情況區(qū)分要保留的代碼,要?jiǎng)h除的代碼,最后再刪除<<<<<<< HEAD、=======、和>>>>>>> feature/F_feature_2

          將修改的代碼再進(jìn)行一次提交

          一旦出現(xiàn)feature合并沖突,要合并的feature分支不會(huì)被刪除,如F_feature_2,確保合并沒(méi)有問(wèn)題后,可手動(dòng)刪除F_feature_2

          6. 當(dāng)開(kāi)發(fā)到一定階段,可以發(fā)布測(cè)試版本時(shí),可以從develop分支,建立release分支,進(jìn)入預(yù)發(fā)布測(cè)試階段。點(diǎn)擊“Git工作流”,選擇“建立新的發(fā)布版本”

          預(yù)覽中可以看到,release是從develop分出的,輸入發(fā)布版本名‘R_v1.0’,點(diǎn)擊確定

          R_v1.0為階段性發(fā)布版本,主要用于發(fā)布前進(jìn)行測(cè)試,后續(xù)的開(kāi)發(fā)工作仍舊在develop上進(jìn)行,如果在測(cè)試過(guò)程中發(fā)現(xiàn)問(wèn)題,直接在release上進(jìn)行修改,修改完成后進(jìn)行提交

          7. 對(duì)release分支R_v1.0進(jìn)行兩次修改后,測(cè)試完成,可以進(jìn)行正式發(fā)布,在當(dāng)前分支指向R_v1.0分支下,點(diǎn)擊“Git工作流”,選擇“完成發(fā)布版本”

          在預(yù)覽中可以看到,R_v1.0向develop和master分別合并,點(diǎn)擊確定,完成正式發(fā)布。

          完成合并后,默認(rèn)指向develop為當(dāng)前分支,master增加多個(gè)版本更新,將master分支推送到origin,完成線上發(fā)布

          8. 正式版本發(fā)布后,develop可繼續(xù)進(jìn)行后續(xù)開(kāi)發(fā),當(dāng)正式版本出現(xiàn)問(wèn)題時(shí),需要進(jìn)行問(wèn)題的修改,可以在master分支建立修改補(bǔ)丁hotfix。將當(dāng)前分支切換到master,點(diǎn)擊“Git工作流”,選擇“建立新的修復(fù)補(bǔ)丁”

          預(yù)覽中hotfix分支是從master拉去出來(lái)的,輸入修復(fù)補(bǔ)丁名,點(diǎn)確定

          在該分支下進(jìn)行master的問(wèn)題修改,修改完成后進(jìn)行提交。當(dāng)所有補(bǔ)丁問(wèn)題修改完成后,點(diǎn)擊“Git工作流”,選擇“完成修復(fù)補(bǔ)丁”

          預(yù)覽中,H_fix_1向master和develop分別合并,點(diǎn)擊確定,完成分支合并。

          合并完成后,默認(rèn)當(dāng)前分支為develop,master分支有版本需要更新,當(dāng)前分支切換為master,進(jìn)行推送,完成補(bǔ)丁修復(fù)。

          9. 在完成發(fā)布版本和完成修復(fù)補(bǔ)丁時(shí),如果遇到?jīng)_突,可仿照上述5進(jìn)行沖突修改,再進(jìn)行后續(xù)操作

          者:崔家華

          東北大學(xué)|模式識(shí)別與智能系統(tǒng)研究生

          量子位 已獲授權(quán)編輯發(fā)布

          在模式識(shí)別領(lǐng)域中,K-近鄰算法(KNN算法)是一種用于分類和回歸的非參數(shù)統(tǒng)計(jì)方法。

          在這篇文章中,作者先詳細(xì)介紹了K-近鄰算法的基礎(chǔ)知識(shí),接著在Python 3中演示了約會(huì)網(wǎng)站配對(duì)實(shí)戰(zhàn)和sklearn手寫數(shù)字識(shí)別。形象生動(dòng),簡(jiǎn)明易懂。

          在文章正式開(kāi)始前,可能你需要這些信息——

          Github代碼獲取:

          https://github.com/Jack-Cherish/Machine-Learning/

          Python版本: Python3.x

          運(yùn)行平臺(tái): Windows

          IDE: Sublime text3

          想入門的你還不快來(lái)上車。

          一. 簡(jiǎn)單k-近鄰算法

          本文將從k-鄰近算法的思想開(kāi)始講起,使用python3一步一步編寫代碼進(jìn)行實(shí)戰(zhàn)訓(xùn)練。并且,我也提供了相應(yīng)的數(shù)據(jù)集,對(duì)代碼進(jìn)行了詳細(xì)的注釋。除此之外,本文也對(duì)sklearn實(shí)現(xiàn)k-鄰近算法的方法進(jìn)行了講解。

          實(shí)戰(zhàn)實(shí)例:電影類別分類、約會(huì)網(wǎng)站配對(duì)效果判定、手寫數(shù)字識(shí)別。

          本文出現(xiàn)的所有代碼和數(shù)據(jù)集,均可在我的github上下載,歡迎Follow、Star——

          下載地址:

          https://github.com/Jack-Cherish/Machine-Learning/tree/master/kNN

          1.k-近鄰法簡(jiǎn)介

          k近鄰法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一種基本分類與回歸方法。

          它的工作原理是:存在一個(gè)樣本數(shù)據(jù)集合,也稱作為訓(xùn)練樣本集,并且樣本集中每個(gè)數(shù)據(jù)都存在標(biāo)簽,即我們知道樣本集中每一個(gè)數(shù)據(jù)與所屬分類的對(duì)應(yīng)關(guān)系。

          輸入沒(méi)有標(biāo)簽的新數(shù)據(jù)后,將新的數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較,然后算法提取樣本最相似數(shù)據(jù)(最近鄰)的分類標(biāo)簽。一般來(lái)說(shuō),我們只選擇樣本數(shù)據(jù)集中前k個(gè)最相似的數(shù)據(jù),這就是k-近鄰算法中k的出處,通常k是不大于20的整數(shù)。

          最后,選擇k個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,作為新數(shù)據(jù)的分類。

          舉個(gè)簡(jiǎn)單的例子,我們可以使用k-近鄰算法分類一個(gè)電影是愛(ài)情片還是動(dòng)作片。

          表1.1 每部電影的打斗鏡頭數(shù)、接吻鏡頭數(shù)以及電影類型

          表1.1 就是我們已有的數(shù)據(jù)集合,也就是訓(xùn)練樣本集。這個(gè)數(shù)據(jù)集有兩個(gè)特征,即打斗鏡頭數(shù)和接吻鏡頭數(shù)。除此之外,我們也知道每個(gè)電影的所屬類型,即分類標(biāo)簽。用肉眼粗略地觀察,接吻鏡頭多的,是愛(ài)情片。打斗鏡頭多的,是動(dòng)作片。

          以我們多年的看片經(jīng)驗(yàn),這個(gè)分類還算合理。如果現(xiàn)在給我一部電影,你告訴我這個(gè)電影打斗鏡頭數(shù)和接吻鏡頭數(shù)。

          不告訴我這個(gè)電影類型,我可以根據(jù)你給我的信息進(jìn)行判斷,這個(gè)電影是屬于愛(ài)情片還是動(dòng)作片。而k-近鄰算法也可以像我們?nèi)艘粯幼龅竭@一點(diǎn),不同的地方在于,我們的經(jīng)驗(yàn)更”牛逼”,而k-鄰近算法是靠已有的數(shù)據(jù)。

          比如,你告訴我這個(gè)電影打斗鏡頭數(shù)為2,接吻鏡頭數(shù)為102,我的經(jīng)驗(yàn)會(huì)告訴你這個(gè)是愛(ài)情片,k-近鄰算法也會(huì)告訴你這個(gè)是愛(ài)情片。

          你又告訴我另一個(gè)電影打斗鏡頭數(shù)為49,接吻鏡頭數(shù)為51,我”邪惡”的經(jīng)驗(yàn)可能會(huì)告訴你,這有可能是個(gè)”愛(ài)情動(dòng)作片”,畫面太美,我不敢想象。 (如果說(shuō),你不知道”愛(ài)情動(dòng)作片”是什么?請(qǐng)?jiān)u論留言與我聯(lián)系,我需要你這樣像我一樣純潔的朋友。)

          但是k-近鄰算法不會(huì)告訴你這些,因?yàn)樵谒难劾铮娪邦愋椭挥袗?ài)情片和動(dòng)作片,它會(huì)提取樣本集中特征最相似數(shù)據(jù)(最鄰近)的分類標(biāo)簽,得到的結(jié)果可能是愛(ài)情片,也可能是動(dòng)作片,但絕不會(huì)是”愛(ài)情動(dòng)作片”。當(dāng)然,這些取決于數(shù)據(jù)集的大小以及最近鄰的判斷標(biāo)準(zhǔn)等因素。

          2.距離度量

          我們已經(jīng)知道k-近鄰算法根據(jù)特征比較,然后提取樣本集中特征最相似數(shù)據(jù)(最鄰近)的分類標(biāo)簽。那么,如何進(jìn)行比較呢?比如,我們還是以表1.1為例,怎么判斷紅色圓點(diǎn)標(biāo)記的電影所屬的類別呢? 如圖1.1所示。

          圖1.1 電影分類

          我們可以從散點(diǎn)圖大致推斷,這個(gè)紅色圓點(diǎn)標(biāo)記的電影可能屬于動(dòng)作片,因?yàn)榫嚯x已知的那兩個(gè)動(dòng)作片的圓點(diǎn)更近。k-近鄰算法用什么方法進(jìn)行判斷呢?

          沒(méi)錯(cuò),就是距離度量。這個(gè)電影分類的例子有2個(gè)特征,也就是在2維實(shí)數(shù)向量空間,可以使用我們高中學(xué)過(guò)的兩點(diǎn)距離公式計(jì)算距離,如圖1.2所示。

          通過(guò)計(jì)算,我們可以得到如下結(jié)果:

          (101,20)->動(dòng)作片(108,5)的距離約為16.55

          (101,20)->動(dòng)作片(115,8)的距離約為18.44

          (101,20)->愛(ài)情片(5,89)的距離約為118.22

          (101,20)->愛(ài)情片(1,101)的距離約為128.69

          通過(guò)計(jì)算可知,紅色圓點(diǎn)標(biāo)記的電影到動(dòng)作片 (108,5)的距離最近,為16.55。如果算法直接根據(jù)這個(gè)結(jié)果,判斷該紅色圓點(diǎn)標(biāo)記的電影為動(dòng)作片,這個(gè)算法就是最近鄰算法,而非k-近鄰算法。那么k-鄰近算法是什么呢?k-近鄰算法步驟如下:

          計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離;

          按照距離遞增次序排序;

          選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn);

          確定前k個(gè)點(diǎn)所在類別的出現(xiàn)頻率;

          返回前k個(gè)點(diǎn)所出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類。

          比如,現(xiàn)在我這個(gè)k值取3,那么在電影例子中,按距離依次排序的三個(gè)點(diǎn)分別是動(dòng)作片(108,5)、動(dòng)作片(115,8)、愛(ài)情片(5,89)。在這三個(gè)點(diǎn)中,動(dòng)作片出現(xiàn)的頻率為三分之二,愛(ài)情片出現(xiàn)的頻率為三分之一,所以該紅色圓點(diǎn)標(biāo)記的電影為動(dòng)作片。

          這個(gè)判別過(guò)程就是k-近鄰算法。

          3.Python3代碼實(shí)現(xiàn)

          我們已經(jīng)知道了k-近鄰算法的原理,那么接下來(lái)就是使用Python3實(shí)現(xiàn)該算法,依然以電影分類為例。

          (1)準(zhǔn)備數(shù)據(jù)集

          對(duì)于表1.1中的數(shù)據(jù),我們可以使用numpy直接創(chuàng)建,代碼如下:

          運(yùn)行結(jié)果,如圖1.3所示:

          圖1.3 運(yùn)行結(jié)果

          (2)k-近鄰算法

          根據(jù)兩點(diǎn)距離公式,計(jì)算距離,選擇距離最小的前k個(gè)點(diǎn),并返回分類結(jié)果。

          運(yùn)行結(jié)果,如圖1.4所示:

          圖1.4 運(yùn)行結(jié)果

          可以看到,分類結(jié)果根據(jù)我們的”經(jīng)驗(yàn)”,是正確的,盡管這種分類比較耗時(shí),用時(shí)1.4s。

          到這里,也許有人早已經(jīng)發(fā)現(xiàn),電影例子中的特征是2維的,這樣的距離度量可以用兩 點(diǎn)距離公式計(jì)算,但是如果是更高維的呢?

          對(duì),沒(méi)錯(cuò)。我們可以用歐氏距離(也稱歐幾里德度量),如圖1.5所示。我們高中所學(xué)的兩點(diǎn)距離公式就是歐氏距離在二維空間上的公式,也就是歐氏距離的n的值為2的情況。

          圖1.5 歐氏距離公式

          看到這里,有人可能會(huì)問(wèn):“分類器何種情況下會(huì)出錯(cuò)?”或者“答案是否總是正確的?”答案是否定的,分類器并不會(huì)得到百分百正確的結(jié)果,我們可以使用多種方法檢測(cè)分類器的正確率。此外分類器的性能也會(huì)受到多種因素的影響,如分類器設(shè)置和數(shù)據(jù)集等。

          不同的算法在不同數(shù)據(jù)集上的表現(xiàn)可能完全不同。為了測(cè)試分類器的效果,我們可以使用已知答案的數(shù)據(jù),當(dāng)然答案不能告訴分類器,檢驗(yàn)分類器給出的結(jié)果是否符合預(yù)期結(jié)果。

          通過(guò)大量的測(cè)試數(shù)據(jù),我們可以得到分類器的錯(cuò)誤率-分類器給出錯(cuò)誤結(jié)果的次數(shù)除以測(cè)試執(zhí)行的總數(shù)。

          錯(cuò)誤率是常用的評(píng)估方法,主要用于評(píng)估分類器在某個(gè)數(shù)據(jù)集上的執(zhí)行效果。完美分類器的錯(cuò)誤率為0,最差分類器的錯(cuò)誤率是1.0。

          同時(shí),我們也不難發(fā)現(xiàn),k-近鄰算法沒(méi)有進(jìn)行數(shù)據(jù)的訓(xùn)練,直接使用未知的數(shù)據(jù)與已知的數(shù)據(jù)進(jìn)行比較,得到結(jié)果。因此,可以說(shuō)k-鄰近算法不具有顯式的學(xué)習(xí)過(guò)程。

          二.k-近鄰算法實(shí)戰(zhàn)之約會(huì)網(wǎng)站配對(duì)效果判定

          上一小結(jié)學(xué)習(xí)了簡(jiǎn)單的k-近鄰算法的實(shí)現(xiàn)方法,但是這并不是完整的k-近鄰算法流程,k-近鄰算法的一般流程:

          • 收集數(shù)據(jù):可以使用爬蟲(chóng)進(jìn)行數(shù)據(jù)的收集,也可以使用第三方提供的免費(fèi)或收費(fèi)的數(shù)據(jù)。一般來(lái)講,數(shù)據(jù)放在txt文本文件中,按照一定的格式進(jìn)行存儲(chǔ),便于解析及處理。

          • 準(zhǔn)備數(shù)據(jù):使用Python解析、預(yù)處理數(shù)據(jù)。

          • 分析數(shù)據(jù):可以使用很多方法對(duì)數(shù)據(jù)進(jìn)行分析,例如使用Matplotlib將數(shù)據(jù)可視化。

          • 測(cè)試算法:計(jì)算錯(cuò)誤率。

          • 使用算法:錯(cuò)誤率在可接受范圍內(nèi),就可以運(yùn)行k-近鄰算法進(jìn)行分類。

          已經(jīng)了解了k-近鄰算法的一般流程,下面開(kāi)始進(jìn)入實(shí)戰(zhàn)內(nèi)容。

          1.實(shí)戰(zhàn)背景

          海倫女士一直使用在線約會(huì)網(wǎng)站尋找適合自己的約會(huì)對(duì)象。盡管約會(huì)網(wǎng)站會(huì)推薦不同的任選,但她并不是喜歡每一個(gè)人。經(jīng)過(guò)一番總結(jié),她發(fā)現(xiàn)自己交往過(guò)的人可以進(jìn)行如下分類:

          • 不喜歡的人

          • 魅力一般的人

          • 極具魅力的人

          海倫收集約會(huì)數(shù)據(jù)已經(jīng)有了一段時(shí)間,她把這些數(shù)據(jù)存放在文本文件datingTestSet.txt中,每個(gè)樣本數(shù)據(jù)占據(jù)一行,總共有1000行。

          datingTestSet.txt數(shù)據(jù)下載:

          https://github.com/Jack-Cherish/Machine-Learning/blob/master/kNN/2.%E6%B5%B7%E4%BC%A6%E7%BA%A6%E4%BC%9A/datingTestSet.txt

          海倫收集的樣本數(shù)據(jù)主要包含以下3種特征:

          每年獲得的飛行常客里程數(shù)

          玩視頻游戲所消耗時(shí)間百分比

          每周消費(fèi)的冰淇淋公升數(shù)

          這里不得不吐槽一句,海倫是個(gè)小吃貨啊,冰淇淋公斤數(shù)都影響自己擇偶標(biāo)準(zhǔn)。打開(kāi)txt文本文件,數(shù)據(jù)格式如圖2.1所示。

          圖2.1 datingTestSet.txt格式

          2.準(zhǔn)備數(shù)據(jù):數(shù)據(jù)解析

          在將上述特征數(shù)據(jù)輸入到分類器前,必須將待處理的數(shù)據(jù)的格式改變?yōu)榉诸惼骺梢越邮盏母袷健7诸惼鹘邮盏臄?shù)據(jù)是什么格式的?

          從上小結(jié)已經(jīng)知道,要將數(shù)據(jù)分類兩部分,即特征矩陣和對(duì)應(yīng)的分類標(biāo)簽向量。在kNN_test02.py文件中創(chuàng)建名為file2matrix的函數(shù),以此來(lái)處理輸入格式問(wèn)題。 將datingTestSet.txt放到與kNN_test02.py相同目錄下,編寫代碼如下:

          運(yùn)行上述代碼,得到的數(shù)據(jù)解析結(jié)果如圖2.2所示。

          圖2.2 數(shù)據(jù)解析結(jié)果

          可以看到,我們已經(jīng)順利導(dǎo)入數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行解析,格式化為分類器需要的數(shù)據(jù)格式。接著我們需要了解數(shù)據(jù)的真正含義。可以通過(guò)友好、直觀的圖形化的方式觀察數(shù)據(jù)。

          3.分析數(shù)據(jù):數(shù)據(jù)可視化

          在kNN_test02.py文件中編寫名為showdatas的函數(shù),用來(lái)將數(shù)據(jù)可視化。編寫代碼如下:

          運(yùn)行上述代碼,得到的數(shù)據(jù)解析結(jié)果如圖2.2所示。

          圖2.2 數(shù)據(jù)解析結(jié)果

          可以看到,我們已經(jīng)順利導(dǎo)入數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行解析,格式化為分類器需要的數(shù)據(jù)格式。接著我們需要了解數(shù)據(jù)的真正含義。可以通過(guò)友好、直觀的圖形化的方式觀察數(shù)據(jù)。

          3.分析數(shù)據(jù):數(shù)據(jù)可視化

          在kNN_test02.py文件中編寫名為showdatas的函數(shù),用來(lái)將數(shù)據(jù)可視化。編寫代碼如下:

          運(yùn)行上述代碼,可以看到可視化結(jié)果如圖2.3所示。

          圖2.3 數(shù)據(jù)可視化結(jié)果

          通過(guò)數(shù)據(jù)可以很直觀的發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,比如以玩游戲所消耗時(shí)間占比與每年獲得的飛行常客里程數(shù),只考慮這二維的特征信息,給我的感覺(jué)就是海倫喜歡有生活質(zhì)量的男人。

          為什么這么說(shuō)呢?每年獲得的飛行常客里程數(shù)表明,海倫喜歡能享受飛行常客獎(jiǎng)勵(lì)計(jì)劃的男人,但是不能經(jīng)常坐飛機(jī),疲于奔波,滿世界飛。

          同時(shí),這個(gè)男人也要玩視頻游戲,并且占一定時(shí)間比例。能到處飛,又能經(jīng)常玩游戲的男人是什么樣的男人?很顯然,有生活質(zhì)量,并且生活悠閑的人。我的分析,僅僅是通過(guò)可視化的數(shù)據(jù)總結(jié)的個(gè)人看法。我想,每個(gè)人的感受應(yīng)該也是不盡相同。

          4.準(zhǔn)備數(shù)據(jù):數(shù)據(jù)歸一化

          表2.1給出了四組樣本,如果想要計(jì)算樣本3和樣本4之間的距離,可以使用歐拉公式計(jì)算。

          表2.1 約會(huì)網(wǎng)站樣本數(shù)據(jù)

          計(jì)算方法如圖2.4所示。

          圖2.4 計(jì)算公式

          我們很容易發(fā)現(xiàn),上面方程中數(shù)字差值最大的屬性對(duì)計(jì)算結(jié)果的影響最大,也就是說(shuō),每年獲取的飛行常客里程數(shù)對(duì)于計(jì)算結(jié)果的影響將遠(yuǎn)遠(yuǎn)大于表2.1中其他兩個(gè)特征-玩視頻游戲所耗時(shí)間占比和每周消費(fèi)冰淇淋公斤數(shù)的影響。

          而產(chǎn)生這種現(xiàn)象的唯一原因,僅僅是因?yàn)轱w行常客里程數(shù)遠(yuǎn)大于其他特征值。但海倫認(rèn)為這三種特征是同等重要的,因此作為三個(gè)等權(quán)重的特征之一,飛行常客里程數(shù)并不應(yīng)該如此嚴(yán)重地影響到計(jì)算結(jié)果。

          在處理這種不同取值范圍的特征值時(shí),我們通常采用的方法是將數(shù)值歸一化,如將取值范圍處理為0到1或者-1到1之間。下面的公式可以將任意取值范圍的特征值轉(zhuǎn)化為0到1區(qū)間內(nèi)的值:

          其中min和max分別是數(shù)據(jù)集中的最小特征值和最大特征值。雖然改變數(shù)值取值范圍增加了分類器的復(fù)雜度,但為了得到準(zhǔn)確結(jié)果,我們必須這樣做。在kNN_test02.py文件中編寫名為autoNorm的函數(shù),用該函數(shù)自動(dòng)將數(shù)據(jù)歸一化。代碼如下:

          運(yùn)行上述代碼,得到結(jié)果如圖2.4所示。

          圖2.4 歸一化函數(shù)運(yùn)行結(jié)果

          從圖2.4的運(yùn)行結(jié)果可以看到,我們已經(jīng)順利將數(shù)據(jù)歸一化了,并且求出了數(shù)據(jù)的取值范圍和數(shù)據(jù)的最小值,這兩個(gè)值是在分類的時(shí)候需要用到的,直接先求解出來(lái),也算是對(duì)數(shù)據(jù)預(yù)處理了。

          5.測(cè)試算法:驗(yàn)證分類器

          機(jī)器學(xué)習(xí)算法一個(gè)很重要的工作就是評(píng)估算法的正確率,通常我們只提供已有數(shù)據(jù)的90%作為訓(xùn)練樣本來(lái)訓(xùn)練分類器,而使用其余的10%數(shù)據(jù)去測(cè)試分類器,檢測(cè)分類器的正確率。

          需要注意的是,10%的測(cè)試數(shù)據(jù)應(yīng)該是隨機(jī)選擇的,由于海倫提供的數(shù)據(jù)并沒(méi)有按照特定目的來(lái)排序,所以我么你可以隨意選擇10%數(shù)據(jù)而不影響其隨機(jī)性。

          為了測(cè)試分類器效果,在kNN_test02.py文件中創(chuàng)建函數(shù)datingClassTest,編寫代碼如下:

          運(yùn)行上述代碼,得到結(jié)果如圖2.5所示。

          圖2.5 驗(yàn)證分類器結(jié)果

          從圖2.5驗(yàn)證分類器結(jié)果中可以看出,錯(cuò)誤率是3%,這是一個(gè)想當(dāng)不錯(cuò)的結(jié)果。我們可以改變函數(shù)datingClassTest內(nèi)變量hoRatio和分類器k的值,檢測(cè)錯(cuò)誤率是否隨著變量值的變化而增加。依賴于分類算法、數(shù)據(jù)集和程序設(shè)置,分類器的輸出結(jié)果可能有很大的不同。

          6.使用算法:構(gòu)建完整可用系統(tǒng)

          我們可以給海倫一個(gè)小段程序,通過(guò)該程序海倫會(huì)在約會(huì)網(wǎng)站上找到某個(gè)人并輸入他的信息。程序會(huì)給出她對(duì)男方喜歡程度的預(yù)測(cè)值。

          在kNN_test02.py文件中創(chuàng)建函數(shù)classifyPerson,代碼如下:

          在cmd中,運(yùn)行程序,并輸入數(shù)據(jù)(12,44000,0.5),預(yù)測(cè)結(jié)果是”你可能有些喜歡這個(gè)人”,也就是這個(gè)人魅力一般。一共有三個(gè)檔次:討厭、有些喜歡、非常喜歡,對(duì)應(yīng)著不喜歡的人、魅力一般的人、極具魅力的人。結(jié)果如圖2.6所示。

          圖2.6 預(yù)測(cè)結(jié)果

          三、k-近鄰算法實(shí)戰(zhàn)之sklearn手寫數(shù)字識(shí)別

          1.實(shí)戰(zhàn)背景

          對(duì)于需要識(shí)別的數(shù)字已經(jīng)使用圖形處理軟件,處理成具有相同的色彩和大小:寬高是32像素x32像素。盡管采用本文格式存儲(chǔ)圖像不能有效地利用內(nèi)存空間,但是為了方便理解,我們將圖片轉(zhuǎn)換為文本格式,數(shù)字的文本格式如圖3.1所示。

          圖3.1 數(shù)字的文本格式

          與此同時(shí),這些文本格式存儲(chǔ)的數(shù)字的文件命名也很有特點(diǎn),格式為:數(shù)字的值_該數(shù)字的樣本序號(hào),如圖3.2所示。

          圖3.2 文本數(shù)字的存儲(chǔ)格式

          對(duì)于這樣已經(jīng)整理好的文本,我們可以直接使用Python處理,進(jìn)行數(shù)字預(yù)測(cè)。數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,使用上小結(jié)的方法,自己設(shè)計(jì)k-近鄰算法分類器,可以實(shí)現(xiàn)分類。數(shù)據(jù)集和實(shí)現(xiàn)

          代碼下載地址:

          https://github.com/Jack-Cherish/Machine-Learning/tree/master/kNN/3.%E6%95%B0%E5%AD%97%E8%AF%86%E5%88%AB

          這里不再講解自己用Python寫的k-鄰域分類器的方法,因?yàn)檫@不是本小節(jié)的重點(diǎn)。接下來(lái),我們將使用強(qiáng)大的第三方Python科學(xué)計(jì)算庫(kù)Sklearn構(gòu)建手寫數(shù)字系統(tǒng)。

          2.sklearn簡(jiǎn)介

          • Scikit learn 也簡(jiǎn)稱sklearn,是機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)中最知名的python模塊之一。sklearn包含了很多機(jī)器學(xué)習(xí)的方式:

          • Classification 分類

          • Regression 回歸

          • Clustering 非監(jiān)督分類

          • Dimensionality reduction 數(shù)據(jù)降維

          • Model Selection 模型選擇

          • Preprocessing 數(shù)據(jù)與處理

          使用sklearn可以很方便地讓我們實(shí)現(xiàn)一個(gè)機(jī)器學(xué)習(xí)算法。一個(gè)復(fù)雜度算法的實(shí)現(xiàn),使用sklearn可能只需要調(diào)用幾行API即可。所以學(xué)習(xí)sklearn,可以有效減少我們特定任務(wù)的實(shí)現(xiàn)周期。

          3.sklearn安裝

          在安裝sklearn之前,需要安裝兩個(gè)庫(kù),即numpy+mkl和scipy。不要使用pip3直接進(jìn)行安裝,因?yàn)閜ip3默安裝的是numpy,而不是numpy+mkl。

          第三方庫(kù)下載地址:

          http://www.lfd.uci.edu/~gohlke/pythonlibs/

          這個(gè)網(wǎng)站的使用方法,我在之前的文章里有講過(guò):

          http://blog.csdn.net/c406495762/article/details/60156205

          找到對(duì)應(yīng)python版本的numpy+mkl和scipy,下載安裝即可,如圖3.3和圖3.4所示。

          圖3.3 numpy+mkl

          圖3.4 scipy

          使用pip3安裝好這兩個(gè)whl文件后,使用如下指令安裝sklearn。

          4.sklearn實(shí)現(xiàn)k-近鄰算法簡(jiǎn)介

          官網(wǎng)英文文檔:

          http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

          sklearn.neighbors模塊實(shí)現(xiàn)了k-近鄰算法,內(nèi)容如圖3.5所示。

          圖3.5 sklearn.neighbors

          我們使用sklearn.neighbors.KNeighborsClassifier就可以是實(shí)現(xiàn)上小結(jié),我們實(shí)現(xiàn)的k-近鄰算法。KNeighborsClassifier函數(shù)一共有8個(gè)參數(shù),如圖3.6所示。

          圖3.6 KNeighborsClassifier

          KNneighborsClassifier參數(shù)說(shuō)明:

          n_neighbors:默認(rèn)為5,就是k-NN的k的值,選取最近的k個(gè)點(diǎn)。

          weights:默認(rèn)是uniform,參數(shù)可以是uniform、distance,也可以是用戶自己定義的函數(shù)。uniform是均等的權(quán)重,就說(shuō)所有的鄰近點(diǎn)的權(quán)重都是相等的。distance是不均等的權(quán)重,距離近的點(diǎn)比距離遠(yuǎn)的點(diǎn)的影響大。用戶自定義的函數(shù),接收距離的數(shù)組,返回一組維數(shù)相同的權(quán)重。

          algorithm:快速k近鄰搜索算法,默認(rèn)參數(shù)為auto,可以理解為算法自己決定合適的搜索算法。除此之外,用戶也可以自己指定搜索算法ball_tree、kd_tree、brute方法進(jìn)行搜索,brute是蠻力搜索,也就是線性掃描,當(dāng)訓(xùn)練集很大時(shí),計(jì)算非常耗時(shí)。

          kd_tree,構(gòu)造kd樹(shù)存儲(chǔ)數(shù)據(jù)以便對(duì)其進(jìn)行快速檢索的樹(shù)形數(shù)據(jù)結(jié)構(gòu),kd樹(shù)也就是數(shù)據(jù)結(jié)構(gòu)中的二叉樹(shù)。以中值切分構(gòu)造的樹(shù),每個(gè)結(jié)點(diǎn)是一個(gè)超矩形,在維數(shù)小于20時(shí)效率高。

          ball tree是為了克服kd樹(shù)高緯失效而發(fā)明的,其構(gòu)造過(guò)程是以質(zhì)心C和半徑r分割樣本空間,每個(gè)節(jié)點(diǎn)是一個(gè)超球體。

          leaf_size:默認(rèn)是30,這個(gè)是構(gòu)造的kd樹(shù)和ball樹(shù)的大小。這個(gè)值的設(shè)置會(huì)影響樹(shù)構(gòu)建的速度和搜索速度,同樣也影響著存儲(chǔ)樹(shù)所需的內(nèi)存大小。需要根據(jù)問(wèn)題的性質(zhì)選擇最優(yōu)的大小。

          metric:用于距離度量,默認(rèn)度量是minkowski,也就是p=2的歐氏距離(歐幾里德度量)。

          p:距離度量公式。在上小結(jié),我們使用歐氏距離公式進(jìn)行距離度量。除此之外,還有其他的度量方法,例如曼哈頓距離。這個(gè)參數(shù)默認(rèn)為2,也就是默認(rèn)使用歐式距離公式進(jìn)行距離度量。也可以設(shè)置為1,使用曼哈頓距離公式進(jìn)行距離度量。

          metric_params:距離公式的其他關(guān)鍵參數(shù),這個(gè)可以不管,使用默認(rèn)的None即可。

          n_jobs:并行處理設(shè)置。默認(rèn)為1,臨近點(diǎn)搜索并行工作數(shù)。如果為-1,那么CPU的所有cores都用于并行工作。

          KNeighborsClassifier提供了以一些方法供我們使用,如圖3.7所示。

          圖3.5 KNeighborsClassifier的方法

          由于篇幅原因,每個(gè)函數(shù)的怎么用,就不具體講解了。官方手冊(cè)已經(jīng)講解的很詳細(xì)了,各位可以查看這個(gè)手冊(cè)進(jìn)行學(xué)習(xí),我們直接講手寫數(shù)字識(shí)別系統(tǒng)的實(shí)現(xiàn)。

          5.sklearn小試牛刀

          我們知道數(shù)字圖片是32x32的二進(jìn)制圖像,為了方便計(jì)算,我們可以將32x32的二進(jìn)制圖像轉(zhuǎn)換為1x1024的向量。

          對(duì)于sklearn的KNeighborsClassifier輸入可以是矩陣,不用一定轉(zhuǎn)換為向量,不過(guò)為了跟自己寫的k-近鄰算法分類器對(duì)應(yīng)上,這里也做了向量化處理。然后構(gòu)建kNN分類器,利用分類器做預(yù)測(cè)。創(chuàng)建kNN_test04.py文件,編寫代碼如下:

          運(yùn)行上述代碼,得到如圖3.8所示的結(jié)果。

          圖3.8 sklearn運(yùn)行結(jié)果

          上述代碼使用的algorithm參數(shù)是auto,更改algorithm參數(shù)為brute,使用暴力搜索,你會(huì)發(fā)現(xiàn),運(yùn)行時(shí)間變長(zhǎng)了,變?yōu)?0s+。更改n_neighbors參數(shù),你會(huì)發(fā)現(xiàn),不同的值,檢測(cè)精度也是不同的。自己可以嘗試更改這些參數(shù)的設(shè)置,加深對(duì)其函數(shù)的理解。

          四、總結(jié)

          1.kNN算法的優(yōu)缺點(diǎn)

          • 優(yōu)點(diǎn)

          簡(jiǎn)單好用,容易理解,精度高,理論成熟,既可以用來(lái)做分類也可以用來(lái)做回歸;

          可用于數(shù)值型數(shù)據(jù)和離散型數(shù)據(jù);

          訓(xùn)練時(shí)間復(fù)雜度為O(n);無(wú)數(shù)據(jù)輸入假定;

          對(duì)異常值不敏感

          • 缺點(diǎn)

          計(jì)算復(fù)雜性高;空間復(fù)雜性高;

          樣本不平衡問(wèn)題(即有些類別的樣本數(shù)量很多,而其它樣本的數(shù)量很少);

          一般數(shù)值很大的時(shí)候不用這個(gè),計(jì)算量太大。但是單個(gè)樣本又不能太少,否則容易發(fā)生誤分。

          最大的缺點(diǎn)是無(wú)法給出數(shù)據(jù)的內(nèi)在含義。

          2.其他

          關(guān)于algorithm參數(shù)kd_tree的原理,可以查看《統(tǒng)計(jì)學(xué)方法 李航》書中的講解;

          關(guān)于距離度量的方法還有切比雪夫距離、馬氏距離、巴氏距離等;

          下篇文章將講解決策樹(shù),歡迎各位的捧場(chǎng)!

          如有問(wèn)題,請(qǐng)留言。如有錯(cuò)誤,還望指正,謝謝!

          五.參考說(shuō)明

          本文中提到的電影類別分類、約會(huì)網(wǎng)站配對(duì)效果判定、手寫數(shù)字識(shí)別實(shí)例和數(shù)據(jù)集,均來(lái)自于《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》的第二章k-近鄰算法。

          本文的理論部分,參考自《統(tǒng)計(jì)學(xué)習(xí)方法 李航》的第三章k近鄰法以及《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》的第二章k-鄰近算法。


          點(diǎn)擊左下角“閱讀原文”處,可以進(jìn)入作者的知乎專欄,可以查看高清完整版代碼

          還能解鎖更多優(yōu)質(zhì)文章~

          — 完 —

          誠(chéng)摯招聘

          量子位正在招募編輯/記者,工作地點(diǎn)在北京中關(guān)村。期待有才氣、有熱情的同學(xué)加入我們!相關(guān)細(xì)節(jié),請(qǐng)?jiān)诹孔游还娞?hào)(QbitAI)對(duì)話界面,回復(fù)“招聘”兩個(gè)字。

          量子位 QbitAI

          ?'?' ? 追蹤AI技術(shù)和產(chǎn)品新動(dòng)態(tài)


          主站蜘蛛池模板: 日本在线不卡一区| 久久亚洲色一区二区三区| 无码乱人伦一区二区亚洲一 | 在线一区二区三区| 久久99精品一区二区三区| 红桃AV一区二区三区在线无码AV| 国产精品亚洲一区二区三区在线观看 | 国语对白一区二区三区| 国产精品日本一区二区在线播放| 亚洲国产综合精品一区在线播放| 亚洲熟女www一区二区三区| 精品视频在线观看一区二区三区| 一区国产传媒国产精品| 国产精品一区视频| 精品福利一区3d动漫| 色精品一区二区三区| 伊人精品视频一区二区三区| 亚洲一区二区久久| 一区二区三区视频观看| 国产一区二区四区在线观看| 国模少妇一区二区三区| 日韩精品无码免费一区二区三区| 日本一区免费电影| 多人伦精品一区二区三区视频| 人妻精品无码一区二区三区| 日韩高清一区二区| 亚洲一区二区三区久久| 国产福利一区视频| 国产一区二区不卡在线播放| 最美女人体内射精一区二区| 相泽南亚洲一区二区在线播放| 国产在线一区二区三区| 国产精品合集一区二区三区| 日本一区二区三区在线看| 果冻传媒一区二区天美传媒| 综合激情区视频一区视频二区| 亚洲一区二区三区在线网站| 国精产品一区一区三区免费视频| 亚洲精品伦理熟女国产一区二区| 午夜天堂一区人妻| 97久久精品午夜一区二区|