HTML URL編碼

RL也被稱為網址。

URL 可以由單詞組成,比如 "w3school.com.cn"，或者是因特網協議(IP)地址：192.168.1.253。

大多數人在網上沖浪時,會鍵入網址的域名,因為名稱比數字容易記憶。

URL(Uniform Resource Locator)

當您點擊 HTML 頁面中的某個鏈接時,對應的<a>標簽指向萬維網上的一個地址。

統一資源定位器(URL)用于定位萬維網上的文檔(或其他數據)。

網址,比如 http://www.w3school.com.cn/html/index.asp,遵守以下的語法規則：

scheme://host.domain:port/path/filename

解釋：

scheme 定義因特網服務的類型。最常見的類型是 http

host 定義域主機(http 的默認主機是 www)

domain 定義因特網域名，比如 w3school.com.cn

:port 定義主機上的端口號(http 的默認端口號是 80)

path 定義服務器上的路徑(如果省略，則文檔必須位于網站的根目錄中)。

filename 定義文檔/資源的名稱

編者注：URL 的英文全稱是 Uniform Resource Locator，中文也譯為"統一資源定位符"。

URL Schemes

以下是其中一些最流行的 scheme：

Scheme 訪問用于...

http 超文本傳輸協議以 http:// 開頭的普通網頁。不加密。

https 安全超文本傳輸協議安全網頁。加密所有信息交換。

ftp 文件傳輸協議用于將文件下載或上傳至網站。

file 您計算機上的文件。

URL編碼

URL只能使用ASCII字符集來通過因特網進行發送。

由于URL常常會包含ASCII集合之外的字符,URL 必須轉換為有效的ASCII格式。

URL編碼使用"%"其后跟隨兩位的十六進制數來替換非ASCII字符。

URL不能包含空格。URL編碼通常使用+來替換空格。

URL編碼表參考

http://www.w3school.com.cn/tags/html_ref_urlencode.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>登錄頁面</title>
    /*總體的樣式*/
    <style>
    	/*盒子樣式*/
        #box{
            width: 350px; //寬
            height: 450px; //高
            border: 1px solid black; //邊框
            border-radius: 10px; //邊框弧度
            font-family: 黑體; //字體
            letter-spacing:8px; //段間距
            word-spacing: 10px; //字間距
            line-height: 40px; //行高
            font-size: 18px; //字大小
            padding: 20px; //內邊框
        }
        /*給'注冊'賦予樣式*/
        .register{
            width:280px ; //寬
            height: 50px; //高
            background-color: skyblue; //背景顏色
            border-radius: 10px; //邊框弧度

        }
        /*將所有邊框都改變*/
        *{
            border-radius: 5px; 邊框弧度
        }
        /*使用class選擇器，賦予number寬高和邊框*/
        .number{
            width: 185px; //寬
            height: 27px; //高
            border-width: 1px; //邊框寬度

        }
        /*id選擇器*/
        #two{
            width: 55px; //寬
            border-width: 1px; 邊框寬度
        }
        /*id選擇器*/
        #phone{
            width: 103px; //寬
        }
        /*class 選擇器*/
        .boxs{
            zoom: 75%; //清除浮動
            color: darkgray; //顏色
        }
        /*class選擇器*/
        .box_a{
            width: 50px; //寬
            height: 50px; //高
            background-image: url("../image/04.jpg "); //背景圖片
            background-repeat: no-repeat; // 是否平鋪
            background-size: 50px 25px; //背景尺寸
            position: relative; //定位 相對定位
            left: 310px; //定位后左移
            bottom: 32px; //定位后下移

        }
    </style>
</head>
<body>
<div id="box">
    <h1>請注冊</h1>
<p style="color: darkgray">已有帳號?<a href="https://im.qq.com/index">登錄</a></p>
<form action="" method="post">
    <label for="name">用戶名</label>
    <input type="text" placeholder="請輸入用戶名" id="name" class="number"> <br>
    <label for="phone">手機號</label>
    <select name="" id="two" class="number">
    <optgroup>
        <option style="" class="">+86</option>
    </optgroup>
    </select>
    <input type="text" placeholder="請輸入手機號" id="phone" class="number"> <br>
    <label for="mima">密?碼</label>
    <input type="password" placeholder="請輸入密碼" id="mima" class="number"> <br>
    <label for="mima">驗證碼</label>
    <input type="password" placeholder="請輸入驗證碼" id="is" class="number">
    <div class="box_a"></div>
    <div class="boxs">
        <input type="radio" id="" class="accept">閱讀并接受協議<br>
    </div>
    <input type="submit" value="注冊" class="register" >

    </form>
</div>


</body>
</html>
在這里插入圖片描述

上一篇推文Gooseeker抓取豆瓣電影排行榜-劇情片中，我向大家分享了如何爬取“豆瓣排行榜-劇情片”這個類別中評分在前10%的電影。

這篇推文將是對上篇文章的進一步深入，主要介紹如何將其他分類中排在前10%的電影一起抓取下來。

其實，這個操作非常簡單，只需要在上篇推文創建的規則上添加一個條件就可以了。即在“DS打數機”中，右鍵點擊“主題—管理線索—添加”，按提示，將URL網址依次添加進來即可。

但，最大的問題在于，如何獲取URL？在這里，如果分類網址只有29個，暫且還可以用手動復制粘貼的方法獲取；但如果今天我們希望獲取的網址信息有成百上千個，手動獲取得花費多少時間啊~

接下來我就教大家一個簡單的方法，用這個辦法，我們可以更快更準確的獲取到網址信息。

我在之前的文章中已經說到，URL網址的組成都有它的規律，所有的網頁信息都有它們的HTML源代碼。

只要稍作觀察，就不難發現，豆瓣分類排行榜的網址的變動主要集中在下圖標注的name和type上面：

現在，在豆瓣電影排行榜這個網頁中，點擊F12，調出網頁源代碼，點擊下圖紅色橢圓框選的按鈕，快速的定位到分類網址所在的位置。

如圖可知，每個span屬性下存放著一個href屬性，里面包含了我們先要的分類名稱name和類型代碼type：

現在選中所有分類屬性所在的上一級屬性<div class=“types”>，右鍵選擇“copy—copyelement”：

接下來，打開Excel，將內容Ctrl+V粘貼進來。

在這里，我主要通過Ctrl+H“替換”的方式，將重復且多余的內容一一替除，然后手動刪除了小部分信息冗雜部分；最后用“數據—分列”的方法將依然不能刪除的多余信息分列出去，并刪除。經過刪減，最后得到了如下圖所示的B列；

最后，用公式“=$A&B1&$C”將URL網址的前后重復部分與B列合并，得到了所有分類的URL網址：

選擇D列，按Ctrl+C，再按“選擇性粘貼”Ctrl+Alt+V，選擇“數值”Alt+V，確定。

最后，將D列網址復制，粘貼到推文最初提到的添加線索欄中：

添加完成后，按確定，右鍵點擊主題“電影爬”，查看“統計線索”，如下圖所示，線索有29條，也就是有29個URL網址處于待抓取狀態。

最后，點擊“單搜”，將線索改為“29”，確認，抓取完成即可。

該案例中需要處理的URL網址只有29條，可能你并不能感受到這種方法有多么便利，其他類型的URL網址也不可能都像豆瓣網址這樣組合。

所以，這篇推文主要提供的是這種發現和處理URL的思路，通過這種思路，大家可以更加得心應手的解決URL網址的抓取問題。

如果大家想要了解更多，可以點擊閱讀原文，學習松鼠的爬蟲視頻課程哦。~

注：如直接點擊閱讀原文購買后，購買賬號即為你的微信號。

在線咨詢

上一篇：html固定定位position值fixed
下一篇：CSS設置寬高的小技巧

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

HTML URL編碼

您的項目需求