Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537
RL也被稱為網址。
URL 可以由單詞組成,比如 "w3school.com.cn",或者是因特網協議(IP)地址:192.168.1.253。
大多數人在網上沖浪時,會鍵入網址的域名,因為名稱比數字容易記憶。
URL(Uniform Resource Locator)
當您點擊 HTML 頁面中的某個鏈接時,對應的<a>標簽指向萬維網上的一個地址。
統一資源定位器(URL)用于定位萬維網上的文檔(或其他數據)。
網址,比如 http://www.w3school.com.cn/html/index.asp,遵守以下的語法規則:
scheme://host.domain:port/path/filename
解釋:
scheme 定義因特網服務的類型。最常見的類型是 http
host 定義域主機(http 的默認主機是 www)
domain 定義因特網域名,比如 w3school.com.cn
:port 定義主機上的端口號(http 的默認端口號是 80)
path 定義服務器上的路徑(如果省略,則文檔必須位于網站的根目錄中)。
filename 定義文檔/資源的名稱
編者注:URL 的英文全稱是 Uniform Resource Locator,中文也譯為"統一資源定位符"。
URL Schemes
以下是其中一些最流行的 scheme:
Scheme 訪問 用于...
http 超文本傳輸協議 以 http:// 開頭的普通網頁。不加密。
https 安全超文本傳輸協議 安全網頁。加密所有信息交換。
ftp 文件傳輸協議 用于將文件下載或上傳至網站。
file 您計算機上的文件。
URL編碼
URL只能使用ASCII字符集來通過因特網進行發送。
由于URL常常會包含ASCII集合之外的字符,URL 必須轉換為有效的ASCII格式。
URL編碼使用"%"其后跟隨兩位的十六進制數來替換非ASCII字符。
URL不能包含空格。URL編碼通常使用+來替換空格。
URL編碼表參考
http://www.w3school.com.cn/tags/html_ref_urlencode.html
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>登錄頁面</title>
/*總體的樣式*/
<style>
/*盒子樣式*/
#box{
width: 350px; //寬
height: 450px; //高
border: 1px solid black; //邊框
border-radius: 10px; //邊框弧度
font-family: 黑體; //字體
letter-spacing:8px; //段間距
word-spacing: 10px; //字間距
line-height: 40px; //行高
font-size: 18px; //字大小
padding: 20px; //內邊框
}
/*給'注冊'賦予樣式*/
.register{
width:280px ; //寬
height: 50px; //高
background-color: skyblue; //背景顏色
border-radius: 10px; //邊框弧度
}
/*將所有邊框都改變*/
*{
border-radius: 5px; 邊框弧度
}
/*使用class選擇器,賦予number寬高和邊框*/
.number{
width: 185px; //寬
height: 27px; //高
border-width: 1px; //邊框寬度
}
/*id選擇器*/
#two{
width: 55px; //寬
border-width: 1px; 邊框寬度
}
/*id選擇器*/
#phone{
width: 103px; //寬
}
/*class 選擇器*/
.boxs{
zoom: 75%; //清除浮動
color: darkgray; //顏色
}
/*class選擇器*/
.box_a{
width: 50px; //寬
height: 50px; //高
background-image: url("../image/04.jpg "); //背景圖片
background-repeat: no-repeat; // 是否平鋪
background-size: 50px 25px; //背景尺寸
position: relative; //定位 相對定位
left: 310px; //定位后左移
bottom: 32px; //定位后下移
}
</style>
</head>
<body>
<div id="box">
<h1>請注冊</h1>
<p style="color: darkgray">已有帳號?<a href="https://im.qq.com/index">登錄</a></p>
<form action="" method="post">
<label for="name">用戶名</label>
<input type="text" placeholder="請輸入用戶名" id="name" class="number"> <br>
<label for="phone">手機號</label>
<select name="" id="two" class="number">
<optgroup>
<option style="" class="">+86</option>
</optgroup>
</select>
<input type="text" placeholder="請輸入手機號" id="phone" class="number"> <br>
<label for="mima">密?碼</label>
<input type="password" placeholder="請輸入密碼" id="mima" class="number"> <br>
<label for="mima">驗證碼</label>
<input type="password" placeholder="請輸入驗證碼" id="is" class="number">
<div class="box_a"></div>
<div class="boxs">
<input type="radio" id="" class="accept">閱讀并接受協議<br>
</div>
<input type="submit" value="注冊" class="register" >
</form>
</div>
</body>
</html>
在這里插入圖片描述
上一篇推文Gooseeker抓取豆瓣電影排行榜-劇情片中,我向大家分享了如何爬取“豆瓣排行榜-劇情片”這個類別中評分在前10%的電影。
這篇推文將是對上篇文章的進一步深入,主要介紹如何將其他分類中排在前10%的電影一起抓取下來。
其實,這個操作非常簡單,只需要在上篇推文創建的規則上添加一個條件就可以了。即在“DS打數機”中,右鍵點擊“主題—管理線索—添加”,按提示,將URL網址依次添加進來即可。
但,最大的問題在于,如何獲取URL?在這里,如果分類網址只有29個,暫且還可以用手動復制粘貼的方法獲取;但如果今天我們希望獲取的網址信息有成百上千個,手動獲取得花費多少時間啊~
接下來我就教大家一個簡單的方法,用這個辦法,我們可以更快更準確的獲取到網址信息。
我在之前的文章中已經說到,URL網址的組成都有它的規律,所有的網頁信息都有它們的HTML源代碼。
只要稍作觀察,就不難發現,豆瓣分類排行榜的網址的變動主要集中在下圖標注的name和type上面:
現在,在豆瓣電影排行榜這個網頁中,點擊F12,調出網頁源代碼,點擊下圖紅色橢圓框選的按鈕,快速的定位到分類網址所在的位置。
如圖可知,每個span屬性下存放著一個href屬性,里面包含了我們先要的分類名稱name和類型代碼type:
現在選中所有分類屬性所在的上一級屬性<div class=“types”>,右鍵選擇“copy—copyelement”:
接下來,打開Excel,將內容Ctrl+V粘貼進來。
在這里,我主要通過Ctrl+H“替換”的方式,將重復且多余的內容一一替除,然后手動刪除了小部分信息冗雜部分;最后用“數據—分列”的方法將依然不能刪除的多余信息分列出去,并刪除。經過刪減,最后得到了如下圖所示的B列;
最后,用公式“=$A&B1&$C”將URL網址的前后重復部分與B列合并,得到了所有分類的URL網址:
選擇D列,按Ctrl+C,再按“選擇性粘貼”Ctrl+Alt+V,選擇“數值”Alt+V,確定。
最后,將D列網址復制,粘貼到推文最初提到的添加線索欄中:
添加完成后,按確定,右鍵點擊主題“電影爬”,查看“統計線索”,如下圖所示,線索有29條,也就是有29個URL網址處于待抓取狀態。
最后,點擊“單搜”,將線索改為“29”,確認,抓取完成即可。
該案例中需要處理的URL網址只有29條,可能你并不能感受到這種方法有多么便利,其他類型的URL網址也不可能都像豆瓣網址這樣組合。
所以,這篇推文主要提供的是這種發現和處理URL的思路,通過這種思路,大家可以更加得心應手的解決URL網址的抓取問題。
如果大家想要了解更多,可以點擊閱讀原文,學習松鼠的爬蟲視頻課程哦。~
注:如直接點擊閱讀原文購買后,購買賬號即為你的微信號。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。