HTML5的5種存儲方式詳解

言

本篇文章主要介紹了前端HTML5幾種存儲方式的總結，主要包括本地存儲localstorage，本地存儲sessionstorage，離線緩存（application cache），Web SQL，IndexedDB。有興趣的可以了解一下。

正文開始~

總體情況

h5之前，存儲主要是用cookies。cookies缺點有在請求頭上帶著數據，大小是4k之內。主Domain污染。

主要應用：購物車、客戶登錄

對于IE瀏覽器有UserData，大小是64k,只有IE瀏覽器支持。

目標

解決4k的大小問題
解決請求頭常帶存儲信息的問題
解決關系型存儲的問題
跨瀏覽器

1.本地存儲localstorage

存儲方式：

以鍵值對(Key-Value)的方式存儲，永久存儲，永不失效，除非手動刪除。

大小：

每個域名5M

支持情況：

注意：IE9 localStorage不支持本地文件，需要將項目署到服務器，才可以支持！

if(window.localStorage){
 
 alert('This browser supports localStorage');
 
}else{
 
 alert('This browser does NOT support localStorage');
 
}

常用的API：

getItem //取記錄

setIten//設置記錄

removeItem//移除記錄

key//取key所對應的值

clear//清除記錄

存儲的內容：

數組，圖片，json，樣式，腳本。。。（只要是能序列化成字符串的內容都可以存儲）

2.本地存儲sessionstorage

HTML5 的本地存儲 API 中的 localStorage 與 sessionStorage 在使用方法上是相同的，區別在于 sessionStorage 在關閉頁面后即被清空，而 localStorage 則會一直保存。

3.離線緩存（application cache）

本地緩存應用所需的文件

使用方法：

①配置manifest文件

頁面上：

<!DOCTYPE HTML>
 
<html manifest="demo.appcache">
 
...
 
</html>

Manifest 文件：

manifest 文件是簡單的文本文件，它告知瀏覽器被緩存的內容（以及不緩存的內容）。

manifest 文件可分為三個部分：

①CACHE MANIFEST - 在此標題下列出的文件將在首次下載后進行緩存

②NETWORK - 在此標題下列出的文件需要與服務器的連接，且不會被緩存

③FALLBACK - 在此標題下列出的文件規定當頁面無法訪問時的回退頁面（比如 404 頁面）

完整demo：

CACHE MANIFEST
 
# 2016-07-24 v1.0.0
 
/theme.css
 
/main.js
 
 
 
NETWORK:
 
login.jsp
 
 
 
FALLBACK:
 
/html/ /offline.html

服務器上：manifest文件需要配置正確的MIME-type，即 "text/cache-manifest"。

如Tomcat:

<mime-mapping>
 
 <extension>manifest</extension>
 
 <mime-type>text/cache-manifest</mime-type>
 
</mime-mapping>

常用API：

核心是applicationCache對象，有個status屬性，表示應用緩存的當前狀態：

0（UNCACHED） : 無緩存，即沒有與頁面相關的應用緩存

1（IDLE） : 閑置，即應用緩存未得到更新

2 （CHECKING） : 檢查中，即正在下載描述文件并檢查更新

3 （DOWNLOADING） : 下載中，即應用緩存正在下載描述文件中指定的資源

4 （UPDATEREADY） : 更新完成，所有資源都已下載完畢

5 （IDLE） : 廢棄，即應用緩存的描述文件已經不存在了，因此頁面無法再訪問應用緩存

相關的事件：

表示應用緩存狀態的改變：

checking : 在瀏覽器為應用緩存查找更新時觸發

error : 在檢查更新或下載資源期間發送錯誤時觸發

noupdate : 在檢查描述文件發現文件無變化時觸發

downloading : 在開始下載應用緩存資源時觸發

progress：在文件下載應用緩存的過程中持續不斷地下載地觸發

updateready : 在頁面新的應用緩存下載完畢觸發

cached : 在應用緩存完整可用時觸發

Application Cache的三個優勢：

① 離線瀏覽

② 提升頁面載入速度

③ 降低服務器壓力

注意事項：

1. 瀏覽器對緩存數據的容量限制可能不太一樣（某些瀏覽器設置的限制是每個站點 5MB）

2. 如果manifest文件，或者內部列舉的某一個文件不能正常下載，整個更新過程將視為失敗，瀏覽器繼續全部使用老的緩存

3. 引用manifest的html必須與manifest文件同源，在同一個域下

4. 瀏覽器會自動緩存引用manifest文件的HTML文件，這就導致如果改了HTML內容，也需要更新版本才能做到更新。

5. manifest文件中CACHE則與NETWORK，FALLBACK的位置順序沒有關系，如果是隱式聲明需要在最前面

6. FALLBACK中的資源必須和manifest文件同源

7. 更新完版本后，必須刷新一次才會啟動新版本（會出現重刷一次頁面的情況），需要添加監聽版本事件。

8. 站點中的其他頁面即使沒有設置manifest屬性，請求的資源如果在緩存中也從緩存中訪問

9. 當manifest文件發生改變時，資源請求本身也會觸發更新

離線緩存與傳統瀏覽器緩存區別：

1. 離線緩存是針對整個應用，瀏覽器緩存是單個文件

2. 離線緩存斷網了還是可以打開頁面，瀏覽器緩存不行

3. 離線緩存可以主動通知瀏覽器更新資源

4.Web SQL

關系數據庫，通過SQL語句訪問

Web SQL 數據庫 API 并不是 HTML5 規范的一部分，但是它是一個獨立的規范，引入了一組使用 SQL 操作客戶端數據庫的 APIs。

支持情況：

Web SQL 數據庫可以在最新版的 Safari, Chrome 和 Opera 瀏覽器中工作。

核心方法：

①openDatabase：這個方法使用現有的數據庫或者新建的數據庫創建一個數據庫對象。

②transaction：這個方法讓我們能夠控制一個事務，以及基于這種情況執行提交或者回滾。

③executeSql：這個方法用于執行實際的 SQL 查詢。

打開數據庫：

var db = openDatabase('mydb', '1.0', 'Test DB', 2 * 1024 * 1024,fn);
 
//openDatabase() 方法對應的五個參數分別為：數據庫名稱、版本號、描述文本、數據庫大小、創建回調

執行查詢操作：

var db = openDatabase('mydb', '1.0', 'Test DB', 2 * 1024 * 1024);
 
db.transaction(function (tx) { 
 
 tx.executeSql('CREATE TABLE IF NOT EXISTS WIN (id unique, name)');
 
});

插入數據：　

var db = openDatabase('mydb', '1.0', 'Test DB', 2 * 1024 * 1024);
 
db.transaction(function (tx) {
 
 tx.executeSql('CREATE TABLE IF NOT EXISTS WIN (id unique, name)');
 
 tx.executeSql('INSERT INTO WIN (id, name) VALUES (1, "winty")');
 
 tx.executeSql('INSERT INTO WIN (id, name) VALUES (2, "LuckyWinty")');
 
});

讀取數據：

db.transaction(function (tx) {
 
 tx.executeSql('SELECT * FROM WIN', [], function (tx, results) {
 
 var len = results.rows.length, i;
 
 msg = "<p>查詢記錄條數: " + len + "</p>";
 
 document.querySelector('#status').innerHTML += msg; 
 
 for (i = 0; i < len; i++){
 
 alert(results.rows.item(i).name );
 
 }
 
 }, null);
 
});

由這些操作可以看出，基本上都是用SQL語句進行數據庫的相關操作，如果你會MySQL的話，這個應該比較容易用。

5.IndexedDB

索引數據庫 (IndexedDB) API（作為 HTML5 的一部分）對創建具有豐富本地存儲數據的數據密集型的離線 HTML5 Web 應用程序很有用。同時它還有助于本地緩存數據，使傳統在線 Web 應用程序（比如移動 Web 應用程序）能夠更快地運行和響應。

異步API：

在IndexedDB大部分操作并不是我們常用的調用方法，返回結果的模式，而是請求——響應的模式，比如打開數據庫的操作

這樣，我們打開數據庫的時候，實質上返回了一個DB對象，而這個對象就在result中。由上圖可以看出，除了result之外。還有幾個重要的屬性就是onerror、onsuccess、onupgradeneeded（我們請求打開的數據庫的版本號和已經存在的數據庫版本號不一致的時候調用）。這就類似于我們的ajax請求那樣。我們發起了這個請求之后并不能確定它什么時候才請求成功，所以需要在回調中處理一些邏輯。

關閉與刪除：

function closeDB(db){
 
 db.close();
 
}
 
function deleteDB(name){
 
 indexedDB.deleteDatabase(name);
 
}

數據存儲：

indexedDB中沒有表的概念，而是objectStore，一個數據庫中可以包含多個objectStore，objectStore是一個靈活的數據結構，可以存放多種類型數據。也就是說一個objectStore相當于一張表，里面存儲的每條數據和一個鍵相關聯。

我們可以使用每條記錄中的某個指定字段作為鍵值（keyPath），也可以使用自動生成的遞增數字作為鍵值（keyGenerator），也可以不指定。選擇鍵的類型不同，objectStore可以存儲的數據結構也有差異。

學習從來不是一個人的事情，要有個相互監督的伙伴，想要學習或交流前端問題的小伙伴可以私信“學習”小明獲取web前端入門資料，一起學習，一起成長！

站空間就是存放網站內容的空間，即網站空間或虛擬主機，用于存放非獨立服務器以外的網站，遠程使用FTP管理網站空間的文件。網站空間能存放的文件包括文字、圖片、CSS/JS文檔、數據庫、網站源代碼文件、視頻、動畫等內容。可以說一個網站上所有包含的內容都存放在網站空間里，服務器硬件提供了網站空間里文件的運行環境與支持。要求高的使用獨立的服務器，你可以理解一臺主機就運行一個站點。預算有限的就使用網站空間或叫虛擬主機，即一臺主機里跑N個站點，你只是其中之一。

網站空間分類一般來說有以下幾種：

按空間表現形式分為：

1、虛擬空間：
90%以上的企業網站都采取這種形式，主要是空間提供商提供專業的技術支持和空間維護，且成本低廉，一般企業網站空間成本可以控制在100-1000元/年之間。

2、合租空間：
中型網站可以采用這種形式，一般是幾個或者幾十個人合租一臺服務器。優點是資源有保證相對獨立服務器成本較低。

3、獨立主機：
安全性能要求極高以及網站訪問速度要求極高的企業網站可以采用，成本較高。一般費用在幾千到幾萬不等。

按網站程序使用語言劃分：

ASP虛擬主機：
以windows操作系統為代表的服務器，支持ASP，ASP.NET，ACCESS，MSSQL，成本較低，安全性能較低；

PHP虛擬主機：
以Linux操作系統為代表的服務器，支持PHP，JSP，MYSQL，APACHE，SQLITE，NGINX，成本較低，高效穩定；

純靜態網站空間：
與操作系統關系不大，支持HTML靜態頁面，不支持ASP，PHP、JSP、ASP.NET等任何腳本語言。

全能型網站空間：
以windows操作系統為基礎配置全型支持型腳本運行環境，支持：ASP，PHP，asp.net，JSP，ACCESS，SQL Server，Mysql，Sqlite等所有常見網站語言。

按網站空間的機房線路劃分：

電信主機：接入光纖為電信網絡
網通主機：接入光纖為網通網絡
鐵通主機：接入光纖為鐵通網絡
雙線主機：能實現電信和網通網絡自動切換
多線主機：能實現多種接入線路自行切換

按網站使用地域劃分：

大致分為兩類，一是國內空間，二是國外空間或叫境外空間。

由于國家對網站備案的要求，凡是使用大陸服務器及空間的網站必須到工信部辦理網站備案，否則不予接入。介于各種原因吧，有些單位或個人無法按正常流程辦理網站備案，但又有網站接入的現實需求，于是就出現了免備案空間，即國外空間，也叫境外空間。以香港、韓國、美國空間為多，因為這些區域對網站接入沒有硬性規定，于是就變成了我們現實中稱之為免備案的網站空間了。

、什么是爬蟲？
它是指向網站發起請求，獲取資源后分析并提取有用數據的程序；
爬蟲的步驟：

1、發起請求
使用http庫向目標站點發起請求，即發送一個Request
Request包含：請求頭、請求體等

2、獲取響應內容
如果服務器能正常響應，則會得到一個Response
Response包含：html，json，圖片，視頻等

3、解析內容
解析html數據：正則表達式（RE模塊），第三方解析庫如Beautifulsoup，pyquery等
解析json數據：json模塊
解析二進制數據：以wb的方式寫入文件

4、保存數據
數據庫（MySQL，Mongdb、Redis）文件

二、本次選擇爬蟲的數據來源于鏈家，因為本人打算搬家，想觀察一下近期的鏈家租房數據情況，所以就直接爬取了鏈家數據，相關的代碼如下：

from bs4 import BeautifulSoup as bs
from requests.exceptions import RequestException
import requests
import re
from DBUtils import DBUtils


def main(response): #web頁面數據提取與入庫操作
    html = bs(response.text, 'lxml')
    for data in html.find_all(name='div',attrs={"class":"content__list--item--main"}):
        try:
            print(data)
            Community_name = data.find(name="a", target="_blank").get_text(strip=True)
            name=str(Community_name).split(" ")[0]
            sizes=str(Community_name).split(" ")[1]
            forward=str(Community_name).split(" ")[2]
            flood = data.find(name="span",class_="hide").get_text(strip=True)
            flood=str(flood).replace(" ","").replace("/","")
            sqrt= re.compile("\d\d+㎡")
            area=str(data.find(text=sqrt)).replace(" ","")
            maintance=data.find(name="span",class_="content__list--item--time oneline").get_text(strip=True)
            maintance=str(maintance)
            price=data.find(name="span",class_="content__list--item-price").get_text(strip=True)
            price=str(price)
            print(name,sizes,forward,flood,maintance,price)
            insertsql = "INSERT INTO test_log.`information`(Community_name,size,forward,area,flood,maintance,price) VALUES " \
            "('"+name+"','"+sizes+"','"+forward+"','"+area+"','"+flood+"','"+maintance+"','"+price+"');"
            insert_sql(insertsql)
        except:
            print("have an error!!!")


def insert_sql(sql): #數據入庫操作
    dbconn=DBUtils("test6")
    dbconn.dbExcute(sql)


def get_one_page(urls): #獲取web頁面數據
    try:
        headers = {"Host": "bj.lianjia.com",
              "Connection": "keep-alive",
              "Cache-Control": "max-age=0",
              "Upgrade-Insecure-Requests": "1",
              "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36",
              "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
              "Sec-Fetch-Site": "none",
              "Sec-Fetch-Mode": "navigate",
              "Sec-Fetch-User": "?1",
              "Sec-Fetch-Dest": "document",
              "Accept-Encoding": "gzip, deflate, br",
              "Accept-Language": "zh-CN,zh;q=0.9",
              "Cookie": "lianjia_uuid=fa1c2e0b-792f-4a41-b48e-78531bf89136; _smt_uid=5cfdde9d.cbae95b; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2216b3fad98fc1d1-088a8824f73cc4-e353165-2710825-16b3fad98fd354%22%2C%22%24device_id%22%3A%2216b3fad98fc1d1-088a8824f73cc4-e353165-2710825-16b3fad98fd354%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E8%87%AA%E7%84%B6%E6%90%9C%E7%B4%A2%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22https%3A%2F%2Fwww.baidu.com%2Flink%22%2C%22%24latest_referrer_host%22%3A%22www.baidu.com%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC%22%7D%7D; _ga=GA1.2.1891741852.1560141471; UM_distinctid=17167f490cb566-06c7739db4a69e-4313f6b-100200-17167f490cca1e; Hm_lvt_9152f8221cb6243a53c83b956842be8a=1588171341; lianjia_token=2.003c978d834648dbbc2d3aa4b226145cd7; select_city=110000; lianjia_ssid=fc20dfa1-6afb-4407-9552-2c4e7aeb73ce; CNZZDATA1253477573=1893541433-1588166864-https%253A%252F%252Fwww.baidu.com%252F%7C1591157903; CNZZDATA1254525948=1166058117-1588166331-https%253A%252F%252Fwww.baidu.com%252F%7C1591154084; CNZZDATA1255633284=1721522838-1588166351-https%253A%252F%252Fwww.baidu.com%252F%7C1591158264; CNZZDATA1255604082=135728258-1588168974-https%253A%252F%252Fwww.baidu.com%252F%7C1591153053; _jzqa=1.2934504416856578000.1560141469.1588171337.1591158227.3; _jzqc=1; _jzqckmp=1; _jzqy=1.1588171337.1591158227.1.jzqsr=baidu.-; _qzjc=1; _gid=GA1.2.1223269239.1591158230; _qzja=1.1313673973.1560141469311.1588171337488.1591158227148.1591158227148.1591158233268.0.0.0.7.3; _qzjto=2.1.0; srcid=eyJ0Ijoie1wiZGF0YVwiOlwiMThmMWQwZTY0MGNiNTliNTI5OTNlNGYxZWY0ZjRmMmM3ODVhMTU3ODNhNjMwODhlZjlhMGM2MTJlMDFiY2JiN2I4OTBkODA0M2Q0YTM0YzIyMWE0YzIwOTBkODczNTQwNzM0NTc1NjBlM2EyYTc3NmYwOWQ3OWQ4OWJjM2UwYzAwY2RjMTk3MTMwNzYwZDRkZTc2ODY0OTY0NTA5YmIxOWIzZWQyMWUzZDE3ZjhmOGJmMGNmOGYyMTMxZTI1MzIxMGI4NzhjNjYwOGUyNjc3ZTgxZjA2YzUzYzE4ZjJmODhmMTA1ZGVhOTMyZTRlOTcxNmNiNzllMWViMThmNjNkZTJiMTcyN2E0YzlkODMwZWIzNmVhZTQ4ZWExY2QwNjZmZWEzNjcxMjBmYWRmYjgxMDY1ZDlkYTFhMDZiOGIwMjI2NTg1ZGU4NTQyODBjODFmYTUyYzI0NDg5MjRlNWI0N1wiLFwia2V5X2lkXCI6XCIxXCIsXCJzaWduXCI6XCI2Yzk3M2U5M1wifSIsInIiOiJodHRwczovL2JqLmxpYW5qaWEuY29tL2RpdGllenVmYW5nL2xpNDY0NjExNzkvcnQyMDA2MDAwMDAwMDFsMSIsIm9zIjoid2ViIiwidiI6IjAuMSJ9"}
        response = requests.get(url=urls, headers=headers)
        main(response)
    except RequestException:
        return None


if __name__=="__main__":
      for i in range(64): #遍歷翻頁
        if(i==0):
            urls = "https://bj.lianjia.com/ditiezufang/li46461179/rt200600000001l1/"
            get_one_page(urls)
        else:
            urls = "https://bj.lianjia.com/ditiezufang/li46461179/rt200600000001l1/".replace("rt","pg"+str(i))
            get_one_page(urls)

說明：本代碼中使用了《Python之mysql實戰》的那篇文章，請注意結合著一起來看。

三、以下是獲取到的數據入庫后的結果圖

結論：爬蟲是獲取數據的重要方式之一，我們需要掌握多種方式去獲取數據。機器學習是基于數據的學習，我們需要為機器學習做好數據的準備，大家一起加油！

在線咨詢

上一篇：前端大神總結的HTML標簽，真的是太全了-連載1
下一篇：16個超牛逼的HTML5和JavaScript特效

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商