Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537
于平行網頁尋源,前面我們對其做了一些最基本的介紹,包括什么是平行網頁、怎么去尋找平行網頁。
我們知道,平行網頁找到了,任務已經完成一半了,剩下的任務你只需要把分站間的內容互譯頁面找出來提交即可,看似簡單,其實這一步難度還是比較大的,平臺要求3對互譯頁面,并且只要有一對不滿足互譯頁面的要求,平臺也不會采納,我們前期做的工作都將功虧一簣。
也許你會說可以使用語言翻譯工具,看下頁面是否是互譯的,在我看來,這也有些不太現實,做過平行網頁尋源任務的同學知道,平行網頁要求的語言有很多,比如西班牙語、俄語、越南語、葡萄牙語、法語、土耳其等語言,這么多語言如何去翻譯,并且任務的數量是一定的,每個任務也有一定時間的限制,很顯然,使用翻譯工具不是一個好辦法。那我們是否有其他辦法呢?
今天,我們就聊這個話題。找到平行網頁后,如何快速找到分站間的內容互譯頁面?
其實,瀏覽器在打開網頁后,我們是有辦法查看到此網頁的源代碼的,例如:Apple 的主站https://www.apple.com/, 使用 Google Chrome 瀏覽器打開,在頁面上點擊右鍵,會彈出一個對話框,可以看到“查看網頁源代碼”一項。
點擊會重新彈出一個頁面,這個頁面就是 https://www.apple.com/ 主站的源代碼了。
仔細看下這個網頁的源代碼,不難發現,這些信息非常有助于我們去確定網頁的內容是否是互譯的。現在,以 Apple 的中國主站與西班牙主站為例,來介紹如何通過網頁源碼來初步定位頁面內容是否是互譯的。
Apple 中國分站的源碼片段:
Apple 西班牙分站的源碼片段:
對比這兩個分站,紅色方框的內容,我們會注意到有一個關鍵字 href, HTML 語法中較常見,其屬性值可以是任何有效文檔的相對或絕對的 URL,換句話說href 后面的值指向的是另一個站點,分別點擊 href 后面的值 ”cn/mac”, ” es/mac”, 我們會看到重新彈出兩個網頁。
大致看下頁面,盡管我們不懂西班牙語,但是從圖片以及顯示的內容看,這就是一對標準的互譯頁面。
同時,從 href 后面的值”cn/mac”, ” es/mac”, 也能夠發現,cn, es 后面緊跟的 “mac”, 這個鏈接下面的內容大概率是跟 mac 內容強相關, 也能夠初步判斷這兩個鏈接下面的內容是互譯的。
所以,從上面的描述看, 快速找到分站間的內容互譯頁面可以簡單概括為如下幾個步驟:
(1) 確定網頁主站對應的分站;
(2) 使用 Google Chrome 瀏覽器打開分站,查看分站的源代碼;
(3) 搜索關鍵字 href, 找到其后面的屬性值,并點擊打開其對應的鏈接;
(4) 對打開的鏈接網頁內容進行查看,確定是否是互譯頁面;
作者簡介:一個專注于記錄互聯網兼職 任務的學生,公眾號《做點事吧》,歡迎關注。
今年國慶假期終于可以憋在家里了不用出門了,不用出去看后腦了,真的是一種享受。這么好的光陰怎么浪費,睡覺、吃飯、打豆豆這怎么可能(耍多了也煩),完全不符合我們程序員的作風,趕緊起來把文章寫完。
這篇文章比較基礎,在國慶期間的業余時間寫的,這幾天又完善了下,力求把更多的前端所涉及到的關于文件上傳的各種場景和應用都涵蓋了,若有疏漏和問題還請留言斧正和補充。
以下是本文所涉及到的知識點,break or continue ?
原理很簡單,就是根據 http 協議的規范和定義,完成請求消息體的封裝和消息體的解析,然后將二進制內容保存到文件。
我們都知道如果要上傳一個文件,需要把 form 標簽的enctype設置為multipart/form-data,同時method必須為post方法。
那么multipart/form-data表示什么呢?
multipart互聯網上的混合資源,就是資源由多種元素組成,form-data表示可以使用HTML Forms 和 POST 方法上傳文件,具體的定義可以參考RFC 7578。
multipart/form-data 結構
看下 http 請求的消息體
Content-Type: multipart/form-data; boundary=----WebKitFormBoundaryDCntfiXcSkPhS4PN 表示本次請求要上傳文件,其中boundary表示分隔符,如果要上傳多個表單項,就要使用boundary分割,每個表單項由———XXX開始,以———XXX結尾。
每一個表單項又由Content-Type和Content-Disposition組成。
Content-Disposition: form-data 為固定值,表示一個表單元素,name 表示表單元素的 名稱,回車換行后面就是name的值,如果是上傳文件就是文件的二進制內容。
Content-Type:表示當前的內容的 MIME 類型,是圖片還是文本還是二進制數據。
解析
客戶端發送請求到服務器后,服務器會收到請求的消息體,然后對消息體進行解析,解析出哪是普通表單哪些是附件。
可能大家馬上能想到通過正則或者字符串處理分割出內容,不過這樣是行不通的,二進制buffer轉化為string,對字符串進行截取后,其索引和字符串是不一致的,所以結果就不會正確,除非上傳的就是字符串。
不過一般情況下不需要自行解析,目前已經有很成熟的三方庫可以使用。
至于如何解析,這個也會占用很大篇幅,后面的文章在詳細說。
使用 form 表單上傳文件
在 ie時代,如果實現一個無刷新的文件上傳那可是費老勁了,大部分都是用 iframe 來實現局部刷新或者使用 flash 插件來搞定,在那個時代 ie 就是最好用的瀏覽器(別無選擇)。
DEMO
這種方式上傳文件,不需要 js ,而且沒有兼容問題,所有瀏覽器都支持,就是體驗很差,導致頁面刷新,頁面其他數據丟失。
HTML
<form method="post" action="http://localhost:8100" enctype="multipart/form-data">
選擇文件:
<input type="file" name="f1"/> input 必須設置 name 屬性,否則數據無法發送<br/>
<br/>
標題:<input type="text" name="title"/><br/><br/><br/>
<button type="submit" id="btn-0">上 傳</button>
</form>
復制代碼
服務端文件的保存基于現有的庫koa-body結合 koa2實現服務端文件的保存和數據的返回。
在項目開發中,文件上傳本身和業務無關,代碼基本上都可通用。
在這里我們使用koa-body庫來實現解析和文件的保存。
koa-body 會自動保存文件到系統臨時目錄下,也可以指定保存的文件路徑。
然后在后續中間件內得到已保存的文件的信息,再做二次處理。
NODE
/**
* 服務入口
*/
var http=require('http');
var koaStatic=require('koa-static');
var path=require('path');
var koaBody=require('koa-body');//文件保存庫
var fs=require('fs');
var Koa=require('koa2');
var app=new Koa();
var port=process.env.PORT || '8100';
var uploadHost=`http://localhost:${port}/uploads/`;
app.use(koaBody({
formidable: {
//設置文件的默認保存目錄,不設置則保存在系統臨時目錄下 os
uploadDir: path.resolve(__dirname, '../static/uploads')
},
multipart: true // 開啟文件上傳,默認是關閉
}));
//開啟靜態文件訪問
app.use(koaStatic(
path.resolve(__dirname, '../static')
));
//文件二次處理,修改名稱
app.use((ctx)=> {
var file=ctx.request.files.f1;//得道文件對象
var path=file.path;
var fname=file.name;//原文件名稱
var nextPath=path+fname;
if(file.size>0 && path){
//得到擴展名
var extArr=fname.split('.');
var ext=extArr[extArr.length-1];
var nextPath=path+'.'+ext;
//重命名文件
fs.renameSync(path, nextPath);
}
//以 json 形式輸出上傳文件地址
ctx.body=`{
"fileUrl":"${uploadHost}${nextPath.slice(nextPath.lastIndexOf('/')+1)}"
}`;
});
/**
* http server
*/
var server=http.createServer(app.callback());
server.listen(port);
console.log('demo1 server start ...... ');
復制代碼
CODE
https://github.com/Bigerfe/fe-learn-code/
么是HTML / HTM文件?他們相差一個字母有什么區別嗎,如何查看或編輯源代碼以及如何轉換成其他格式,例如DOCX,PDF,JPG 等,針對這些問題編程獅W3Cschool整理以下資料希望能對你有所幫助:
HTM / HTML 文件是超文本標記語言(Hyper Text Markup Language)文件,是 Internet 上的標準網頁文件類型。
由于 HTM 文件是純文本文件,因此它們僅包含文本(例如您現在正在閱讀的內容)以及對其他外部文件的文本引用(例如本文中的配圖)。
HTM 和 HTML 文件還可以引用其他文件,例如視頻,CSS 或 JS 文件。
HTM 與 HTML 沒有本質意義的區別,只是為了滿足 DOS 僅能識別 8+3 的文件名而已,因為一些老的系統 (win32) 不能識別四位文件名,所以某些網頁服務器要求 index.html 最后一個 l 不能省略。MSIE 能自動識別和打開這些文件,但編寫網頁地址的時候必須是完全對應的,也就是說 index.htm 和 index.html 是兩個不同的文件,對應著不同的地址。值得一提的是 UNIX 系統中對大小寫敏感,不吻合的話就可能報沒有文件或者找不到文件。
任何 Web 瀏覽器,例如 Edge,Firefox,Chrome,Opera,IE,360 安全瀏覽器等,都可以打開并正確顯示 HTM 和 HTML 文件。換句話說,在瀏覽器中打開這些文件并“解碼(decode)” HTM 或 HTML 文件使其能正確顯示。
現在有很多簡化編輯和創建 HTM / HTML 文件的工具。一些著名的免費 HTML 編輯器包括 Eclipse ,Komodo Edit 和 Bluefish 。另一個流行的具有許多高級功能的 HTM / HTML 編輯器是 Adobe Dreamweaver ,不過它是收費的。
雖然 Windows 系統自帶的記事本等簡單的文本編輯器的功能不如專用的 HTM 編輯器那么豐富,但是對 HTM 或 HTML 文件進行簡單編輯修改還是可以的。不過,W3Cschool還是建議大家使用專用的編輯器,如 WebStorm、VS Code 等,它具更多專業功能。
這是一個非常簡單的 HTML 頁面以文本形式顯示的示例:
源碼:
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>什么是HTM或HTML文件? - 編程獅(w3cschool.cn)</title>
</head>
<body>
<h1>什么是HTM或HTML文件?</h1>
<p>HTM / HTML 文件是超文本標記語言(Hyper Text Markup Language)文件,是 Internet 上的標準網頁文件類型。</p>
<p>由于 HTM 文件是純文本文件,因此它們僅包含文本(例如您現在正在閱讀的內容)以及對其他外部文件的文本*引用*(例如本文中的配圖)。</p>
<p>HTM 和 HTML 文件還可以引用其他文件,例如視頻,CSS 或 JS 文件。</p>
</body>
</html>
當 Web 瀏覽器呈現信息時,HTML 文件的源代碼被“轉換”為真實的網頁(盡管源代碼已很精簡了)。
HTM 文件以特定的語法(規則)構成,以使其中的代碼和文本在瀏覽器中打開時能夠正確顯示。因此,將 HTM / HTML 文件轉換為另一種格式可能會丟失頁面上的所有功能。
如果你想要做的是將一個 HTM / HTML 文件轉換為方便離線查看的文件,這時圖片或 PDF 格式會方便很多。
在 Chrome 中,鼠標右鍵單擊網頁,出現的選項菜單中進入 “打印(P)...”(快捷鍵:CTRL + P) ,在打印選項中選擇另存為 PDF,以將窗口中的頁面轉換為 PDF 文件。Chrome 瀏覽器的擴展功能也稱為“全屏截屏”,可將 Chrome 瀏覽器中所有打開的 HTM / HTML 文件轉換為 PNG 文件。
其他瀏覽器具有類似的功能,例如 Firefox 的 “另存為 PDF” 加載項。
您也可以使用專門用于 HTM / HTML 進行圖像文件轉換的網站,例如iWeb2Shot 或Web-capture 。
一個免費的文件轉換器可以用來轉換并保存 HTM / HTML 文件到您的計算機。如 FileZigZag 是一個免費的文檔轉換器網站,可將 HTM 轉換為RTF,EPS,CSV,PDF 和許多其他格式。
HTM / HTML 文件不能轉換為文本文件格式以外的任何格式。例如,HTML 文件永遠不能轉換為 MP3 音頻文件。
HTML / HTM 文件應該很容易打開,因為它們只是任何 Web 瀏覽器都可以查看的文本文件。如果您的文件沒有從上面建議的任何程序打開,則很有可能正在打開的這個文件并非超文本標記語言文件。
某些文件格式使用的文件擴展名與 HTML / HTM 非常相似,但實際上并非相同。一個主要的示例是用于壓縮 HTML 電子書文件的 HTMLZ 文件擴展名。有 HTML 文件在內的 HTMLZ 文件,但整個包的格式為 ZIP,不會在 Web 瀏覽器或文本編輯器打開。
在此示例中,您需要特定的 HTMLZ 文件查看器,例如Caliber 。或者,由于此文件格式實際上是存檔,因此您可以使用 7-Zip 之類的文件解壓縮器將其打開,然后您可以使用網絡瀏覽器或上述任何其他 HTML 查看器/編輯器打開任何單獨的 HTML 文件。
TMLANGUAGE 是另一個可能與 HTML / HTM 文件混淆的文件擴展名。這些實際上是TextMate 用于 macOS 的 TextMate 語言語法文件。
以上就是編程獅W3Cschool為你整理的關于《什么是HTM或HTML文件?如何打開、編輯和轉換HTM和HTML文件?》的全部內容,現希望可以幫到你~
*請認真填寫需求信息,我們會在24小時內與您取得聯系。