MHT Viewer for Mac(mht查看器)

MHT Viewer for Mac(mht查看器) v3.2激活版

容介紹

MHT Viewer for Mac一款方便的MHT MHTML,MIME HTML文檔查看器。mht viewer mac可解析和訪問MHT格式文件,并且能夠以最快速度批量打開MHT文件。測試環境：MacOS 11.3.1

MHT Viewer for Mac安裝教程

mht viewer mac下載完成后，雙擊安裝，根據安裝器提示進行安裝即可。

mht viewer mac軟件功能

免費的MHT查看器可以打開和查看無限的MHT文件,而不會出現錯誤。

MHT文件查看器可以打開和預覽MHT文件。

免費的MHT閱讀器可以處理IE,Chrome創建的MHT文件。

顯示搜索,加載和查看MHT文件的簡單過程。

批量打開MHT文件的獨特選項。

瀏覽充滿MHT文件的文件夾并一次性加載所有文件。

沒有文件大小或文件內容限制來打開MHTML / MHT文件格式。

嘗試查看MHT文件時,將保留數據完整性。

MHT Viewer使用教程

用戶可以直接通過此網站下載對應的安裝包,然后即可進行解壓,雙擊程序即可將其打開

雙擊后,即可彈出對應的用戶界面,整個用戶界面的功能模塊分布非常清晰

選擇“ MHT文件”文件夾已在軟件面板中加載文件。

從您的計算機中選擇MHT文件,然后依次“打開”以繼續

選擇任何特定的MHT來閱讀和預覽其信息。

它是MHTML文檔的備用名稱和后綴,默認格式為Internet Explorer隨同存儲的網頁的存檔格式的MHTML文檔。

此文件格式可以包含各種資源,例如Java,圖像,音頻,Flash等,以及所有外部鏈接以及HTML代碼。

有多種原因需要創建MHT文件,因為保存網頁很有用,因為它允許離線訪問特定網頁。

很多時候,用戶需要捕獲網頁上的內容以備將來使用。

因此,他們通過在系統上創建MHT文件來存儲網頁。

下載：https://www.macv.com/mac/3172.html?id=NDcwODQ%3D

HT Viewer for Ma是一款輕量級的.mht、.mhtm、.mhtml文檔查看器/閱讀器。可快速閱讀，還支持文本縮放或者放大，支持蘋果芯片，趕快試試吧。

詳情盡在：https://www.macz.com/mac/8152.html?id=ODE3NDU1Jl8mMjcuMTg2LjEyNy4yNTQ%3D

所周知,python最強大的地方在于，python社區匯總擁有豐富的第三方庫，開源的特性，使得有越來越多的技術開發者來完善。

python的完美性。

未來人工智能，大數據方向，區塊鏈的識別和進階都將以python為中心來展開。

咳咳咳！好像有點打廣告的嫌疑了。

當前互聯網信息共享時代，最重要的是什么?是數據。最有價值的是什么？是數據。最能直觀體現技術水平的是什么?還是數據。

所以，今天我們要分享的是：如何來獲取各個文件格式的文本信息。

普通文件的格式一般分為: txt普通文本信息，doc word文檔，html網頁內容，excel表格數據，以及特殊的mht文件。

一、Python處理html網頁信息

html類型的文本數據，內容是由前端代碼書寫的標簽+文本數據的格式，可以直接在chrome瀏覽器打開，清楚的展示出文本的格式。

python 獲取html文件的內容和獲取txt文件的方法相同，直接打開文件讀取就可以了。

讀取代碼如下:

with open(html_path, "r", encoding="utf-8") as f:
 file=f.read()

file 是html文件的文本內容。是一個網頁標簽的格式內容。

二、Python處理excel表格信息

python擁有直接操作excel表格的第三方庫xlwt,xlrd。調用對應的方法就可以讀寫excel表格數據。

讀取excel操作代碼如下:

filepath="C:\\Users\Administrator\Desktop\新建文件夾\笨笨 前程6份 武漢.xls"
sheet_name="UserList"
rb=xlrd.open_workbook(filepath)
sheet=rb.sheet_by_name(sheet_name)
# clox_list=[0, 9, 14, 15, 17]
for row in range(1, sheet.nrows):
 w=WriteToExcel()
 # for clox in clox_list:
 name=sheet.cell(row, 0).value
 phone=sheet.cell(row, 15).value
 address=sheet.cell(row, 9).value
 major=sheet.cell(row, 14).value
 age=sheet.cell(row, 8).value

其中row是表格數據對應的行數， cell獲取具體行數，列數的具體數據。

三、Python讀取doc文檔數據

python讀取doc文檔是最麻煩的。處理邏輯復雜。處理的方式也有很多種。

python 沒有直接處理doc文檔的第三方庫，但是有一個處理docx的第三方庫。可以通過將doc文件轉換為docx文件，再調用第三方python庫pydocx來讀取doc文檔的內容。

這里需要注意的是,不要直接修改doc的后綴來修改成docx文件。直接通過修改后綴獲取的docx文件，pydocx無法讀取內容。

我們可以使用另外一個庫來修改doc為docx。

具體代碼如下:

def doSaveAas(self, doc_path):
 """
 將doc文檔轉換為docx文檔
 :rtype: object
 """
 docx_path=doc_path.replace("doc", "docx")
 word=wc.Dispatch('Word.Application')
 doc=word.Documents.Open(doc_path) # 目標路徑下的文件
 doc.SaveAs(docx_path, 12, False, "", True, "", False, False, False, False) # 轉化后路徑下的文件
 doc.Close()
 word.Quit()

代碼所需的包接口:

import os
import zipfile
from win32com import client as wc
import xlrd
from bs4 import BeautifulSoup
from pydocx import PyDocX
from lxml import html
from xpath_content import XpathContent
from write_to_excel import WriteToExcel

python處理docx文檔的方法有很多種，具體使用情況，根據個人需求來決定。

No.1 解壓docx文件

docx文件的原理，本質上就是一個壓縮的zip文件，通過解壓以后，就可以獲取原來文件的各個內容。

docx解壓后的文件結構如下:

docx文件的文本內容存儲結構如下:

文本內容存儲于word/document.xml文件中。

第一種方法，我們就可以先將docx還原成zip壓縮文件，再解壓zip文件，讀取word/document.xml文件的內容就ok了。

具體操作代碼如下:

def get_content(self):
 """
 獲取docx文檔的文本內容
 :rtype: object
 """
 os.chdir(r"C:\Users\Administrator\Desktop\新建文件夾") # 改變目錄到文件的目錄
 #
 os.rename("51 2014.09.12 1份Savannah.docx", "51 2014.09.12 1份Savannah.ZIP") # 重命名為zip文件
 f=zipfile.ZipFile('51 2014.09.12 1份Savannah.ZIP', 'r') # 進行解壓
 xml=f.read("word/document.xml")
 wordObj=BeautifulSoup(xml.decode("utf-8"))
 # print(wordObj)
 texts=wordObj.findAll("w:t")
 content=[]
 for text in texts:
 content.append(text.text)
 content_str="".join(content)
 return content_str

最后獲取到的就是docx文檔的所有文本數據了。

No.2 將docx文檔轉換成python能夠處理的文本格式

第一種方法，是依據docx文檔的原理來獲取數據,流程有點繁瑣，有沒有能直接讀取docx文檔內容的方法呢？答案，肯定是沒有的，別想了，洗洗回家睡吧。

直接讀取docx文檔的方法沒有，有沒有能夠將docx文檔轉換成python能夠輕松處理的文本格式呢？

這個可以有，前面說了，python擁有大量豐富的第三方庫（先夸一波我大python）,歷經千辛萬苦終于找到了，一個能轉換docx文檔格式的第三方庫,pydocx,pydocx庫中有個方法pydocx.to_html()就可以直接將docx文檔轉換為html文件，怎么樣？意不意外，驚喜不驚喜！

第二種方法，轉換文本格式的代碼如下:

def docx_to_html(self, docx_path):
 """
 docx文檔轉換成html響應
 :rtype: object
 """
 # docx_path="C:\\Users\Administrator\Desktop\新建文件夾\\51 2014.09.12 1份Savannah.docx"
 response=PyDocX.to_html(docx_path)

獲取到的response是html文件內容。

四、Python處理mht文件

mht文件是一種只能在IE瀏覽器上展示的文本格式，在chrome瀏覽器中打開是一堆的亂碼。

No.1 偽造IE請求mht文件內容

最基礎的讀取mht文本的方法就是偽造IE瀏覽器請求。

調用requests庫，發送get請求網頁鏈接，構造IE的請求頭信息。

理論上來說，這種方法是可行的。但是呢，不建議用，原因大家都懂得。

No.2 轉換文件格式

好了說正經的方法，猜測mht文件能否修改成其他文件格式來直接讀取呢？

docx,不行；html，不行；excel，更不用說了。

真相只有一個！！！

直接修改后綴得到的docx，無法讀取。

so,我們想到的方法是什么呢。沒錯，就是修改成doc文檔。

方法是匪夷所思的，但也是靈感一現。

mht可以直接通過修改后綴轉換成doc文檔，doc文檔讀取文本內容的方法具體參考上面讀取doc文檔的方法。

如何獲取html文本的內容？

html文本的內容是網頁結構標簽數據，取出文本的方式是：re正則，或者xpath。

后續，小伙伴有需要的話，會再開一章詳細了解re,xapth的使用規則。

來源網絡，侵權聯系刪除

在線咨詢

上一篇：JS中的重載-如何實現一個類似這樣的功能，我也想玩玩
下一篇：網頁前端設計-13a鏈接-調用javaScript腳

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

MHT Viewer for Mac(mht查看器)

容介紹

MHT Viewer for Mac安裝教程

mht viewer mac軟件功能

MHT Viewer使用教程

您的項目需求