Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 亚洲精品第一页,亚洲免费视频一区二区三区,久操免费视频

          整合營(yíng)銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          快速編寫HTML / CSS代碼的方法,您掌握了嗎?

          章中,我介紹了一種使用類似CSS的選擇器語(yǔ)法的快速編寫HTML代碼的新方法-一組用于高速HTML和CSS編碼的便捷工具。

          您花費(fèi)多少時(shí)間編寫HTML代碼:所有這些標(biāo)記,屬性,引號(hào),花括號(hào)等。如果您選擇的編輯器具有代碼補(bǔ)全功能,則您會(huì)更輕松,但是您仍然需要進(jìn)行大量鍵入操作。

          但是,如果您不僅可以使用CSS選擇器來(lái)樣式化和訪問(wèn)元素,還可以生成代碼怎么辦?例如,如果您可以寫這個(gè)呢?

          										div#content>h1+p
          

          …并將其視為輸出?

          現(xiàn)在,讓我們看看這些工具是如何工作的。

          展開(kāi)縮寫

          擴(kuò)展縮寫功能將類似CSS的選擇器轉(zhuǎn)換為XHTML代碼。術(shù)語(yǔ)“縮寫”可能有些混亂。為什么不將其稱為“ CSS選擇器”呢?好吧,第一個(gè)原因是語(yǔ)義上的:“選擇器”意味著選擇某些內(nèi)容,但是在這里,我們實(shí)際上是在生成某些內(nèi)容,編寫了較長(zhǎng)代碼的較短表示。其次,除了引入一些新的運(yùn)算符之外,它僅支持真正的CSS選擇器語(yǔ)法的一小部分。

          以下是受支持的屬性和運(yùn)算符的列表:

          • E元素名稱(div,p);
          • E·ID元素具有標(biāo)識(shí)符(div#content,p#intro,span#error);
          • E.class使用類的元素(div.header,p.error.critial)。您可以結(jié)合類和ID,也:div#content.column.width;
          • E> N子元素(div>p,div#footer>p>span);
          • E + N同級(jí)元素(h1+p,div#header+div#content+div#footer);
          • E * N元素乘法(ul#nav>li*5>a);
          • E $ * N項(xiàng)目編號(hào)(ul#nav>li.item-$*5);

          如您所見(jiàn),您已經(jīng)知道如何使用:只需編寫一個(gè)類似CSS的簡(jiǎn)單“縮寫”,就像這樣……

          							div#header>img.logo+ul#nav>li*4>a
          

          …然后調(diào)用“擴(kuò)展縮寫”操作。

          有兩個(gè)自定義運(yùn)算符:元素乘法和項(xiàng)目編號(hào)。例如,如果要生成五個(gè)<li>元素,則只需編寫li*5。它將重復(fù)所有后代元素。如果您需要四個(gè)<li>元素,<a>每個(gè)元素中都有一個(gè),則只需編寫li*4>a,它將生成以下輸出:

          當(dāng)您想用其索引標(biāo)記重復(fù)的元素時(shí),使用最后一個(gè)項(xiàng)目編號(hào)。假設(shè)你想生成三個(gè)<div>的元素item1,item2和item3類。您可以寫這個(gè)縮寫div.item$*3:

          只需在要顯示索引的class或ID屬性中的任意位置添加一個(gè)美元符號(hào),即可。所以這…

           div#i$-test.class$$$*5
          

          將被轉(zhuǎn)換為:

          您會(huì)看到在輸入a縮寫時(shí),輸出為<a href=“”></a>?;蛘?,如果您編寫img,輸出為<img src=“” alt=“” />。

          本人從事web前端5年,現(xiàn)在從事在線教育,準(zhǔn)備了整理了一套適合小白學(xué)習(xí)資料免費(fèi)分享給大家,想要的朋友可以私信 1

          、結(jié)論寫在前面

          論文標(biāo)題:Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs

          論文鏈接:https://arxiv.org/pdf/2406.20098

          項(xiàng)目鏈接:https://mbzuai-llm.github.io/webpage2code/

          多模態(tài)大型語(yǔ)言模型(MLLMs)在圖像、視頻和音頻等多種模態(tài)的理解和生成任務(wù)中展現(xiàn)了顯著的成功。然而,現(xiàn)有的MLLMs在理解網(wǎng)頁(yè)截圖并生成相應(yīng)HTML代碼方面表現(xiàn)驚人地差。

          為了解決這一問(wèn)題,論文提出了Web2Code,這是一個(gè)由高質(zhì)量、大規(guī)模的網(wǎng)頁(yè)到代碼指令調(diào)優(yōu)數(shù)據(jù)集(包含1179.7k條目)和評(píng)估套件組成的基準(zhǔn),用于評(píng)估多模態(tài)大語(yǔ)言模型的網(wǎng)頁(yè)理解和網(wǎng)頁(yè)到HTML轉(zhuǎn)換能力。在數(shù)據(jù)集構(gòu)建方面,論文利用預(yù)訓(xùn)練的LLMs增強(qiáng)現(xiàn)有的網(wǎng)頁(yè)轉(zhuǎn)代碼數(shù)據(jù)集,并生成多樣化的網(wǎng)頁(yè)渲染圖像池。具體而言,輸入是網(wǎng)頁(yè)圖像和指令,而輸出是網(wǎng)頁(yè)的HTML代碼。論文進(jìn)一步在響應(yīng)中包含關(guān)于網(wǎng)頁(yè)內(nèi)容的多樣化自然語(yǔ)言QA對(duì),以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)內(nèi)容的更全面理解。

          為了評(píng)估模型在這些任務(wù)中的性能,論文開(kāi)發(fā)了一個(gè)評(píng)估框架,用于測(cè)試MLLMs在網(wǎng)頁(yè)理解和網(wǎng)頁(yè)轉(zhuǎn)代碼生成方面的能力。大量實(shí)驗(yàn)表明,論文提出的數(shù)據(jù)集不僅對(duì)所提出的任務(wù)有益,而且在通用視覺(jué)領(lǐng)域也表現(xiàn)出優(yōu)勢(shì),而先前的數(shù)據(jù)集則導(dǎo)致性能下降。

          然而,Web2Code的主要局限性包括:潛在的數(shù)據(jù)集偏差可能無(wú)法涵蓋所有可能的HTML編碼場(chǎng)景,可能導(dǎo)致模型性能出現(xiàn)差距;一些包含人物的網(wǎng)頁(yè)可能涉及隱私敏感問(wèn)題。確保高質(zhì)量的注釋和全面覆蓋所有可能的HTML和代碼結(jié)構(gòu)是具有挑戰(zhàn)性的。此外,處理復(fù)雜的、真實(shí)世界的HTML和代碼場(chǎng)景可能仍超出了在此數(shù)據(jù)集上訓(xùn)練的模型的當(dāng)前能力。此外,提出的評(píng)估框架可能無(wú)法捕捉代碼生成質(zhì)量的所有方面,如代碼效率、可讀性或?qū)ψ罴褜?shí)踐的遵守。

          二、論文的簡(jiǎn)單介紹

          2.1 論文的背景

          現(xiàn)有的MLLMs在理解網(wǎng)頁(yè)截圖并生成表達(dá)其潛在狀態(tài)的HTML代碼方面表現(xiàn)驚人地差。例如,給定指令“解析此網(wǎng)頁(yè)的HTML代碼”,知名的LLaVA-1.5生成了通用的、蒼白的代碼,未能保留原始網(wǎng)頁(yè)的大部分特征(見(jiàn)圖1),這阻礙了其在UI原型設(shè)計(jì)、自動(dòng)化代理和可訪問(wèn)性(例如,根據(jù)網(wǎng)頁(yè)截圖注明可用按鈕和選項(xiàng))等應(yīng)用中的實(shí)用性。

          圖1:論文構(gòu)建Web2Code數(shù)據(jù)集的動(dòng)機(jī)源于先前模型的局限性,例如LLaVA [33],這些模型在通用數(shù)據(jù)集上訓(xùn)練,難以生成高質(zhì)量的網(wǎng)頁(yè),如第二行所示。論文的數(shù)據(jù)集旨在顯著提升網(wǎng)頁(yè)生成的質(zhì)量,如第三行所示,同時(shí)保持強(qiáng)大的通用多模態(tài)能力

          MLLMs進(jìn)展背后的關(guān)鍵要素可以說(shuō)是大規(guī)模指令數(shù)據(jù)集和評(píng)估基準(zhǔn)——前者用于將多模態(tài)輸入與LLMs中的海量知識(shí)對(duì)齊,后者用于標(biāo)準(zhǔn)化比較,促進(jìn)模型開(kāi)發(fā)。然而,現(xiàn)有的指令數(shù)據(jù)集和基準(zhǔn)通常關(guān)注通用設(shè)置(例如,視覺(jué)問(wèn)答和推理),對(duì)網(wǎng)頁(yè)理解和網(wǎng)頁(yè)到代碼生成關(guān)注不足,這需要光學(xué)字符識(shí)別(OCR)、空間推理、長(zhǎng)文本生成等能力的獨(dú)特組合。盡管先前的工作已經(jīng)為這些任務(wù)開(kāi)發(fā)了數(shù)據(jù)集,它們?nèi)狈χ噶钚畔?,不適合與通用MLLMs集成。另一方面,流行的基準(zhǔn)單獨(dú)評(píng)估了一些所需能力,但沒(méi)有完全結(jié)合進(jìn)行網(wǎng)頁(yè)的視覺(jué)解析和推理。

          為了填補(bǔ)這一空白,論文提出了一種新的指令調(diào)優(yōu)數(shù)據(jù)集和評(píng)估套件,名為Web2Code。Web2Code總共包含1179.7萬(wàn)個(gè)基于網(wǎng)頁(yè)的指令-響應(yīng)對(duì)。這些響應(yīng)不僅包括IHTML代碼,還包括關(guān)于網(wǎng)頁(yè)的結(jié)構(gòu)化問(wèn)題和答案,這些有助于模型更好地理解其信息。在數(shù)據(jù)集收集方面,論文使用GPT-3.5和GPT-4來(lái)清理現(xiàn)有數(shù)據(jù)(例如WebSRC )以及生成全新的HTML代碼網(wǎng)頁(yè)。為了評(píng)估MLLM在網(wǎng)頁(yè)理解和HTML解析方面的成功,論文提出了網(wǎng)頁(yè)理解基準(zhǔn)(WUB)和網(wǎng)頁(yè)代碼生成基準(zhǔn)(WCGB),這兩個(gè)任務(wù)分別測(cè)試模型回答網(wǎng)頁(yè)相關(guān)問(wèn)題和生成其HTML代碼的能力。對(duì)于后一個(gè)任務(wù),論文發(fā)現(xiàn)傳統(tǒng)的文本相似度指標(biāo)不足以評(píng)估生成代碼的忠實(shí)度,因此提出將輸出HTML渲染回網(wǎng)頁(yè)截圖,并使用GPT-4V 來(lái)評(píng)估生成的網(wǎng)頁(yè)質(zhì)量。

          為了展示論文數(shù)據(jù)集的實(shí)用性,論文在指令微調(diào)階段包括論文的數(shù)據(jù)集來(lái)訓(xùn)練LLaVA風(fēng)格的MLLM。定量結(jié)果顯示,在論文的數(shù)據(jù)集上進(jìn)行微調(diào)不僅明顯提高了MLLM的圖像到HTML代碼轉(zhuǎn)換能力,還略微提升了模型在一般基準(zhǔn)上的感知和推理能力。相比之下,包含之前的數(shù)據(jù)集而不進(jìn)行論文的數(shù)據(jù)轉(zhuǎn)換會(huì)導(dǎo)致整體性能下降,這表明論文的數(shù)據(jù)集適合納入MLLM指令微調(diào),以增加額外能力而不影響現(xiàn)有能力。

          2.2 數(shù)據(jù)集構(gòu)建

          概述。論文的Web2Code指令調(diào)優(yōu)數(shù)據(jù)集構(gòu)建和指令生成過(guò)程涉及四個(gè)關(guān)鍵組件:(1)創(chuàng)建新的網(wǎng)頁(yè)圖像-代碼對(duì)數(shù)據(jù):論文遵循CodeAlpaca提示[6]使用GPT-3.5生成高質(zhì)量的HTML網(wǎng)頁(yè)-代碼對(duì),并將其轉(zhuǎn)換為遵循指令的數(shù)據(jù)。(2)改進(jìn)現(xiàn)有網(wǎng)頁(yè)代碼生成數(shù)據(jù):論文將包括WebSight[22]和Pix2Code[4]在內(nèi)的現(xiàn)有數(shù)據(jù)集轉(zhuǎn)換為類似于LLaVA數(shù)據(jù)[33]的遵循指令的數(shù)據(jù)格式,以便它們可以作為遵循指令的數(shù)據(jù)用于訓(xùn)練多模態(tài)大型語(yǔ)言模型(MLLMs)。(3)創(chuàng)建新的文本問(wèn)答對(duì)數(shù)據(jù):論文利用從(1)中生成的新GPT-3.5數(shù)據(jù),為網(wǎng)頁(yè)理解生成新的問(wèn)答對(duì)數(shù)據(jù)集。(4)改進(jìn)現(xiàn)有網(wǎng)頁(yè)理解數(shù)據(jù):論文使用GPT-4改進(jìn)WebSRC[10]問(wèn)答數(shù)據(jù),以提高其質(zhì)量。每個(gè)組件詳細(xì)說(shuō)明如下:

          DWCG:為代碼生成創(chuàng)建新的網(wǎng)頁(yè)圖像-代碼對(duì)數(shù)據(jù)。為了增強(qiáng)論文的數(shù)據(jù)集,論文使用GPT-3.5按照CodeAlpaca[6]中的指南和提示生成了60K個(gè)HTML頁(yè)面。然后使用Selenium WebDriver從生成的HTML代碼中創(chuàng)建網(wǎng)頁(yè)截圖。這些網(wǎng)頁(yè)圖像-代碼對(duì)隨后被轉(zhuǎn)換為類似于LLaVA數(shù)據(jù)格式[33]的遵循指令的數(shù)據(jù)格式,使其可用于訓(xùn)練多模態(tài)大型語(yǔ)言模型(MLLMs)。指令的示例如圖16所示。指令的生成分兩個(gè)階段使用輸入到GPT-4的提示完成:(a)在第1階段,如圖12所示的提示產(chǎn)生了通用指令。(b)隨后,通過(guò)使用GPT生成的指令增強(qiáng)(a)中的指令使用圖13所示的提示,包含樣式信息。這使得模型能夠?qū)W習(xí)兩種樣式:現(xiàn)代風(fēng)格和Bootstrap風(fēng)格,分別如圖21和圖22所示

          圖2:生成的問(wèn)答對(duì)數(shù)據(jù)集的定性示例。問(wèn)題涵蓋了網(wǎng)頁(yè)理解的多個(gè)方面

          圖3:WebSRC數(shù)據(jù)改進(jìn)以提高質(zhì)量。左:改進(jìn)前;右:改進(jìn)后,質(zhì)量得到提升,重復(fù)內(nèi)容已被排除

          DWCGR:現(xiàn)有網(wǎng)頁(yè)代碼生成數(shù)據(jù)的細(xì)化。為了增強(qiáng)模型在HTML代碼生成任務(wù)中的能力,論文利用了Pix2code 和WebSight 數(shù)據(jù)集。為了減輕Pix2Code數(shù)據(jù)中隨機(jī)字母對(duì)模型性能的負(fù)面影響,論文使用GPT-4將這些隨機(jī)字母替換為有意義的文本,從而將網(wǎng)頁(yè)細(xì)化為包含產(chǎn)品落地頁(yè)、個(gè)人作品集、博客等多個(gè)類別的多樣化網(wǎng)頁(yè)。然后,論文通過(guò)截取每個(gè)網(wǎng)頁(yè)的瀏覽器視圖來(lái)對(duì)其進(jìn)行可視化渲染。進(jìn)一步地,論文使用與DWCG相同的策略將所有這些數(shù)據(jù)轉(zhuǎn)換為L(zhǎng)LaVA指令遵循數(shù)據(jù)格式。論文注意到,DWCG和WebSight網(wǎng)頁(yè)遵循現(xiàn)代風(fēng)格,而Pix2Code遵循Bootstrap風(fēng)格。

          DWU:網(wǎng)頁(yè)理解新問(wèn)題-答案對(duì)數(shù)據(jù)的創(chuàng)建。為了通過(guò)指令遵循方式微調(diào)論文的模型,論文利用了GPT-4的能力生成基于網(wǎng)頁(yè)代碼的問(wèn)題-答案對(duì)。論文對(duì)24.35K網(wǎng)頁(yè)數(shù)據(jù)子集使用GPT-4生成了10個(gè)問(wèn)題-答案對(duì),共計(jì)產(chǎn)生了243.5K問(wèn)題-答案數(shù)據(jù)點(diǎn)。這包括一組230K針對(duì)基于GPT-3.5網(wǎng)頁(yè)的問(wèn)題-答案對(duì),以及一組13.5K為精細(xì)化的Pix2Code圖像新生成的問(wèn)題答案對(duì)。這些對(duì)子精心設(shè)計(jì),以符合論文的基于圖像的評(píng)估標(biāo)準(zhǔn),確保每個(gè)問(wèn)題都能深入探究生成網(wǎng)頁(yè)圖像中反映的視覺(jué)和內(nèi)容質(zhì)量的特定方面。此策略通過(guò)將評(píng)估參數(shù)的細(xì)致理解融入學(xué)習(xí)過(guò)程中,提升了模型的性能。圖2展示了一個(gè)來(lái)自論文生成的問(wèn)題-答案對(duì)的定性示例。問(wèn)題-答案生成的提示語(yǔ)如圖11所示。

          DWUR:現(xiàn)有網(wǎng)頁(yè)理解數(shù)據(jù)的細(xì)化。為了增加高質(zhì)量指令遵循示例的指令遵循數(shù)據(jù)集,論文將WebSRC數(shù)據(jù)集整合到論文的訓(xùn)練機(jī)制中。在納入之前,論文精心篩選了WebSRC數(shù)據(jù)集中現(xiàn)有的問(wèn)答對(duì),以確保相關(guān)性和質(zhì)量。這包括去重和質(zhì)量?jī)?yōu)化,如圖3所示。具體而言,論文發(fā)現(xiàn)WebSRC數(shù)據(jù)包含多個(gè)與同一答案相關(guān)的問(wèn)題。為此,論文首先移除了這些重復(fù)項(xiàng),然后使用GPT-4評(píng)估并提升答案質(zhì)量。這一過(guò)程不僅將數(shù)據(jù)集精煉為51.5K高質(zhì)量指令數(shù)據(jù),還確保模型訓(xùn)練受到高保真、指令性強(qiáng)的數(shù)據(jù)影響,從而提高其遵循復(fù)雜網(wǎng)頁(yè)指令的能力。

          2.2.1 統(tǒng)計(jì)與分析

          圖4展示了論文問(wèn)題-答案數(shù)據(jù)集中答案集的詞云。詞云突出了最常出現(xiàn)的術(shù)語(yǔ),其中“section”、“color”、“button”和“website”最為顯著,表明數(shù)據(jù)對(duì)結(jié)構(gòu)和設(shè)計(jì)元素的強(qiáng)烈關(guān)注。這反映了數(shù)據(jù)集對(duì)布局和視覺(jué)方面的細(xì)致關(guān)注。

          圖5展示了論文GPT-3.5生成的HTML數(shù)據(jù)中最常見(jiàn)HTML標(biāo)簽的分布情況。該分布顯示了如<div>、<p>、<meta>、<img>和<a>等基本結(jié)構(gòu)標(biāo)簽的高頻出現(xiàn),表明生成的頁(yè)面包含了豐富多樣的元素,這些元素是構(gòu)成豐富和多樣網(wǎng)頁(yè)內(nèi)容的必要組成部分。<h2>、<input>、<html>、<head>和<body>標(biāo)簽的顯著存在進(jìn)一步強(qiáng)化了生成HTML文檔的完整性和結(jié)構(gòu)完整性。

          為了估計(jì)論文基于HTML的網(wǎng)頁(yè)數(shù)據(jù)集的難度水平,論文提供了幾個(gè)定量指標(biāo),并與近期及類似的現(xiàn)有數(shù)據(jù)集進(jìn)行比較,即WebSight [22]、Design2Code [50]和Pix2Code [4](見(jiàn)表1)。

          Design2Code主要用于測(cè)試,且樣本量較?。?84個(gè)示例),限制了其多功能性和魯棒性。相比之下,論文的數(shù)據(jù)集旨在用于訓(xùn)練和測(cè)試,樣本量顯著更大(884.7K個(gè)示例)且更復(fù)雜,更適合開(kāi)發(fā)魯棒模型。總體而言,與WebSight等先前努力相比,論文的基準(zhǔn)示例更具挑戰(zhàn)性,涵蓋了更廣泛的復(fù)雜性范圍。

          表1:網(wǎng)頁(yè)代碼生成數(shù)據(jù)集之間的數(shù)據(jù)統(tǒng)計(jì)比較:WebSight、Design2Code、Pix2Code、論文的DWCG以及論文的DWCGp。DWCG是一個(gè)新近基于GPT-3.5生成的數(shù)據(jù)集,而DWCGp是利用WebSight和Pix2Code數(shù)據(jù)集精煉的數(shù)據(jù)集

          2.2.2 數(shù)據(jù)分布

          論文的指令遵循數(shù)據(jù)集包含 1,179.7K 條指令數(shù)據(jù)點(diǎn)。這包括 884.7K 網(wǎng)頁(yè)圖像-代碼對(duì)和 295K 問(wèn)答對(duì)。

          295K 問(wèn)答對(duì)由 243.5K 基于 GPT-4 的問(wèn)答對(duì)(DWU 數(shù)據(jù))和 51.5K 來(lái)自 WebSRC 圖像數(shù)據(jù)的問(wèn)答對(duì)組成,如表 2 所示。論文的評(píng)估數(shù)據(jù)集包含 1,198 個(gè)網(wǎng)頁(yè)截圖圖像來(lái)源多樣,包括WebSight、Pix2Code、基于GPT-3.5的數(shù)據(jù)以及人工處理,確保廣泛代表網(wǎng)頁(yè)內(nèi)容。此外,論文利用GPT-4 Vision API生成的5,990對(duì)“是”/“否”問(wèn)答對(duì)用于論文的網(wǎng)頁(yè)理解基準(zhǔn)測(cè)試,如第4.1節(jié)所示。

          表 2:DWU 和 DWU 數(shù)據(jù)集的分布。兩個(gè)數(shù)據(jù)集均包含高質(zhì)量的網(wǎng)頁(yè)理解問(wèn)答對(duì)。

          圖4:基于GPT4的DWU數(shù)據(jù)集答案集的詞云圖。

          2.3 網(wǎng)頁(yè)的新評(píng)估框架

          論文提出的評(píng)估框架包括兩種方案:(1) 網(wǎng)頁(yè)理解基準(zhǔn)(WUB):使用“是”/“否”問(wèn)題的離線評(píng)估。(2) 網(wǎng)頁(yè)代碼生成基準(zhǔn)(WCGB):基于圖像相似度的在線評(píng)估(使用GPT4 Vision)。

          2.3.1 HTML代碼生成的評(píng)估指標(biāo)

          在評(píng)估代碼質(zhì)量,特別是最終視覺(jué)效果和整體功能方面,依賴代碼相似度指標(biāo)的現(xiàn)有方法存在不足。這些傳統(tǒng)方法往往缺乏對(duì)代碼效果進(jìn)行細(xì)致評(píng)估所需的精確性和可靠性。為解決這些不足,論文開(kāi)發(fā)了一種新方法:使用模型預(yù)測(cè)的HTML代碼重新生成網(wǎng)頁(yè),并捕獲這些生成網(wǎng)頁(yè)的屏幕截圖。此過(guò)程通過(guò)Python中的Selenium WebDriver擴(kuò)展實(shí)現(xiàn)自動(dòng)化,將重點(diǎn)從不太可靠的代碼相似度評(píng)估轉(zhuǎn)向更準(zhǔn)確和視覺(jué)導(dǎo)向的方法。通過(guò)比較生成網(wǎng)頁(yè)的圖像,論文可以更有效地評(píng)估代碼的美觀和功能方面,提供對(duì)其質(zhì)量更全面的理解。

          圖6:網(wǎng)頁(yè)生成與網(wǎng)頁(yè)理解的評(píng)估基準(zhǔn)。左側(cè):WCGB利用基于GPT4 Vision的在線評(píng)估進(jìn)行圖像級(jí)比較;右側(cè):WUB采用基于問(wèn)答對(duì)的離線評(píng)估

          論文提出兩個(gè)基準(zhǔn)用于評(píng)估網(wǎng)頁(yè)理解和代碼生成能力

          WUB: 這個(gè)基準(zhǔn)包含5,990對(duì)高質(zhì)量的問(wèn)答對(duì),由GPT-4 Vision API基于1,198張網(wǎng)頁(yè)截圖生成(見(jiàn)提示15),每個(gè)答案要么是"是"要么是"否"。這些圖像來(lái)源廣泛,包括WebSight、Pix2Code、GPT-3.5和人工處理,確保了網(wǎng)頁(yè)內(nèi)容的廣泛代表性。圖10展示了論文用于WUB的定性樣本數(shù)據(jù)。論文通過(guò)比較預(yù)測(cè)答案和真實(shí)答案來(lái)測(cè)試各種多模態(tài)圖像理解模型,最終準(zhǔn)確率作為評(píng)估指標(biāo),如圖6右側(cè)所示。論文WUB基準(zhǔn)中的定性數(shù)據(jù)示例如圖10所示。

          WCGB: 使用與WUB相同的圖像,這個(gè)基準(zhǔn)評(píng)估多模態(tài)模型根據(jù)特定指令從網(wǎng)頁(yè)圖像生成HTML代碼的能力。與傳統(tǒng)的代碼級(jí)評(píng)估不同,這個(gè)基準(zhǔn)在圖像級(jí)別評(píng)估生成網(wǎng)頁(yè)的保真度。論文使用Selenium WebDriver將預(yù)測(cè)的HTML代碼轉(zhuǎn)回圖像,以便與真實(shí)圖像進(jìn)行直接視覺(jué)比較。如圖6左側(cè)所示的評(píng)估考慮了10個(gè)不同方面,這些方面進(jìn)一步使用GPT-4 Vision API分為四個(gè)評(píng)估矩陣。這種圖像級(jí)評(píng)估提供了對(duì)模型代碼生成能力更準(zhǔn)確的衡量,承認(rèn)相同的網(wǎng)頁(yè)可以由不同的代碼構(gòu)建。用于評(píng)估的提示如圖14所示。該框架包括10個(gè)不同的標(biāo)準(zhǔn),論文將其分為四類,每類包含特定標(biāo)準(zhǔn),按0-10的尺度評(píng)分,如附錄D節(jié)所示。

          2.3.2 多模態(tài)大語(yǔ)言模型HTML代碼生成的定量評(píng)估

          論文使用各種數(shù)據(jù)配置和骨干網(wǎng)絡(luò)評(píng)估了訓(xùn)練模型在論文的WUB和WCGB基準(zhǔn)上的表現(xiàn)。模型在代碼生成基準(zhǔn)上的性能如表3所示,而網(wǎng)頁(yè)理解的結(jié)果如表4所示。

          TML即超文本標(biāo)記語(yǔ)言是一種用于創(chuàng)建網(wǎng)頁(yè)的標(biāo)準(zhǔn)標(biāo)記語(yǔ)言。對(duì)于初學(xué)者來(lái)說(shuō)一般可以使用工具來(lái)生成html,如:DW,HB等,這些都是所見(jiàn)即所得的工具,在設(shè)計(jì)視圖將需要展現(xiàn)的文字、段落、圖片等內(nèi)容通過(guò)軟件排好版,在代碼視圖將由軟件自動(dòng)生成對(duì)應(yīng)的HTML代碼,這些代碼由客戶電腦上的瀏覽來(lái)解析執(zhí)行。

          HTML語(yǔ)言是一種優(yōu)美的語(yǔ)言,幾乎所有的標(biāo)記都是成對(duì)出現(xiàn)的,配合CSS樣式和JS腳本來(lái)控制頁(yè)面顯示的樣式及效果。有一定開(kāi)發(fā)經(jīng)驗(yàn)的高手往往可以直接用代碼視圖來(lái)編寫網(wǎng)頁(yè),不管是軟件生成html還是手寫HTML代碼最終顯示的效果都是一致的。如下圖是由DW設(shè)計(jì)的網(wǎng)頁(yè),下方代碼對(duì)應(yīng)的就是HTML代碼,視圖效果和代碼是一一對(duì)應(yīng)的。

          <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">


          主站蜘蛛池模板: 亚洲av无码一区二区三区人妖| 激情综合一区二区三区| 亚洲国产精品一区二区第一页| 久久精品国产第一区二区三区 | 色系一区二区三区四区五区| 另类一区二区三区| 国产AV午夜精品一区二区三| 91精品福利一区二区三区野战| 一级毛片完整版免费播放一区| 亚洲AV成人一区二区三区在线看| 亚洲视频在线一区| 国产一区二区三区在线看| 亚洲AV无码一区二区三区在线观看| 日本高清一区二区三区 | 亚洲一区二区三区在线| 亚洲色精品vr一区二区三区| 国产乱码伦精品一区二区三区麻豆| 怡红院一区二区三区| 国产SUV精品一区二区88| 国产精品久久久久久一区二区三区| 国产吧一区在线视频| 一区二区传媒有限公司| 国模精品视频一区二区三区| 国产在线步兵一区二区三区| 色天使亚洲综合一区二区| 夜夜爽一区二区三区精品| 国产91精品一区二区麻豆亚洲 | 四虎成人精品一区二区免费网站 | 国产在线不卡一区| 中文字幕一区视频一线| 亚洲一区二区三区91| 无码人妻精品一区二区蜜桃百度| 丰满少妇内射一区| 在线观看中文字幕一区| 精品福利一区二区三| 国产福利一区二区精品秒拍| 清纯唯美经典一区二区| 精品国产一区二区三区| 日本不卡一区二区三区| 一区二区高清视频在线观看| 亚洲日本久久一区二区va|