萬字綜述（下）：大語言模型將為神經(jīng)科學(xué)帶來哪些前所未有的機(jī)會(huì)？

| 追問nextquestion

大語言模型（LLMs）是機(jī)器學(xué)習(xí)領(lǐng)域中用于處理和生成自然語言文本的新工具。該文提供了對(duì)該建模技術(shù)的屬性定義，并反思LLMs如何被用來重新構(gòu)建經(jīng)典的神經(jīng)科學(xué)問題，以提供新的答案。

我們認(rèn)為L(zhǎng)LMs有潛力（1）通過添加如高級(jí)文本情感分析等有價(jià)值的元信息來豐富神經(jīng)科學(xué)數(shù)據(jù)集；（2）總結(jié)大量信息來源，以克服孤立的神經(jīng)科學(xué)社群之間的隔閡；（3）促使與大腦相關(guān)的不同信息源得以進(jìn)行前所未有的融合；（4）幫助確定哪些認(rèn)知概念能最有效地把握大腦中的現(xiàn)象。

本文為論文下篇，書接上文LLMs的屬性及能力等背景介紹，重點(diǎn)討論LLMs在解決神經(jīng)科學(xué)與生物醫(yī)學(xué)問題方面的運(yùn)用。

上篇：

萬字綜述：寫給神經(jīng)科學(xué)家的大語言模型基礎(chǔ)原理 | 追問頂刊（上）

? Bzdok, Danilo, et al. "Data science opportunities of large language models for neuroscience and biomedicine." Neuron (2024). https://doi.org/10.1016/j.neuron.2024.01.016

大型語言模型在生物序列中的應(yīng)用

LLM學(xué)習(xí)引擎的歸納能力，不僅適用于詞序列，也同樣適用于各種類型的生物序列，這提供了許多未被充分挖掘的研究機(jī)會(huì)。人類的基因組，這一包含約2萬個(gè)基因的龐大DNA序列庫，構(gòu)成了大腦及身體其他部位細(xì)胞內(nèi)蛋白質(zhì)合成的基石。在此基礎(chǔ)上，“生物學(xué)中心法則”為我們提供了一個(gè)與神經(jīng)科學(xué)直接相關(guān)的自然試驗(yàn)場(chǎng)景，它描述了遺傳信息如何從DNA中的核苷酸序列，通過信使RNA中的堿基序列，最終轉(zhuǎn)化為蛋白質(zhì)產(chǎn)品中的氨基酸序列的流動(dòng)過程。

遺傳學(xué)家的主要目標(biāo)是映射這種遺傳信息的傳遞過程，將DNA序列本身的改變與相應(yīng)的功能影響聯(lián)系起來。為此，MetaAI展示了一種蛋白質(zhì)語言模型（圖3），該模型能從遺傳變異的差異中預(yù)測(cè)表型后果^[29]。通過一個(gè)擁有6.5億參數(shù)的模型，研究者能夠推斷人類基因組中大約4.5億種可能的錯(cuò)義變異效應(yīng)——每種變異都是DNA中單個(gè)核苷酸的替換，這一替換可能導(dǎo)致下游蛋白質(zhì)中的氨基酸交換（有害或良性）。DNA基因編碼中的這些變異特別有趣，因?yàn)樗鼈兩婕翱梢耘c疾病機(jī)制和可能的治療目標(biāo)聯(lián)系起來的蛋白質(zhì)改變。這種方法使我們能全面分析人類和其他生物整個(gè)基因組中的蛋白質(zhì)破壞性損傷變異。

? 圖3，蛋白語言模型可預(yù)測(cè)基因突變的功能影響

此外，我們能否僅從RNA轉(zhuǎn)錄表達(dá)數(shù)據(jù)中自動(dòng)推導(dǎo)出細(xì)胞狀態(tài)和與活躍生物通路相關(guān)的洞見？在單細(xì)胞RNA基因表達(dá)水平上，一個(gè)LLM^[30]在1000萬個(gè)細(xì)胞上進(jìn)行了訓(xùn)練（圖4），每個(gè)細(xì)胞包含大約2萬個(gè)人類基因的一部分表達(dá)值。作為一個(gè)基礎(chǔ)模型的開創(chuàng)性例子（參見上文），基因集在生物學(xué)建模中構(gòu)成有意義的過程，類似于詞語集合在語言中構(gòu)成有意義的句子。通過吸收大量的基因表達(dá)模式，該模型形成了基因間關(guān)系和基因-細(xì)胞關(guān)系的普遍性內(nèi)部表征。除了特定基因的標(biāo)記外，模型還引入了特殊的標(biāo)記來表示元信息，如細(xì)胞類型、數(shù)據(jù)批次以及實(shí)驗(yàn)條件，如信號(hào)通路的擾動(dòng)和RNA轉(zhuǎn)錄測(cè)序使用的技術(shù)。

作者還取消了輸入必須是序列的需求——他們?cè)O(shè)計(jì)了一個(gè)任務(wù)定制的注意力機(jī)制，以緊密把握表達(dá)基因的協(xié)同出現(xiàn)模式。通過基于迭代預(yù)測(cè)集合中新基因表達(dá)的自回歸生成，類似于在連續(xù)的句子中預(yù)測(cè)下一個(gè)詞匯。也就是說，他們將傳統(tǒng)語言模型處理詞序的方式，巧妙轉(zhuǎn)化為在單細(xì)胞基礎(chǔ)模型中處理細(xì)胞對(duì)應(yīng)的基因集合，從而擺脫了輸入必須遵循序列的限制。

這樣一來，模型一旦建立，訓(xùn)練好的基礎(chǔ)LLM就可以進(jìn)行微調(diào)和部署，并在各種不同的下游任務(wù)中獲得性能提升，包括批次校正、細(xì)胞類型注釋和目標(biāo)擾動(dòng)條件的預(yù)測(cè)。這種方法不僅展現(xiàn)了自監(jiān)督學(xué)習(xí)技術(shù)掌握復(fù)雜單細(xì)胞機(jī)制的潛能，還能利用后續(xù)的內(nèi)部嵌入表示，實(shí)現(xiàn)不同器官和物種間的數(shù)據(jù)整合。

? 圖4，從指數(shù)級(jí)增加的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中，構(gòu)建基礎(chǔ)模型以描述細(xì)胞轉(zhuǎn)錄的語法

從基因?qū)用娴?D蛋白質(zhì)結(jié)構(gòu)層面的轉(zhuǎn)變，關(guān)鍵在于能否僅憑一維氨基酸序列預(yù)測(cè)出蛋白質(zhì)的最終三維構(gòu)型。蛋白質(zhì)折疊問題圍繞著我們的DNA是如何壓縮關(guān)于最終蛋白質(zhì)結(jié)構(gòu)信息的。在數(shù)據(jù)庫中有超過2億種蛋白質(zhì)結(jié)構(gòu)，AlphaFold^[31]這一基于大型語言模型的系統(tǒng)，通過捕捉沿著蛋白質(zhì)骨架上遠(yuǎn)離彼此的氨基酸殘基之間的序列相互作用。在這個(gè)給使用暴力（brute force）學(xué)習(xí)的研究中，研究者展示了1D序列信息確實(shí)包含了理解蛋白質(zhì)在自然界中實(shí)際折疊的復(fù)雜過程所需的關(guān)鍵信息。

在蛋白質(zhì)到功能層面，研究者在250億個(gè)蛋白質(zhì)序列（UniParc數(shù)據(jù)庫）的860億個(gè)氨基酸上訓(xùn)練了7億參數(shù)的34層transformer模型^[32]。模型內(nèi)部的嵌入表征僅從序列信息本身獲得。訓(xùn)練好的模型被發(fā)現(xiàn)能夠包含蛋白質(zhì)的生化特性、體內(nèi)形態(tài)結(jié)構(gòu)元素、接觸位點(diǎn)和生物活性相關(guān)知識(shí)。

總的來說，捕捉長(zhǎng)距離相互作用（即輸入序列中相距較遠(yuǎn)的標(biāo)記）不僅在詞序列推理中，也在不同生物序列中有意義的一般原則方面顯得非常有價(jià)值。自然界似乎隱藏著可以被利用來推斷超出實(shí)際序列元素（例如，核酸、基因表達(dá)、氨基酸）的潛在一般規(guī)則，以服務(wù)于下一代計(jì)算生物學(xué)。學(xué)到的序列嵌入可以用于各種下游研究目標(biāo)，包括質(zhì)量控制程序、生物實(shí)體的分組以及增強(qiáng)表型預(yù)測(cè)。

此外，LLMs作為一個(gè)平臺(tái)現(xiàn)已能夠?qū)崿F(xiàn)生物學(xué)中心法則的先進(jìn)計(jì)算模擬，從DNA的雙螺旋結(jié)構(gòu)到基因的轉(zhuǎn)錄表達(dá)，再到完整的蛋白質(zhì)形態(tài)。也就是說，一旦LLM能夠準(zhǔn)確地近似目標(biāo)系統(tǒng)，便能通過復(fù)現(xiàn)嚴(yán)格實(shí)驗(yàn)中的可靠觀察，使研究者得以向詢問LLM詢問，以提取關(guān)于目標(biāo)系統(tǒng)的新分子洞察，并識(shí)別更廣泛的驅(qū)動(dòng)生物機(jī)制。我們警告不要將基于LLM的功能預(yù)測(cè)模型和分子生物學(xué)系統(tǒng)之間視為嚴(yán)格平行，因?yàn)閮烧叽嬖陲@著差異。盡管如此，在未來，LLMs仍將占據(jù)獨(dú)特的位置，有望幫助發(fā)現(xiàn)從未在自然界中觀察到的生物活性序列。

用于自動(dòng)化數(shù)據(jù)標(biāo)注的大模型

神經(jīng)科學(xué)研究經(jīng)常依賴于準(zhǔn)確的數(shù)據(jù)標(biāo)注來闡述數(shù)據(jù)、設(shè)計(jì)實(shí)驗(yàn)或解釋結(jié)果。

（1）文字標(biāo)注

最近一項(xiàng)使用傳統(tǒng)NLP的研究探討了觀看電影《阿甘正傳》的受試者的大腦反應(yīng)信號(hào)與電影故事的發(fā)展之間的關(guān)系，即電影敘事的語義元素如何與大腦活動(dòng)相聯(lián)系^[33]。這項(xiàng)研究是依賴于數(shù)據(jù)點(diǎn)相關(guān)高質(zhì)量標(biāo)注研究的典范。這項(xiàng)研究利用了來自studyforrest*數(shù)據(jù)庫收集的大腦記錄，每個(gè)受試者在觀看2小時(shí)電影的過程中，其全腦神經(jīng)活動(dòng)的3000張個(gè)體圖像被詳細(xì)捕獲。

*https://www.studyforrest.org/data.html

為了使該數(shù)據(jù)集更豐富，電影中的每一個(gè)場(chǎng)景都通過計(jì)算生成的元信息得到增強(qiáng)。為此，文本數(shù)據(jù)來自之前未充分利用的來源：即與視頻內(nèi)容同步顯示的時(shí)間鎖定字幕，和面向盲人的僅聽覺敘述版本的電影，后者描述了電影中的事件和場(chǎng)景，展現(xiàn)了NLP支持下的數(shù)據(jù)增強(qiáng)的初步嘗試。

?圖5：基于電影文本，使用NLP進(jìn)行多模態(tài)腦-文字?jǐn)?shù)據(jù)整合

《阿甘正傳》的逐場(chǎng)景文本信息被一個(gè)詞袋模型（bag-of-words）所捕捉——在電影整個(gè)播放過程中，該模型會(huì)收集每個(gè)時(shí)間片段內(nèi)所有獨(dú)特詞匯及其出現(xiàn)頻率的集合。然后使用潛在語義分析來將場(chǎng)景詞頻分解為獨(dú)特的語義維度，以捕捉故事線中的潛在意義和反復(fù)出現(xiàn)的主題。

與此同時(shí)，通過一種經(jīng)典的自上而下方法，人類標(biāo)注者（一群學(xué)生）通過從電影的視聽版本中選擇52個(gè)預(yù)定義的“指標(biāo)”來手動(dòng)為場(chǎng)景添加標(biāo)簽。這些選擇基于場(chǎng)景的情感內(nèi)容、情境和其他方面，基于現(xiàn)有知識(shí)，這些方面預(yù)先被認(rèn)為與電影場(chǎng)景相關(guān)。這種經(jīng)典方法雖然強(qiáng)調(diào)了基于人類觀察者的自然主觀體驗(yàn)對(duì)人類情感的詳細(xì)刻畫，然而事實(shí)上卻錯(cuò)過了基于文本派生語義表征中，被很好地反映了的重要細(xì)節(jié)。這一自動(dòng)標(biāo)準(zhǔn)的成功，展示了未來LLM方法在自然神經(jīng)科學(xué)中的潛力。

超越手動(dòng)標(biāo)注的局限，NLP方法（如潛在語義分析）使得故事被分解為200個(gè)語義上下文單元，每個(gè)單元基于上下文都與特定場(chǎng)景緊密相關(guān)。作為人類衍生情感標(biāo)注的補(bǔ)充，語義上下文提供了追蹤角色（例如，丹中尉）、情境（例如，戰(zhàn)爭(zhēng)）和場(chǎng)景屬性（例如，白天與夜晚）的方法。通過整合數(shù)據(jù)分析，揭示了大腦狀態(tài)與場(chǎng)景中特定元素、概念和主題之間的經(jīng)驗(yàn)聯(lián)系。因此，算法派生的語義方面在電影-大腦-文本分析中，相較于傳統(tǒng)依賴人類先驗(yàn)直覺確定的那些最重要的方向，展現(xiàn)出了更為顯著的成功。

LLMs為將其他學(xué)科對(duì)人類行為的知識(shí)和概念引入到腦科學(xué)研究中提供了前所未有的機(jī)會(huì)。批量標(biāo)注生成可以極大地增強(qiáng)我們處理復(fù)雜操作協(xié)議的能力，如上述研究中使用的圖像和視頻數(shù)據(jù)，以及許多其他形式的數(shù)據(jù)，如電子健康記錄、語音記錄或可穿戴設(shè)備捕獲的生物測(cè)量。

歷史上，這些數(shù)據(jù)形式的標(biāo)注需要人類專家的輸入，無論是直接還是間接。現(xiàn)在，通過專門針對(duì)特定的從輸入到輸出的端到端工具，例如直接從視覺數(shù)據(jù)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)來識(shí)別人類情感，或基于物理特性預(yù)測(cè)氣味化合物吸引力的電子嗅覺設(shè)備^[34]，我們可以更高效地完成這些任務(wù)。手動(dòng)標(biāo)注通常存在一些問題，LLMs可以緩解其中幾個(gè)問題，包括（1）手動(dòng)操作的高物流和財(cái)務(wù)成本，（2）用于派生標(biāo)注標(biāo)簽的分類系統(tǒng)的本體論限制，（3）人類標(biāo)注者的主觀性以及基于主觀性的數(shù)據(jù)，以及（4）可重復(fù)性。

最終，如上所述，由于成本高，手動(dòng)標(biāo)注的視覺和語言數(shù)據(jù)集相對(duì)罕見且規(guī)模較小（10,000-100,000個(gè)數(shù)據(jù)點(diǎn)）。為了應(yīng)對(duì)先前的標(biāo)注數(shù)據(jù)稀缺，許多研究^[35-37]已經(jīng)開始自動(dòng)從互聯(lián)網(wǎng)和其他通用來源抓取現(xiàn)成的配對(duì)視覺-文本數(shù)據(jù)?，F(xiàn)在，以在文本-文本標(biāo)注場(chǎng)景中也實(shí)現(xiàn)與圖像-文本標(biāo)注領(lǐng)域取得的類似成就。在模型預(yù)訓(xùn)練后，LLMs可以自動(dòng)生成標(biāo)注，這些預(yù)訓(xùn)練是基于與手頭標(biāo)注任務(wù)相關(guān)的各種數(shù)據(jù)完成。

舉一個(gè)例子，一家生物技術(shù)公司有興趣為描述精神活性藥物體驗(yàn)的一手描述打上標(biāo)簽，以指示不同的主觀效果；這些描述和手動(dòng)標(biāo)注的主觀效果標(biāo)簽配對(duì)，可以用于公司使用的基線模型的微調(diào)?；蛘?，像GPT4這樣的LLMs可以在沒有任何額外訓(xùn)練數(shù)據(jù)的情況下執(zhí)行此任務(wù)，基于其訓(xùn)練集提供了足夠的上下文來區(qū)分描述不同的主觀效果術(shù)語及其示例。

短語和句子，就像單個(gè)單詞一樣，可以被自動(dòng)賦予信息豐富的語義嵌入，這一過程同樣適用于自動(dòng)（或手動(dòng)）獲得的標(biāo)注。通過將自然語言經(jīng)LLM“編碼器”預(yù)處理為嵌入向量，我們可以對(duì)離散的語義元素進(jìn)行連續(xù)的量化。以互補(bǔ)的方式，LLM“解碼器”用于將嵌入轉(zhuǎn)換回語言文本。將自然語言作為嵌入進(jìn)行預(yù)處理，為探索不同語言模式與神經(jīng)活動(dòng)之間的相關(guān)性開辟了新方法。將自然語言數(shù)據(jù)與神經(jīng)測(cè)量相關(guān)聯(lián)，是朝著深刻理解人類大腦產(chǎn)生、感知、處理和解釋語言的一步。自然語言文本的定量表證是計(jì)算分析中使用的行業(yè)通用中間形式，具有可重復(fù)性，可調(diào)整和可擴(kuò)展增強(qiáng)的潛力。語言作為封裝來自五種人類感官的信息的工具，提供了人類經(jīng)驗(yàn)中多樣化現(xiàn)象的量化表征。

（2）圖像標(biāo)注

圖像自動(dòng)標(biāo)注領(lǐng)域再次啟發(fā)了文本標(biāo)注任務(wù)的創(chuàng)新，其中RETfound便是醫(yī)學(xué)領(lǐng)域從圖像到文本轉(zhuǎn)換問題的一種創(chuàng)新解決方案^[38]。作為一個(gè)基礎(chǔ)模型，RETfound能夠?qū)V泛可用的視網(wǎng)膜圖像標(biāo)注為不同的疾病類別。它旨在加速包括白內(nèi)障、中心性漿液性視網(wǎng)膜病變、糖尿病視網(wǎng)膜病變、青光眼、心力衰竭、黃斑功能障礙、心肌梗死、帕金森病、中風(fēng)和黃斑變性等疾病的診斷過程。

模型架構(gòu)基于大型視覺transformer框架：使用編碼器生成高分辨率的嵌入空間，可以用來區(qū)分視網(wǎng)膜圖像特征，這與LLMs在自然語言文本中編碼語義的方式相似。這種模型的應(yīng)用展示了LLMs在醫(yī)學(xué)圖像處理中的潛力，為醫(yī)生提供了一種快速而準(zhǔn)確的診斷工具，有助于提高醫(yī)療效率和患者護(hù)理質(zhì)量。

RETfound的解碼器用于圖像重建，而編碼器則用于為下游疾病預(yù)測(cè)任務(wù)提取特征。RETfound通過自監(jiān)督學(xué)習(xí)在160萬張未標(biāo)記的視網(wǎng)膜圖像上進(jìn)行了預(yù)訓(xùn)練。在這種范式中，AI模型無需任何額外的訓(xùn)練信息便可以學(xué)習(xí)數(shù)據(jù)集中查找模式。例如，如果一個(gè)神經(jīng)網(wǎng)絡(luò)在自監(jiān)督學(xué)習(xí)任務(wù)中使用寵物圖片作為訓(xùn)練集，模型很可能學(xué)會(huì)識(shí)別與貓、狗和其他流行寵物相對(duì)應(yīng)的形狀。模型知道如何區(qū)分不同類型寵物的圖像，但它“不知道”我們稱其中一組為“貓”，以及可能與圖像中的寵物相關(guān)的其他信息。RETfound在預(yù)微調(diào)（pre-fine-tuned）狀態(tài)下也是如此：它可以區(qū)分視網(wǎng)膜掃描圖像中看到的不同變異，這種能力使其能夠針對(duì)特定疾病檢測(cè)任務(wù)進(jìn)行微調(diào)。

這種微調(diào)是通過來自不同大小數(shù)據(jù)集的，特定專家提供的標(biāo)簽進(jìn)行的。例如，用于標(biāo)注“正?！?、“黃斑變性”和“糖尿病視網(wǎng)膜病變”等條件的“OCTID”數(shù)據(jù)集，以及包含與353,157名患者在2008至2018年間就診記錄相關(guān)的眼科數(shù)據(jù)的Moorfields Eye Hospital-AlzEye數(shù)據(jù)集，被用于微調(diào)以優(yōu)化RETfound進(jìn)行濕性年齡相關(guān)性黃斑變性的預(yù)后評(píng)估。通過這樣的全面訓(xùn)練，RETfound可以用來根據(jù)醫(yī)療專業(yè)人員生成的圖像記錄中的像素模式創(chuàng)建視網(wǎng)膜圖像的文本描述。因此，像RETfound這樣的模型旨在減輕專家的標(biāo)注工作量，為使用LLMs進(jìn)行類似目的的概念框架提供靈感。

圖像格式的數(shù)據(jù)一方面可以用來捕捉物理世界，另一方面，也可以捕捉大腦神經(jīng)元的活動(dòng)。它們可以作為實(shí)驗(yàn)變量，例如在視覺刺激實(shí)驗(yàn)中使用的圖片，以探索大腦掃描與這些刺激之間的聯(lián)系。與圖像格式不同，化學(xué)結(jié)構(gòu)及其描述可以捕捉大腦化學(xué)、神經(jīng)生理學(xué)、神經(jīng)藥理學(xué)和化學(xué)感覺刺激的關(guān)鍵方面。簡(jiǎn)化分子輸入線性輸入系統(tǒng)（SMILES Simplified molecular-input line-entry）是一種將化學(xué)結(jié)構(gòu)表示為基于文本的對(duì)象的方法。SMILES最初是基于分子圖的原則構(gòu)思的，以嚴(yán)格規(guī)范的方式表示化學(xué)結(jié)構(gòu)，非常適合機(jī)器處理^[40]。

?圖6:SMILES中配對(duì)分子圖的示例

科學(xué)文獻(xiàn)中包含了大量的化學(xué)名稱，這些名稱有時(shí)呈現(xiàn)標(biāo)準(zhǔn)化形式，但并非總是如此。通過適當(dāng)?shù)氖占⒄砗驼喜呗?，可以?gòu)建一個(gè)結(jié)合化學(xué)名稱和SMILES結(jié)構(gòu)的語料庫，用于訓(xùn)練大型語言模型（LLM）或微調(diào)基礎(chǔ)模型，以探索化學(xué)結(jié)構(gòu)與語義內(nèi)容之間的潛在預(yù)測(cè)關(guān)系。如果能夠?qū)崿F(xiàn)這一點(diǎn)，進(jìn)一步地，這個(gè)共同的嵌入空間可以連接到一個(gè)生成模型，該模型可以根據(jù)文本輸入產(chǎn)生化學(xué)結(jié)構(gòu)（例如，“我想看到能夠進(jìn)入人類中樞神經(jīng)系統(tǒng)的新化學(xué)結(jié)構(gòu)”）。在不遠(yuǎn)的將來，這樣的多模態(tài)LLM可能成為科學(xué)家的寶貴伙伴，增強(qiáng)生成具有目標(biāo)屬性的全新分子的創(chuàng)造性過程，無論是物理、化學(xué)感知還是藥理學(xué)屬性。

另一個(gè)引人注目的應(yīng)用是在SMILES（化學(xué)品的簡(jiǎn)化分子輸入線性表示系統(tǒng)）和自然語言之間建立的共同嵌入空間，這不僅適用于單一化學(xué)物質(zhì)的分析，也能擴(kuò)展到化學(xué)混合物的研究。正如自然語言中詞語和短語的解釋會(huì)受到其上下文的顯著影響一樣，化學(xué)感知刺激中存在的氣味分子（它們自然以混合物形式出現(xiàn)）的感知，也會(huì)受到其他混合物成分的組合和濃度的影響。此外，小分子如神經(jīng)遞質(zhì)、激素、藥物和毒素通常與其代謝物、雜質(zhì)和其他生物分子共同作用。這些組合元素可以在其周圍環(huán)境中產(chǎn)生生化和生理效應(yīng)，例如結(jié)合到目標(biāo)受體或調(diào)節(jié)信號(hào)轉(zhuǎn)導(dǎo)通路的活性。

我們?cè)O(shè)想，一個(gè)經(jīng)過SMILES和自然語言訓(xùn)練的LLM的共同潛在嵌入空間可以用來對(duì)化學(xué)品和混合物的復(fù)雜、依賴于上下文的多重作用進(jìn)行導(dǎo)航，這對(duì)神經(jīng)科學(xué)具有直接相關(guān)性。

（3）描述能力

除了高成本之外，標(biāo)注任務(wù)面臨的另一個(gè)問題是，依賴于預(yù)定本體或分類系統(tǒng)的標(biāo)注將受到該描述系統(tǒng)的描述能力的限制。通常，執(zhí)行標(biāo)注任務(wù)的個(gè)體必須接受訓(xùn)練，以確保他們能夠正確利用給定的本體對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類，這是減少評(píng)分者差異性這一已知挑戰(zhàn)的嘗試。為了正確進(jìn)行數(shù)據(jù)標(biāo)注，所需的培訓(xùn)范圍可能非常廣泛，標(biāo)注者必須是領(lǐng)域?qū)＜叶峭庑腥?。通過LLM編碼器生成的嵌入，可以通過語義相似度測(cè)量或聚類等方法“翻譯”為目標(biāo)本體中的一系列術(shù)語。

如果不進(jìn)行翻譯，LLM給出的嵌入提供了基于本體的分類所無法提供的高語義粒度。這種特異性對(duì)于任何研究者在記錄與特定實(shí)驗(yàn)直接相關(guān)的不同結(jié)果時(shí)都極為寶貴，因?yàn)樗沟迷谂c特定實(shí)驗(yàn)直接相關(guān)的分類方式上具有靈活性。

舉一個(gè)簡(jiǎn)單的假設(shè)性例子，人們可以（1）從通過文本記錄的注釋標(biāo)簽或其他實(shí)驗(yàn)變量生成語義嵌入，（2）從目標(biāo)本體中存在的術(shù)語生成嵌入，或（3）計(jì)算兩組嵌入之間的余弦距離，以識(shí)別每個(gè)基于文本的實(shí)驗(yàn)變量與來自目標(biāo)本體的“最近鄰”術(shù)語。雖然這種方法可能無法達(dá)到領(lǐng)域?qū)＜业臏?zhǔn)確性水平，但它在分辨率上的不足通過客觀性和操作一致性得到了補(bǔ)償，這提高了大規(guī)模注釋的可擴(kuò)展性和可重復(fù)性。另一方面，LLM產(chǎn)生的嵌入也為研究人員提供了一種通過聚類或更復(fù)雜的技術(shù)來分析注釋數(shù)據(jù)集的手段，從而得以識(shí)別新的分類系統(tǒng)。

理想情況下，即使在沒有與領(lǐng)域?qū)＜揖o密合作的情況下，我們很快就能通過LLM進(jìn)行專家級(jí)別的注釋。更有趣的是，一旦證明了LLM能夠以與專家相當(dāng)或更優(yōu)的性能應(yīng)用現(xiàn)有的本體進(jìn)行注釋，我們就可以轉(zhuǎn)向“專家LLM”來幫助識(shí)別和驗(yàn)證新術(shù)語和本體，這些術(shù)語和本體是通過數(shù)據(jù)驅(qū)動(dòng)的方式得出的。同時(shí)，我們還可以借此機(jī)會(huì)檢查基于LLM的注釋結(jié)果，挑戰(zhàn)那些由有限啟發(fā)式設(shè)計(jì)的傳統(tǒng)分類系統(tǒng)。

基于規(guī)則的解決方案雖然依賴明確的預(yù)定義標(biāo)準(zhǔn)，但在處理龐大且復(fù)雜的數(shù)據(jù)集時(shí)，黑箱式AI解決方案——盡管其決策過程不透明——通常能夠展現(xiàn)出卓越的表現(xiàn)，實(shí)現(xiàn)傳統(tǒng)方法難以匹及的預(yù)測(cè)準(zhǔn)確性。將LLM輔助注釋作為一種補(bǔ)充方法，將其與傳統(tǒng)的自上而下的方法（例如，由領(lǐng)域?qū)＜沂謩?dòng)分類）和基于規(guī)則（例如，預(yù)定義算法對(duì)數(shù)據(jù)點(diǎn)分類）的解決方案相結(jié)合，是我們可以同時(shí)利用專家經(jīng)驗(yàn)帶來的知識(shí)和LLMs從數(shù)據(jù)中獲得的新見解的一種方式，這是一種真正能夠“為自己說話”的數(shù)據(jù)形式。

LLMs被喻為變色龍*，具備“角色扮演”的能力^[43]。它們可以采取已知人物或具有特定特征（個(gè)性和寫作風(fēng)格）的人物個(gè)性，例如夏洛蒂·勃朗特、卡爾·薩根或神經(jīng)科學(xué)家。這種能力可以以多種方式利用。在某些注釋任務(wù)中，與所有評(píng)估者都具有相同背景的評(píng)估小組相比，征求跨學(xué)科專家小組的意見可能更為有益。若干個(gè)LLM可以并行地在注釋任務(wù)中扮演不同的角色，類似于人類評(píng)分者的分組。LLMs可以被要求采取不同專家、個(gè)性類型、職業(yè)、年齡和文化背景的立場(chǎng)來進(jìn)行思考和評(píng)估。LLMs不僅解決了個(gè)體主觀性對(duì)注釋任務(wù)的影響，而且同時(shí)能夠表達(dá)和操縱這種主觀性。LLMs可以消除人類注釋者所經(jīng)歷的短暫情感狀態(tài)的波動(dòng)，如果需要，它們可以在可控和可重復(fù)的方式中引入這些波動(dòng)。

*https://karpathy.ai/lexicap/0215-large.html

描述神經(jīng)科學(xué)研究以及主觀體驗(yàn)的語言存在許多不一致之處。這些差異性助長(zhǎng)了不同研究人員之間對(duì)注釋解釋的分歧。一致的語義嵌入空間的普遍性能夠捕獲和操縱模糊或主觀的語言。關(guān)鍵的是，這些表征在實(shí)驗(yàn)室或其他研究和分析環(huán)境下是完全可重復(fù)的；只要對(duì)同一任務(wù)使用相同的LLM，并使用相同的模型參數(shù)集合。從科學(xué)研究的實(shí)際角度來看，這一特點(diǎn)應(yīng)該對(duì)通過LLMs自動(dòng)注釋數(shù)據(jù)集的注釋數(shù)據(jù)的共享性產(chǎn)生重大影響，有希望擴(kuò)大LLMs自動(dòng)注釋數(shù)據(jù)集的下游應(yīng)用的廣度和深度。

不同的個(gè)體可能會(huì)以不同的方式標(biāo)注相同的數(shù)據(jù)，甚至同一注釋者在不同時(shí)間給出的回答也可能會(huì)有所變化。LLMs提供了一種更穩(wěn)定和一致的標(biāo)注。由于這些大型模型是基于廣泛的數(shù)據(jù)集進(jìn)行訓(xùn)練，不受個(gè)人主觀體驗(yàn)的影響，它們能夠在捕捉細(xì)致的上下文環(huán)境時(shí)替代人在手動(dòng)標(biāo)注任務(wù)中的主觀性。訓(xùn)練后的LLMs可以被視為所有互聯(lián)網(wǎng)用戶平均思維的一種近似，即“眾包思維”，因?yàn)樗鼈兊挠?xùn)練語料庫的大部分來源于互聯(lián)網(wǎng)。如果基礎(chǔ)模型似乎沒有捕捉到足夠的細(xì)節(jié)以完成特定任務(wù)，它可以通過微調(diào)來近似基于特定網(wǎng)站或互聯(lián)網(wǎng)用戶子集的平均思維。

手動(dòng)進(jìn)行數(shù)據(jù)標(biāo)注的過程通常包含主觀性元素，特別是當(dāng)被標(biāo)注對(duì)象基于主觀體驗(yàn)時(shí)在對(duì)《阿甘正傳》中的場(chǎng)景進(jìn)行注釋的任務(wù)里，學(xué)生們需要標(biāo)注他們所感知到的電影中演員表達(dá)的情緒。這項(xiàng)任務(wù)首先要求對(duì)電影中描繪的情感進(jìn)行主觀解釋，再加上情感體驗(yàn)本身的高度主觀性。studyforrest數(shù)據(jù)集還包括每個(gè)場(chǎng)景發(fā)生的物理位置的注釋。盡管如“夜晚”與“白天”、“室內(nèi)”與“室外”的標(biāo)注主要基于具有電影學(xué)術(shù)背景的兩位領(lǐng)域?qū)＜易龀龅目陀^判斷，但在這個(gè)過程中仍然留有主觀解釋的空間，例如將“白天”定義為任何由陽光照亮的場(chǎng)景，而不是其他決定因素一樣。

LLMs能夠在主觀現(xiàn)象和客觀測(cè)量的世界之間實(shí)現(xiàn)調(diào)和。通過LLM嵌入表征的語義實(shí)體，保留了文本中的離散主觀或上下文意義，使其能夠以一致的方式與其他文本進(jìn)行比較。例如，想象一下從社交媒體帖子中收集的句子，用于自動(dòng)注釋情感標(biāo)簽，以便用于訓(xùn)練一個(gè)能夠從用戶帖子中預(yù)測(cè)情緒的NLP模型。無論每個(gè)設(shè)想的句子有多么獨(dú)特，它們與“熱情”、“沮喪”、“懷舊”或“平靜”等術(shù)語對(duì)應(yīng)嵌入之間的距離都可以用統(tǒng)一的方式計(jì)算。由于LLM訓(xùn)練語料庫捕獲了大量描述主觀現(xiàn)象的文本，LLMs產(chǎn)生的更穩(wěn)定和一致的注釋，可以輕松地用于表征基于主觀體驗(yàn)的數(shù)據(jù)元素，而無需將主觀的人類判斷作為注釋過程的一部分。

使用LLMs自動(dòng)化注釋任務(wù)并不是漸進(jìn)式的改進(jìn)，而是一種革命性的方法升級(jí)，可以顛覆主流實(shí)踐，有望終結(jié)受到主觀性和其他形式的特質(zhì)所帶來的限制。以注釋一系列日記條目中的情感為例，如果任務(wù)交給一組人類注釋者，一個(gè)人可能會(huì)根據(jù)他們的個(gè)人經(jīng)驗(yàn)和文化背景將一段文字標(biāo)記為“悲傷”，而另一個(gè)人可能會(huì)看到它為“反思”或“懷舊”然而，由于LLMs是自回歸的、狀態(tài)依賴的，并且具有溫度等超參數(shù)（參見前一節(jié)“大型語言模型解決方案的數(shù)據(jù)科學(xué)視角”），它們?cè)谔幚硐嗤崾緯r(shí)的輸出雖不盡相同，但如果實(shí)驗(yàn)條件保持一致，其答案主要限制在語義空間的一個(gè)狹窄區(qū)域內(nèi)。通過這種方式，LLM可能提供人類注釋者無法匹配的客觀性和一致性。

LLM在文本摘要和知識(shí)整合中的應(yīng)用

神經(jīng)科學(xué)這個(gè)廣泛的領(lǐng)域涉及從物理學(xué)到心理學(xué)等多個(gè)學(xué)科。這個(gè)極具跨學(xué)科性的領(lǐng)域產(chǎn)生了大量相對(duì)獨(dú)立的實(shí)驗(yàn)發(fā)現(xiàn)，僅靠人力整合這些發(fā)現(xiàn)可能會(huì)顯得力不從心。此外，該領(lǐng)域的寬廣常常導(dǎo)致研究者在其子領(lǐng)域內(nèi)孤立工作，專注于狹窄的研究領(lǐng)域，從而可能錯(cuò)過與其他子學(xué)科的交叉融合機(jī)會(huì)。也可能存在某些任務(wù)超出了人類認(rèn)知能力，包括閱讀包含大量數(shù)據(jù)點(diǎn)的實(shí)驗(yàn)結(jié)果，或提煉過去一年所有主要科學(xué)出版物的內(nèi)容。在這些情況下，LLMs可以幫助研究人員獲取大量文本中的信息，這些文本如果僅靠研究閱讀來吸取其中信息，在短時(shí)間內(nèi)可能會(huì)是很具挑戰(zhàn)性的。

LLMs的能力超越了典型的文本摘要任務(wù)，其中收集的文本以人類可讀（盡管冗長(zhǎng)）的自然語言呈現(xiàn)。但LLM嵌入為主觀文本提供了客觀的量化，以解決語言歧義并給出標(biāo)準(zhǔn)化的輸出。這些基于主觀性的文本可以是簡(jiǎn)單的詞語或短語，如用于捕捉《阿甘正傳》中演員表現(xiàn)的情感^[33]，或描述氣味或風(fēng)味化合物的化學(xué)感知^[44]。它們還可能更為復(fù)雜，就像迷幻研究中使用的文本那樣，描述迷幻藥物及其對(duì)大腦和意識(shí)影響的研究。

“迷幻體驗(yàn)”這個(gè)常用表達(dá)方式暗示了不同體驗(yàn)之間的一致性。實(shí)際上，迷幻體驗(yàn)充滿了細(xì)微差別和變化，部分根源于藥物使用者的心態(tài)和環(huán)境，部分根源于藥物之間的精神藥理學(xué)差異。理解決定迷幻藥物使用者觀察到的細(xì)微差別的潛在因素，應(yīng)該有助于我們了解是否可以利用某些藥物或主觀效果的類型來治療特定狀況，就像通過攝取賽洛西賓（psilocybin）和MDMA所提供的不同的體驗(yàn)在治療強(qiáng)迫癥和創(chuàng)傷后應(yīng)激障礙方面所顯示的早期成功，正是這種探索的實(shí)證。

為了研究這些細(xì)微差別，最近的一項(xiàng)研究使用了自然語言處理技術(shù)來分析來自迷幻藥物使用者的6,850份“體驗(yàn)報(bào)告”（圖7）。研究的目標(biāo)是建立主觀體驗(yàn)、27種不同藥物，以及人類大腦中表達(dá)的40種相關(guān)神經(jīng)遞質(zhì)受體之間的聯(lián)系。這項(xiàng)研究的結(jié)果包括通過典型關(guān)聯(lián)分析（CCA）得出的詳細(xì)詞匯列表，該列表按語義維度相關(guān)性排名，捕捉了體驗(yàn)報(bào)告中的主要主題。

? 圖7:使用NLP進(jìn)行多模態(tài)受體-文本整合，揭示迷幻藥物體驗(yàn)的機(jī)制基礎(chǔ)分析。

人類解讀由數(shù)千個(gè)詞以特定順序捕捉的復(fù)雜主題相當(dāng)困難。CCA提供的排名列表中的每個(gè)詞都帶有可能被主觀解釋。由相鄰術(shù)語提供的上下文以及列表不同子部分（即前1%與前5%）捕獲的一般意義轉(zhuǎn)變，進(jìn)一步拓寬了潛在解釋的范圍。盡管結(jié)果以密集的高亮詞匯列表呈現(xiàn)，但LLM可以無縫地從這些詞集中抽象出語義核心主題，推導(dǎo)出由迷幻藥物引發(fā)的主觀效果的共享高層次類別。這些高層次類別隨后可用于開拓新藥發(fā)現(xiàn)平臺(tái)，產(chǎn)生關(guān)于實(shí)驗(yàn)治療方法的假設(shè)，尋找具有針對(duì)性主觀效果的新迷幻藥物，以治療特定狀況。未來LLM的應(yīng)用展示了研究人員從復(fù)雜、非結(jié)構(gòu)化數(shù)據(jù)中獲取洞察的新機(jī)遇，尤其是在人類難以單獨(dú)應(yīng)對(duì)這些數(shù)據(jù)的情況下。

面向醫(yī)學(xué)的LLMs，如Meta的PMC-LLaMA[46]，提供了一個(gè)有希望的解決方案，用于篩選大量文本來源，綜合其意義和信息價(jià)值。通過收集和總結(jié)不同來源的信息景觀，這些模型提供了觸及甚至理解了復(fù)雜主題的本質(zhì)。

具體來說，PMC-LLaMA旨在通過訓(xùn)練龐大的語料庫（480萬篇生物醫(yī)學(xué)學(xué)術(shù)論文、3萬本醫(yī)學(xué)教科書，以及202M個(gè)醫(yī)學(xué)問答對(duì)、決策理由和對(duì)話）來支持用戶導(dǎo)航廣闊的醫(yī)學(xué)信息。PMC-LLaMA在零樣本評(píng)估醫(yī)學(xué)知識(shí)提示時(shí)產(chǎn)生了合理且連貫的回應(yīng)，例如，回答患者關(guān)于尿路感染的問題，以及關(guān)于微生物學(xué)和藥理學(xué)的深入問題。當(dāng)被問及涉及結(jié)核病和激素避孕藥物相互作用的多項(xiàng)選擇題時(shí)，PMC-LLaMA正確指出了藥物相互作用的機(jī)制，并詳細(xì)闡述了得出答案的理由（通過抗生素利福平誘導(dǎo)CYP3A4，導(dǎo)致激素避孕藥物濃度降低，最終增加了意外懷孕的可能性）。

PMC-LLaMA強(qiáng)調(diào)了數(shù)據(jù)驅(qū)動(dòng)方法在專業(yè)領(lǐng)域的有效性以及領(lǐng)域特定模型調(diào)整的價(jià)值。這種對(duì)提示查詢的令人印象深刻的回應(yīng)，代表了機(jī)器輔助人類智能的場(chǎng)景，其中LLMs可以被定制為有效地在專業(yè)領(lǐng)域教育用戶，突顯了這些模型改造社會(huì)的潛力和開發(fā)領(lǐng)域特定模型的重要性。

作為日常生活中另一個(gè)具體的例子，準(zhǔn)備考試的醫(yī)學(xué)生可以查詢PMC-LLaMA等模型，獲取特定主題的信息，以更高效的時(shí)間覆蓋更廣泛的材料。正如工業(yè)自動(dòng)化釋放了工人，讓他們有更多時(shí)間去完成其他任務(wù)一樣，我們可以預(yù)期LLMs的發(fā)展將呈現(xiàn)類似的機(jī)會(huì)。

然而，并非所有的改進(jìn)都將僅僅是改善生活；許多應(yīng)用，如可以訪問患者電子健康記錄的交互式LLM，可能具有挽救生命的潛能。不幸的是，Rodziewicz等人最近的一項(xiàng)統(tǒng)計(jì)調(diào)查估計(jì)，每年約有40萬住院的美國患者經(jīng)歷某種可預(yù)防的傷害，其中大約四分之一的案例導(dǎo)致死亡。在醫(yī)學(xué)領(lǐng)域，AI的潛在救命作用主要體現(xiàn)在幾個(gè)方面：例如（1）減輕醫(yī)療專業(yè)人員的工作負(fù)擔(dān)，使他們能夠更有效地評(píng)估和治療患者，以及（2）作為早期預(yù)警系統(tǒng)，提醒可能的不良事件。

多來源和多模態(tài)語言模型的整合

在過去的幾十年里，神經(jīng)科學(xué)已經(jīng)擴(kuò)展到越來越細(xì)分的研究活動(dòng)領(lǐng)域。例如，阿爾茨海默?。ˋD）在幾個(gè)基本上相互獨(dú)立的研究社區(qū)中被研究。研究人類群體中AD病因的流行病學(xué)家并不經(jīng)常與遺傳學(xué)家、實(shí)驗(yàn)神經(jīng)學(xué)家、腦成像研究者或動(dòng)物實(shí)驗(yàn)研究者進(jìn)行交流。研究與AD相關(guān)的全基因組風(fēng)險(xiǎn)變異的遺傳學(xué)家，也不一定會(huì)參考或整合來自這些其他神經(jīng)科學(xué)社區(qū)的現(xiàn)有知識(shí)。致力于研究AD大腦結(jié)構(gòu)和功能差異的成像神經(jīng)科學(xué)家，在設(shè)計(jì)和解釋他們的研究時(shí)，也不一定會(huì)考慮流行病學(xué)人群分層的方面。每個(gè)AD研究社區(qū)似乎都在自己的“泡沫”中運(yùn)作，形成了各自的杰出科學(xué)家群體，自己常討論的假設(shè)池，以及自己獨(dú)特的知識(shí)積累過程，且每年發(fā)表著大量的研究成果。

鑒于每年研究產(chǎn)出的不斷增加，單個(gè)研究者越來越難以閱讀所有這些論文。神經(jīng)科學(xué)的許多研究活動(dòng)領(lǐng)域以類似的方式被分割。這種知識(shí)碎片化可能是21世紀(jì)科學(xué)事業(yè)面臨的最大挑戰(zhàn)之一。現(xiàn)在，LLMs提供了一個(gè)機(jī)會(huì)，可以整合并翻譯來自單一神經(jīng)科學(xué)主題多個(gè)互補(bǔ)視角的日益增長(zhǎng)的知識(shí)庫。

LLMs也開始針對(duì)醫(yī)學(xué)領(lǐng)域進(jìn)行定制，如在醫(yī)學(xué)考試和生成記錄等任務(wù)中取得了有希望的結(jié)果。迄今為止，醫(yī)學(xué)中的AI通?；谟?jì)算機(jī)視覺，對(duì)文本、語音和其他類型信息的整合有限。然而，通過LLMs對(duì)各種數(shù)據(jù)源的總結(jié)和整合，為推進(jìn)AI輔助醫(yī)療專業(yè)人員的實(shí)踐帶來了巨大的希望。生物傳感器、基因組檔案、醫(yī)療記錄、患者自述、代謝數(shù)據(jù)和其他實(shí)驗(yàn)室檢測(cè)，都成為了構(gòu)建針對(duì)個(gè)體患者定制的多模態(tài)AI診療路徑的潛在數(shù)據(jù)源^[48]。這種AI解決方案的潛力巨大，因?yàn)樗赡軐?duì)患者的生活和醫(yī)療專業(yè)人員的表現(xiàn)產(chǎn)生直接影響，，盡管這一目標(biāo)還未完全實(shí)現(xiàn)^[49]。

目前，應(yīng)用LLMs減輕醫(yī)療專業(yè)人員文檔工作量的可能性也正受到醫(yī)學(xué)界的廣泛關(guān)注。盡管使用LLMs在醫(yī)學(xué)和醫(yī)學(xué)研究中的倫理問題開始被討論^[50]，但現(xiàn)在越來越明顯的是，LLMs可以作為輔助工具，有效減輕目前占用大量人力和時(shí)間的醫(yī)療流程，如電子健康記錄的創(chuàng)建和處理，以及疾病的診斷和預(yù)后等多個(gè)方面。

作為下一個(gè)圣杯，哪些非文本數(shù)據(jù)模式可以賦予LLMs行動(dòng)力？廣義上，LLMs可能是第一個(gè)能夠無縫結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化信息的技術(shù)，無論信息的規(guī)模多大或是多么動(dòng)態(tài)。此外，ChatGPT和類似的LLM變體已經(jīng)成功地將來自多種語言、地理和文化的分散文本源聚合到一個(gè)模型實(shí)例中，這表明LLMs在多語言文本處理中的強(qiáng)大能力。

LLMs在彌合不同信息類型間差異，尤其是計(jì)算機(jī)視覺（即圖像）與語言（即文本）之間的差異方面展現(xiàn)出了巨大潛力。機(jī)器學(xué)習(xí)社區(qū)的一個(gè)近期例子是，Alayrac等人^[35]展示了如何通過包含額外的模態(tài)信息來改進(jìn)語言模型。Flamingo模型便是在包含文本和圖像信息的互聯(lián)網(wǎng)上的大規(guī)模多模態(tài)語料庫上訓(xùn)練的，它的小樣本學(xué)習(xí)能力使其能夠適應(yīng)包含圖像和視頻材料的各種任務(wù)。模型可以根據(jù)特定任務(wù)的例子進(jìn)行提示，基于視覺條件的自回歸文本生成，在許多場(chǎng)景中提供了實(shí)際益處。在神經(jīng)科學(xué)領(lǐng)域，一個(gè)早期的例子是嘗試使用模型僅從大腦活動(dòng)測(cè)量重建自然圖像的研究^[51]。

此外，DALL-E/CLIP（由OpenAI在2021/22年提供）是生成性AI中文本-圖像融合的早期例子，最初該模型基于GPT-3變體開發(fā)，旨在從用戶提示生成更真實(shí)的圖像。這個(gè)多模態(tài)融合引擎可以合成各種形式和風(fēng)格，如逼真的自然圖像、類似繪畫的藝術(shù)和符號(hào)，以及設(shè)計(jì)方案的內(nèi)部模型，調(diào)用真實(shí)和想象的對(duì)象、場(chǎng)景和人物，且無需眾多訓(xùn)練示例（零樣本學(xué)習(xí)）。其組件CLIP（對(duì)比語言-圖像預(yù)訓(xùn)練）在互聯(lián)網(wǎng)上約4億對(duì)圖像和文本標(biāo)題上進(jìn)行了訓(xùn)練，用于在DALL-E生成的圖像中選擇最佳輸出。CLIP將計(jì)算機(jī)視覺和NLP結(jié)合在一個(gè)單一網(wǎng)絡(luò)中，深度處理、分類和生成大量圖像的文本注釋。它不需要嚴(yán)格的任務(wù)特定訓(xùn)練，可以將其知識(shí)泛化到新的、未曾遇到的任務(wù)。

在神經(jīng)科學(xué)背景下，未來的LLM框架可能會(huì)潛在地?cái)z取多種形式的“圖像”，如結(jié)構(gòu)和功能MRI腦成像、PET、fNIRS，以及更廣泛的EEG/MEG衍生腦圖像。因此，一個(gè)重要的未來研究方向是探索DALL-E/CLIP和類似新興技術(shù)，能在多大程度上成功地從自然圖像擴(kuò)展到包含大腦“圖像”的多模態(tài)分析中。

例如，NeuroSynth數(shù)據(jù)庫展示了一種自下而上的方法^[52]，它自動(dòng)提取了超過3,000篇腦成像任務(wù)實(shí)驗(yàn)文章的3D圖像空間激活坐標(biāo)，以及這些文章的全文。這一舉措已經(jīng)通過一個(gè)用戶查詢的網(wǎng)絡(luò)界面為神經(jīng)科學(xué)界提供了價(jià)值。與之平行的研究是BrainMap^[53.54]數(shù)據(jù)庫，其以自上而下的方式，圍繞心理學(xué)類別構(gòu)建了腦成像實(shí)驗(yàn)的人類本體論。對(duì)認(rèn)知現(xiàn)象的描述系統(tǒng)是由人類領(lǐng)域?qū)＜沂止ぴO(shè)計(jì)的。

在這項(xiàng)研究中，同樣也已經(jīng)嘗試了對(duì)圖像描述對(duì)進(jìn)行聚合，可視作訓(xùn)練或完善最先進(jìn)的多模態(tài)LLMs的一個(gè)有吸引力的起點(diǎn)。一個(gè)想法是基于兩個(gè)數(shù)據(jù)庫中可用的研究、專家定義和全文注釋相互補(bǔ)充，整合NeuroSynth和BrainMap，可能啟用LLM支持的查詢服務(wù)，也許還能跨越兩種類型的大腦圖像元信息進(jìn)行推理。更廣泛地說，旨在跨越內(nèi)容類型界限的這些研究方向特別有前景，因?yàn)長(zhǎng)LMs提供了一個(gè)前所未有的機(jī)會(huì)，將結(jié)構(gòu)化和非結(jié)構(gòu)化信息融合于一個(gè)統(tǒng)一的框架中。

在未來幾年，神經(jīng)科學(xué)家可以系統(tǒng)地研究哪些與大腦相關(guān)、適合LLM涌現(xiàn)的功能模式的信息？又哪些類型的神經(jīng)科學(xué)信息可以被標(biāo)記，以及如何標(biāo)記？

最近的LLM研究顯示了利用嵌入的氨基酸塊、基因及其mRNA轉(zhuǎn)錄本、細(xì)胞和細(xì)胞類型、表型和疾病狀態(tài)的潛力。LLMs可能還能處理標(biāo)記化的大腦區(qū)域活動(dòng)實(shí)例、白質(zhì)纖維通路、大腦結(jié)構(gòu)變化位置、EEG/MEG中的頻率帶變化或鈣成像。

經(jīng)由這些能力，神經(jīng)科學(xué)家可以將數(shù)據(jù)集中的序列語義和生物學(xué)視角結(jié)合起來，形成對(duì)大腦的統(tǒng)一視角。這一目標(biāo)的實(shí)現(xiàn)可能需要對(duì)模型架構(gòu)進(jìn)行創(chuàng)新，以表征這些信息層?；蛘撸覀兛梢允褂妙A(yù)訓(xùn)練的LLMs的輸出作為一種編碼特定信息模式的蒸餾形式，將其整合到隨后訓(xùn)練的較小模型中，以實(shí)現(xiàn)最終的研究目標(biāo)。具體來說，來自英國生物銀行和其他大型數(shù)據(jù)集的數(shù)據(jù)集允許LLM將基因變異信息和其他分子數(shù)據(jù)與各種人類健康信息關(guān)聯(lián)起來。

作為神經(jīng)科學(xué)這一高度跨學(xué)科努力的核心愿望，LLMs可以幫助我們彌合不同神經(jīng)科學(xué)社區(qū)之間的鴻溝，并使我們形成能夠整合多來源知識(shí)的NLP模型。

大模型作為克服當(dāng)前概念危機(jī)的認(rèn)知紐帶

LLMs可能提供一個(gè)替代工具包，該工具對(duì)于匯總和編輯神經(jīng)科學(xué)研究者用來解析大腦功能的人類構(gòu)建概念非常有價(jià)值。重要的是要認(rèn)識(shí)到，特別是在經(jīng)典的假設(shè)驅(qū)動(dòng)研究中，整個(gè)研究努力都依賴于預(yù)先假設(shè)的認(rèn)知和神經(jīng)術(shù)語的有效性，這些術(shù)語用于闡述實(shí)驗(yàn)研究條件。然而，許多頻繁使用的心理學(xué)或認(rèn)知術(shù)語定義脆弱，無法在自然界中直接觀察到。許多由人類專家確定的神經(jīng)科學(xué)概念可能并不代表“自然分類”，因?yàn)樗鼈儾]有在自然界中劃分出對(duì)立獨(dú)立的神經(jīng)回路。

大多數(shù)認(rèn)知過程的概念在神經(jīng)科學(xué)作為一個(gè)連貫學(xué)科出現(xiàn)之前（大約在20世紀(jì)中葉）就已經(jīng)被創(chuàng)造出來，那時(shí)大腦功能才開始被理解。此外，某些行為或認(rèn)知概念可能只在健康受試者精心設(shè)計(jì)的實(shí)驗(yàn)或臨床條件（如具有局部腦損傷的患者^[55]）中出現(xiàn)。根據(jù)這種觀點(diǎn)，神經(jīng)認(rèn)知過程可以在受試者參與特定實(shí)驗(yàn)任務(wù)時(shí)被分解，作為揭示大腦與行為之間映射的途徑。也許現(xiàn)在是時(shí)候用一種有規(guī)律的數(shù)據(jù)驅(qū)動(dòng)方法，來測(cè)試這些概念的有效性了。

神經(jīng)科學(xué)家在描述大腦現(xiàn)象時(shí)遭遇的復(fù)雜性，與路德維?！ぞS特根斯坦在其著作《哲學(xué)研究》中所提出的觀點(diǎn)緊密相關(guān)。維特根斯坦晚年認(rèn)為，人類語言本身所帶來的混淆，是許多哲學(xué)問題的根本來源。例如，在心理學(xué)中，甚至像“認(rèn)知”和“情感”這樣的簡(jiǎn)單詞匯都缺乏一個(gè)普遍認(rèn)同的定義^[56-57]。此外，常在心智理論中提及的大腦網(wǎng)絡(luò)，即從他人視角進(jìn)行思考的能力，也始終參與了一系列多樣化的心理過程，包括道德思考、自傳體記憶檢索和空間導(dǎo)航等^[58-60]。我們目前遺留的神經(jīng)認(rèn)知框架，可能沒有指向正確的方向^[61]。

例如，我們?yōu)槭裁措[含地期望威廉·詹姆斯的杰作（《心理學(xué)原理》，1890年）中的術(shù)語和概念，能夠代表大腦中特定的機(jī)制？更進(jìn)一步的是，當(dāng)我們遇到難以調(diào)和的發(fā)現(xiàn)時(shí)，我們有時(shí)會(huì)傾向于創(chuàng)造一個(gè)新術(shù)語，而不是真正深入問題的核心。

許多神經(jīng)科學(xué)研究采取自外而內(nèi)的方法：他們首先創(chuàng)造概念，然后試圖在大腦活動(dòng)中找到這些概念的對(duì)應(yīng)或描述^[61]。這與一些作者所說的“新顱相學(xué)”密切相關(guān)，后者是一種簡(jiǎn)化主義方法或“過度定位”，試圖將術(shù)語映射到大腦的局部地理區(qū)域^[62]。雖然現(xiàn)代神經(jīng)成像顯示，在某些任務(wù)中特定的大腦區(qū)域確實(shí)更活躍，但鑒于大腦的高度互聯(lián)性以及多個(gè)認(rèn)知功能的網(wǎng)絡(luò)分布特點(diǎn)，試圖為復(fù)雜的功能找到單一的“定位點(diǎn)”可能極具誤導(dǎo)。

研究重點(diǎn)應(yīng)該放在大腦的實(shí)際反應(yīng)上，而不是人類發(fā)明的術(shù)語本身。的確，正是是大腦中的神經(jīng)認(rèn)知過程產(chǎn)生了行為和認(rèn)知。簡(jiǎn)而言之，心理術(shù)語如何以及在多大程度上映射到區(qū)域大腦反應(yīng)，仍然是難以捉摸的，反之亦然^[62-64]。出于這些原因，一些作者提出神經(jīng)科學(xué)在數(shù)據(jù)上越來越豐富^[65]，但在理論上仍然貧乏，指出了迫切需要新的研究假設(shè)生成手段。

關(guān)于大腦疾病的定義，尤其是精神病學(xué)中的術(shù)語，也可以提出類似的觀點(diǎn)。相同的概念并不唯一地與相同的機(jī)制相關(guān)，相同的機(jī)制也不經(jīng)常對(duì)應(yīng)這一個(gè)明確的診斷實(shí)體。這一認(rèn)識(shí)可能是為什么相同的藥物類別經(jīng)常有助于緩解名義上不同的精神狀況癥狀的原因之一。

DSM-5和ICD-10手冊(cè)是根據(jù)精選專家的意見對(duì)精神病進(jìn)行分類的。此外，資助機(jī)構(gòu)只有在研究人員的提案理由和預(yù)期結(jié)果堅(jiān)定地基于這些人類制造的診斷類別時(shí)，才會(huì)承諾資助。然而，越來越清楚的是，即使在遺傳水平上^[66]，基礎(chǔ)生物學(xué)中的病理生理過程也具有相當(dāng)高異質(zhì)性，且相互存在重疊。因此，當(dāng)今對(duì)精神健康狀況的描述系統(tǒng)雖然有助于實(shí)踐醫(yī)生之間的交流，但在研究的生物學(xué)有效性和臨床護(hù)理的預(yù)測(cè)性方面，仍然顯得力不從心。

盡管神經(jīng)科學(xué)中現(xiàn)有描述系統(tǒng)存在明顯的不足，但很少有嘗試以自下而上的方式構(gòu)建這樣一個(gè)語義概念系統(tǒng)。在一項(xiàng)開創(chuàng)性研究中，研究人員設(shè)計(jì)了一個(gè)基于數(shù)據(jù)的方法，來構(gòu)建神經(jīng)認(rèn)知類別的框架^[67]，該框架匯集了大約20,000篇人類腦成像論文的信息。利用超過25年腦成像研究積累的數(shù)據(jù)寶庫，NLP算法挖掘了研究文章的語義內(nèi)容，并將其與來自功能腦掃描（fMRI，PET）的60多萬個(gè)拓?fù)湮恢孟嘟Y(jié)合。這種方法同時(shí)平等關(guān)注了語義原則和神經(jīng)活動(dòng)原則，允許研究者以整體方法系統(tǒng)地整合大腦和行為。

此外，這種方法還有助于克服神經(jīng)科學(xué)界長(zhǎng)期困擾的一個(gè)問題——如何從概念出發(fā)推理大腦活動(dòng)（前向推理）以及如何從大腦活動(dòng)推斷概念（后向推理）^[62]。在實(shí)證驗(yàn)證分析中，這種“計(jì)算本體論”被證明比神經(jīng)科學(xué)和精神病學(xué)中廣泛接受的描述系統(tǒng)，在重現(xiàn)術(shù)語與功能鏈接方面，對(duì)新的、未見過的研究成果具有更好的適應(yīng)性。

? 圖8:NLP工具以完全底層的方式整合現(xiàn)有關(guān)于人類認(rèn)知的概念

綜合來看，我們用來描述世界的敘事和故事塑造了我們?cè)O(shè)計(jì)神經(jīng)科學(xué)實(shí)驗(yàn)和解釋發(fā)現(xiàn)的方式。在神經(jīng)科學(xué)中，真正的進(jìn)步需要對(duì)詞語使用、語言衛(wèi)生（language hygiene）和概念化變體有特別的敏感性。在未來，由LLM賦能的神經(jīng)科學(xué)中，我們可能能夠?qū)⑿睦韺W(xué)固定術(shù)語，基于科學(xué)證據(jù)重新放到新架構(gòu)中，而不是延續(xù)前一個(gè)歷史時(shí)期的遺留術(shù)語。

新興的LLM技術(shù)可以激發(fā)基于生物學(xué)的大腦疾病分類學(xué)的，具有重大意義的重新定義，從而跨越診斷邊界，進(jìn)入一個(gè)基于證據(jù)的精神醫(yī)學(xué)新時(shí)代，而不是僅僅依賴于特定專家的判斷。正如維特根斯坦所說，“我語言的極限就是我世界的極限?！?sup>[68]

結(jié)論

在過去的5到10年里，生物學(xué)已經(jīng)轉(zhuǎn)變?yōu)橐婚T“可計(jì)算”的學(xué)科。例如，大規(guī)模基因數(shù)據(jù)庫與定向CRISPR基因編輯和機(jī)器學(xué)習(xí)分析相結(jié)合，使生物學(xué)更接近于一個(gè)工程學(xué)科。我們生成生物分子數(shù)據(jù)的能力遠(yuǎn)遠(yuǎn)超過了我們從這些系統(tǒng)中真正獲得理解的雄心——正如John Naisbitt所寫^[69]，今天的神經(jīng)科學(xué)家實(shí)際上是“被信息淹沒，卻又渴望著知識(shí)”。

LLMs為研究者提供了新的機(jī)遇。這類模型表明，純粹的統(tǒng)計(jì)暴力可以幫助研究者通過閱讀和生成生物學(xué)來揭開大腦和疾病的神秘面紗，通過構(gòu)建知識(shí)框架，解鎖前所未有的大規(guī)模信息整合和研讀模式?；A(chǔ)模型可能會(huì)從神經(jīng)科學(xué)領(lǐng)域中提取、協(xié)同和合成知識(shí)，跨越孤立的“學(xué)科間隔”，這項(xiàng)任務(wù)可能會(huì)（也可能不會(huì)）超越人類的理解范疇。神經(jīng)科學(xué)家需要接受并擁抱這樣一個(gè)令人不安的可能性：人類大腦作為一個(gè)生物系統(tǒng)，其復(fù)雜性可能超出了人類智能獨(dú)立理解的范疇，唯有借助AI工具處理大數(shù)據(jù)，我們才可能理解它。

從更廣泛的社會(huì)角度來看，工業(yè)革命主要影響了藍(lán)領(lǐng)工作。相比之下，當(dāng)前的LLM革命可能會(huì)主要影響白領(lǐng)工作，包括神經(jīng)科學(xué)研究人員的工作。事實(shí)上，LLMs的驚人效能已被一些風(fēng)險(xiǎn)投資家和投資者與火的發(fā)現(xiàn)、電力的應(yīng)用或互聯(lián)網(wǎng)的誕生相提并論，這些發(fā)明都極大地推動(dòng)了人類社會(huì)的進(jìn)步。LLM是否真就能改變世界，讓我們拭目以待。

參考文獻(xiàn)：

1. Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S., and Dean, J. (2013).
Distributed representations of words and phrases and their compositionality. Adv. Neural Inf. Process. Syst. 26. https://papers.nips.cc/paper_files/
paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf.
2. Le, Q., and Mikolov, T. (2014). Distributed representations of sentences
and documents. PMLR 32, 1188–1196.
3. Conneau, A., Kiela, D., Schwenk, H., Barrault, L., and Bordes, A. (2017).
Supervised learning of universal sentence representations from natural
language inference data. Preprint at arXiv. https://doi.org/10.48550/arXiv.1705.02364.
4. McCann, B., Bradbury, J., Xiong, C., and Socher, R. (2017). Learned in
translation: Contextualized word vectors. Adv. Neural Inf. Process.
Syst.. https://dl.acm.org/doi/10.5555/3295222.3295377.
5. Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013). Efficient estimation
of word representations in vector space. Preprint at arXiv. https://doi.org/
10.48550/arXiv.1301.3781.
6. Pennington, J., Socher, R., and Manning, C.D. (2014). Glove: Global vectors for word representation. https://nlp.stanford.edu/pubs/glove.pdf.
7. Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar,
E., Lee, P., Lee, Y.T., Li, Y., and Lundberg, S. (2023). Sparks of artificial
general intelligence: Early experiments with gpt-4. Preprint at arXiv.
https://doi.org/10.48550/arXiv.2303.12712.
8. Goldstein, A., Zada, Z., Buchnik, E., Schain, M., Price, A., Aubrey, B., Nastase, S.A., Feder, A., Emanuel, D., Cohen, A., et al. (2022). Shared computational principles for language processing in humans and deep language
models. Nat. Neurosci. 25, 369–380. https://doi.org/10.1038/s41593-022-
01026-4.
9. Caucheteux, C., Gramfort, A., and King, J.-R. (2023). Evidence of a predictive coding hierarchy in the human brain listening to speech. Nat. Hum. Behav. 7, 430–441. https://doi.org/10.1038/s41562-022-01516-2.
10. Schrimpf, M., Blank, I.A., Tuckute, G., Kauf, C., Hosseini, E.A., Kanwisher,
N., Tenenbaum, J.B., and Fedorenko, E. (2021). The neural architecture of
language: Integrative modeling converges on predictive processing. Proc.
Natl. Acad. Sci. USA 118, e2105646118. https://doi.org/10.1073/pnas.
2105646118.
11. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez,
A.N., Kaiser, q., and Polosukhin, I. (2017). Attention is all you need. Adv.
Neural Inf. Process. Syst. 30.
12. Hassid, M., Peng, H., Rotem, D., Kasai, J., Montero, I., Smith, N.A., and
Schwartz, R. (2022). How much does attention actually attend? Questioning the Importance of Attention in Pretrained Transformers. Preprint at arXiv. https://doi.org/10.48550/arXiv.2211.03495.
13. Tay, Y., Dehghani, M., Abnar, S., Shen, Y., Bahri, D., Pham, P., Rao, J.,
Yang, L., Ruder, S., and Metzler, D. (2020). Long range arena: A benchmark for efficient transformers. Preprint at arXiv. https://doi.org/10.
48550/arXiv.2011.04006.
14. Bzdok, Danilo, and Yeo, B.T.T (2017). Inference in the age of big data:
Future perspectives on neuroscience. Neuroimage 155, 549–564.
15. Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., and Metzler, D. (2022). Emergent abilities
of large language models. Preprint at arXiv. https://doi.org/10.48550/arXiv.2206.07682.
16. OpenAI. (2023). GPT-4 Technical Report. Preprint at arXiv. https://doi.org/
10.48550/arXiv.2303.08774.
17. Kaplan, J., McCandlish, S., Henighan, T., Brown, T.B., Chess, B., Child, R.,
Gray, S., Radford, A., Wu, J., and Amodei, D. (2020). Scaling laws for neural language models. Preprint at arXiv. https://doi.org/10.48550/arXiv.
2001.08361.
18. Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix,
T., Rozie`re, B., Goyal, N., Hambro, E., and Azhar, F. (2023). Llama:
Open and efficient foundation language models. Preprint at arXiv.
https://doi.org/10.48550/arXiv.2302.13971.
19. Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D.d.L., Hendricks, L.A., Welbl, J., and Clark, A. (2022).
Training compute-optimal large language models. Preprint at arXiv.
https://doi.org/10.48550/arXiv.2203.15556.
20. Schaeffer, R., Miranda, B., and Koyejo, S. (2023). Are emergent abilities of
Large Language Models a mirage?. Preprint at arXiv. https://doi.org/10.
48550/arXiv.2304.15004.
21. Caballero, E., Gupta, K., Rish, I., and Krueger, D. (2022). Broken neural
scaling laws. Preprint at arXiv. https://doi.org/10.48550/arXiv.2210.14891.
22. Houlsby, N., Giurgiu, A., Jastrzebski, S., Morrone, B., De Laroussilhe, Q.,
Gesmundo, A., Attariyan, M., and Gelly, S. (2019). Parameter-efficient
transfer learning for NLP. PMLR 97, 2790–2799. https://proceedings.mlr.
press/v97/houlsby19a/houlsby19a.pdf.
23. Pfeiffer, J., Ruckle € ′ , A., Poth, C., Kamath, A., Vulic, I., Ruder, S., Cho, K.,
and Gurevych, I. (2020). Adapterhub: A framework for adapting transformers. Preprint at arXiv. https://doi.org/10.48550/arXiv.2007.07779.
24. Bapna, A., Arivazhagan, N., and Firat, O. (2019). Simple, scalable adaptation for neural machine translation. Preprint at arXiv. https://doi.org/10.
48550/arXiv.1909.08478.
25. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever, I.
(2019). Language models are unsupervised multitask learners. OpenAI
blog 1, 9.
26. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J.D., Dhariwal, P.,
Neelakantan, A., Shyam, P., Sastry, G., and Askell, A. (2020). Language
models are few-shot learners. Adv. Neural Inf. Process. Syst. 33,
1877–1901.
27. Xiang, J., Tao, T., Gu, Y., Shu, T., Wang, Z., Yang, Z., and Hu, Z. (2023).
Language Models Meet World Models: Embodied Experiences Enhance
Language Models. Preprint at arXiv. https://doi.org/10.48550/arXiv.
2305.10626.
28. Berglund, L., Tong, M., Kaufmann, M., Balesni, M., Stickland, A.C., Korbak, T., and Evans, O. (2023). The Reversal Curse: LLMs trained on "A is
B" fail to learn "B is A".. Preprint at arXiv. https://doi.org/10.48550/arXiv.
2309.12288.
29. Brandes, N., Goldman, G., Wang, C.H., Ye, C.J., and Ntranos, V. (2023).
Genome-wide prediction of disease variant effects with a deep protein language model. Nat. Genet. 55, 1512–1522. https://doi.org/10.1038/
s41588-023-01465-0.
30. Cui, H., Wang, C., Maan, H., and Wang, B. (2023). scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI.
Preprint at bioRxiv. https://doi.org/10.1101/2023.04.30.538439.
31. Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O.,
Tunyasuvunakool, K., Bates, R., Z? ′dek, A., Potapenko, A., et al. (2021) Highly accurate protein structure prediction with AlphaFold. Nature 596,
583–589. https://doi.org/10.1038/s41586-021-03819-2.
32. Rives, A., Meier, J., Sercu, T., Goyal, S., Lin, Z., Liu, J., Guo, D., Ott, M.,
Zitnick, C.L., Ma, J., and Fergus, R. (2021). Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proc. Natl. Acad. Sci. USA 118, e2016239118. https://doi.org/
10.1073/pnas.2016239118.
33. Yang, E., Milisav, F., Kopal, J., Holmes, A.J., Mitsis, G.D., Misic, B., Finn,
E.S., and Bzdok, D. (2023). The default network dominates neural responses to evolving movie stories. Nat. Commun. 14, 4197. https://doi.
org/10.1038/s41467-023-39862-y.
34. Ye, Z., Liu, Y., and Li, Q. (2021). Recent Progress in Smart Electronic Nose
Technologies Enabled with Machine Learning Methods. Sensors 21, 7620.
https://doi.org/10.3390/s21227620.
35. Alayrac, J.-B., Donahue, J., Luc, P., Miech, A., Barr, I., Hasson, Y., Lenc,
K., Mensch, A., Millican, K., and Reynolds, M. (2022). Flamingo: a visual
language model for few-shot learning. Adv. Neural Inf. Process. Syst.
35, 23716–23736.
36. Sharma, P., Ding, N., Goodman, S., and Soricut, R. (2018). Conceptual
captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. Proceedings of the 56th Annual Meeting of the Association
for Computational Linguistics. https://aclanthology.org/P18-1238/.
37. Thomee, B., Shamma, D.A., Friedland, G., Elizalde, B., Ni, K., Poland, D.,
Borth, D., and Li, L.-J. (2016). YFCC100M: The new data in multimedia
research. Commun. ACM 59, 64–73.
38. Zhou, Y., Chia, M.A., Wagner, S.K., Ayhan, M.S., Williamson, D.J.,
Struyven, R.R., Liu, T., Xu, M., Lozano, M.G., Woodward-Court, P., et al.
(2023). A foundation model for generalizable disease detection from retinal
images. Nature 622, 156–163.
39. Wagner, S.K., Hughes, F., Cortina-Borja, M., Pontikos, N., Struyven, R.,
Liu, X., Montgomery, H., Alexander, D.C., Topol, E., Petersen, S.E., et al.
(2022). AlzEye: longitudinal record-level linkage of ophthalmic imaging
and hospital admissions of 353 157 patients in London, UK. BMJ open
12, e058552.
40. Weininger, D. (1988). SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules. J. Chem. Inf.
Comput. Sci. 28, 31–36.
41. Bzdok, D., and Ioannidis, J. P. (2019). Exploration, inference, and prediction in neuroscience and biomedicine. Trends in neurosciences 42,
251–262.
42. Bzdok, D., Engemann, D., and Thirion, B. (2020). Inference and prediction
diverge in biomedicine. Patterns 1, 100119.
43. Shanahan, M., McDonell, K., and Reynolds, L. (2023). Role play with large
language models. Nature 623, 493–498. https://doi.org/10.1038/s41586-
023-06647-8.
44. Sharma, A., Kumar, R., Ranjta, S., and Varadwaj, P.K. (2021). SMILES to
smell: decoding the structure–odor relationship of chemical compounds
using the deep neural network approach. J. Chem. Inf. Model. 61,
676–688.
45. Ballentine, G., Friedman, S.F., and Bzdok, D. (2022). Trips and neurotransmitters: Discovering principled patterns across 6850 hallucinogenic experiences. Sci. Adv. 8, eabl6989.
46. Wu, C., Zhang, X., Zhang, Y., Wang, Y., and Xie, W. (2023). Pmc-llama:
Further finetuning llama on medical papers. Preprint at arXiv. https://doi.
org/10.48550/arXiv.2304.14454.
47. Rodziewicz, T.L., Houseman, B., and Hipskind, J.E. (2023). Medical Error
Reduction and Prevention. In StatPearls (StatPearls Publishing LLC.).
48. Hipp, R., Abel, E., and Weber, R.J. (2016). A Primer on Clinical Pathways.
Hosp. Pharm. 51, 416–421. https://doi.org/10.1310/hpj5105-416.
49. Acosta, J.N., Falcone, G.J., Rajpurkar, P., and Topol, E.J. (2022). Multimodal biomedical AI. Nat. Med. 28, 1773–1784. https://doi.org/10.1038/
s41591-022-01981-2.
62. Poldrack, R.A. (2006). Can cognitive processes be inferred from neuroimaging data? Trends Cogn. Sci. 10, 59–63. S1364-6613(05)00336-
0 [pii]. https://doi.org/10.1016/j.tics.2005.12.004.
63. Laird, A.R., Fox, P.M., Eickhoff, S.B., Turner, J.A., Ray, K.L., McKay, D.R.,
Glahn, D.C., Beckmann, C.F., Smith, S.M., and Fox, P.T. (2011). Behavioral interpretations of intrinsic connectivity networks. J. Cogn. Neurosci.
23, 4022–4037. https://doi.org/10.1162/jocn_a_00077.
64. Mesulam, M.M. (1998). From sensation to cognition. Brain 121 (Pt 6),
1013–1052.
65. Voytek, B. (2022). The data science future of neuroscience theory. Nat.
Methods 19, 1349–1350. https://doi.org/10.1038/s41592-022-01630-z.
66. Brainstorm Consortium, Anttila, V., Bulik-Sullivan, B., Finucane, H.K., Walters, R.K., Bras, J., Duncan, L., Escott-Price, V., Falcone, G.J., Gormley,
P., et al. (2018). Analysis of shared heritability in common disorders of
the brain. Science 360, eaap8757. https://doi.org/10.1126/science.
aap8757.
67. Beam, E., Potts, C., Poldrack, R.A., and Etkin, A. (2021). A data-driven
framework for mapping domains of human neurobiology. Nat. Neurosci.
24, 1733–1744. https://doi.org/10.1038/s41593-021-00948-9.
68. Wittgenstein, L. (1958). Philosophical Investigations (Basil Blackwell).
69. Naisbitt, J. (1988). Megatrends: ten new directions transforming our lives
(Warner Books).
70. Dziri, N., Milton, S., Yu, M., Zaiane, O., and Reddy, S. (2022). On the origin
of hallucinations in conversational models: Is it the datasets or the
models?. Preprint at arXiv. https://doi.org/10.48550/arXiv.2204.07931.
71. Strubell, E., Ganesh, A., and McCallum, A. (2019). Energy and policy considerations for deep learning in NLP. Preprint at arXiv. https://doi.org/10.
48550/arXiv.1906.02243.
72. Nadeem, M., Bethke, A., and Reddy, S. (2020). StereoSet: Measuring stereotypical bias in pretrained language models. Preprint at arXiv. https://
doi.org/10.48550/arXiv.2004.09456.
73. Liu, F., Bugliarello, E., Ponti, E.M., Reddy, S., Collier, N., and Elliott, D.
(2021). Visually grounded reasoning across languages and cultures. Preprint at arXiv. https://doi.org/10.48550/arXiv.2109.13238.

之前的文章中，我們討論了圖片的尺寸自適應(yīng)、裁切與縮放、壓縮、動(dòng)態(tài)webp等技術(shù)。這些技術(shù)都是對(duì)單張圖片的處理，而在實(shí)際項(xiàng)目中，我們往往需要處理大量的圖片。本文將討論如何高效批量?jī)?yōu)化圖片，并介紹一些圖片加載技巧。

一、圖片預(yù)加載

圖片預(yù)加載（Preloading Images）是一種提前加載即將使用的圖片資源的技術(shù)。通過在頁面加載時(shí)就將未來可能用到的圖片資源進(jìn)行預(yù)加載，可以在用戶真正需要這些圖片時(shí)，減少等待時(shí)間，提升用戶體驗(yàn)。

HTML中的預(yù)加載

在HTML中，可以通過<link>標(biāo)簽的rel屬性來實(shí)現(xiàn)圖片預(yù)加載。例如，我們可以在頁面的`<head>`標(biāo)簽中添加如下代碼：

<link rel="preload" href="image.jpg" as="image" fetchpriority="high">

該 <link> 標(biāo)簽用于預(yù)加載一個(gè)圖片資源。讓我們逐個(gè)解釋其中的屬性及其作用：

rel="preload":

當(dāng)前<link>標(biāo)簽的用途是預(yù)加載資源。preload告訴瀏覽器提前加載指定的資源（在這里是圖片），以便在后續(xù)使用時(shí)能夠更快地提供資源。這有助于提高頁面的加載性能，尤其是在資源密集型的網(wǎng)站上。

href="image.jpg":

指定要預(yù)加載的資源的URL。href屬性是一個(gè)URL，指向需要預(yù)加載的資源。在這個(gè)例子中，image.jpg是要預(yù)加載的圖片的路徑。

as="image":

指定預(yù)加載資源的類型。as屬性告訴瀏覽器預(yù)加載資源的類型，以便正確地處理和優(yōu)化加載過程。在這個(gè)例子中，as="image"明確了資源是一個(gè)圖片。這對(duì)于瀏覽器優(yōu)化資源加載順序和優(yōu)先級(jí)非常重要。

fetchpriority="high":

指定預(yù)加載資源的獲取優(yōu)先級(jí)。fetchpriority屬性是一個(gè)新的屬性，用于指示瀏覽器在預(yù)加載資源時(shí)的優(yōu)先級(jí)。在這個(gè)例子中，fetchpriority="high"告訴瀏覽器這是一個(gè)高優(yōu)先級(jí)的資源，應(yīng)該盡快加載。這在需要確保關(guān)鍵資源（如首屏圖片）快速加載時(shí)非常有用。

CSS中的預(yù)加載

在CSS中，可以通過background-image屬性來實(shí)現(xiàn)圖片預(yù)加載。例如，我們可以在CSS文件中添加如下代碼：

.preload {
 background-image: url('image.jpg');
}

這段CSS代碼定義了一個(gè)`.preload`類，其中包含了一個(gè) background-image 屬性，指定了要預(yù)加載的圖片資源的URL。在頁面加載時(shí)，瀏覽器會(huì)提前加載這個(gè)圖片資源，以便在后續(xù)使用時(shí)能夠更快地提供資源。

JavaScript中的預(yù)加載

在JavaScript中，可以通過Image對(duì)象來實(shí)現(xiàn)圖片預(yù)加載。例如，我們可以在JavaScript代碼中添加如下代碼：

var img = new Image();
img.src = 'image.jpg';

這段JavaScript代碼創(chuàng)建了一個(gè)新的Image對(duì)象，并設(shè)置了src屬性為要預(yù)加載的圖片資源的URL。當(dāng)這段代碼執(zhí)行時(shí)，瀏覽器會(huì)開始加載這個(gè)圖片資源，以便在后續(xù)使用時(shí)能夠更快地提供資源。

二、圖片懶加載

圖片懶加載（Lazy Loading Images）是一種延遲加載圖片資源的技術(shù)。通過在頁面加載時(shí)只加載可見區(qū)域內(nèi)的圖片資源，可以減少頁面的加載時(shí)間，提升用戶體驗(yàn)。

img loading屬性

在HTML中，可以通過loading屬性來實(shí)現(xiàn)圖片懶加載。例如，我們可以在<img>標(biāo)簽中添加如下代碼：

<img src="image.jpg" loading="lazy" alt="Image">

loading屬性是一個(gè)新的屬性，用于指定圖片的加載方式。它有三個(gè)可能的值：

auto: 默認(rèn)值，表示圖片會(huì)在頁面加載時(shí)立即加載。
lazy: 表示圖片會(huì)在視口內(nèi)時(shí)才會(huì)加載。
eager: 表示圖片會(huì)在頁面加載時(shí)立即加載，不管是否在視口內(nèi)。

Intersection Observer API

在JavaScript中，可以通過Intersection Observer API來實(shí)現(xiàn)圖片懶加載。Intersection Observer API是一種用于監(jiān)視元素與視口交叉狀態(tài)的API，可以用于實(shí)現(xiàn)懶加載、無限滾動(dòng)等功能。

例如，我們可以在JavaScript代碼中添加如下代碼：

// 創(chuàng)建一個(gè)IntersectionObserver實(shí)例
 const intersectionObserver = new IntersectionObserver((entries) => {
  entries.forEach(entry => {
  if (entry.isIntersecting) {
  // 當(dāng)元素與視窗交叉時(shí)執(zhí)行的操作
  const img = entry.target; // entry.target是交叉的元素
  // 假設(shè)data-src屬性包含了圖片的路徑
  img.src = img.dataset.src;
  intersectionObserver.unobserve(img); // 停止觀察該元素
 }
 });
});

// 為所有需要滾動(dòng)加載的元素（例如圖片）設(shè)置觀察
document.querySelectorAll('img[data-src]').forEach((img) => {
 intersectionObserver.observe(img);
});

這段JavaScript代碼創(chuàng)建了一個(gè)IntersectionObserver實(shí)例，并為所有帶有data-src屬性的圖片元素設(shè)置了觀察。當(dāng)圖片元素與視口交叉時(shí)，會(huì)加載圖片資源，并停止觀察該元素。

Scroll事件

在JavaScript中，也可以通過監(jiān)聽scroll事件來實(shí)現(xiàn)圖片懶加載。例如，我們可以在JavaScript代碼中添加如下代碼：

// 獲取所有帶有data-src屬性的圖片元素
 const lazyImages = document.querySelectorAll('img[data-src]');
 // 懶加載函數(shù)
 function lazyLoad() {
  lazyImages.forEach((img) => {
  if (img.offsetTop < window.innerHeight + window.pageYOffset + 200) {
  img.src = img.dataset.src;
  img.removeAttribute('data-src');
  }
 });
 // 更新 lazyImages，排除已加載的圖片
 lazyImages = document.querySelectorAll('img[data-src]');
 // 如果所有的圖片都已經(jīng)加載，則移除事件監(jiān)聽器
 if (lazyImages.length === 0) {
 document.removeEventListener('scroll', lazyLoad);
 }
}
// 監(jiān)聽scroll事件
document.addEventListener('scroll', lazyLoad);
// 初始檢查一次，以便在頁面加載時(shí)懶加載位于視窗中的圖片
lazyLoad();

這段JavaScript代碼監(jiān)聽了scroll事件，并在圖片元素進(jìn)入視口時(shí)加載圖片資源。當(dāng)圖片進(jìn)入視口時(shí)，會(huì)加載圖片資源，并移除data-src屬性。

結(jié)合多種方法來實(shí)現(xiàn)圖片懶加載

在實(shí)際項(xiàng)目中，我們可以結(jié)合多種方法來實(shí)現(xiàn)圖片懶加載，以便在不同瀏覽器和環(huán)境下提供最佳的用戶體驗(yàn)。例如，我們可以先檢查瀏覽器是否支持loading屬性，如果支持，則使用`loading`屬性實(shí)現(xiàn)圖片懶加載；如果不支持，則檢查瀏覽器是否支持Intersection Observer API，如果支持，則使用Intersection Observer API實(shí)現(xiàn)圖片懶加載；如果不支持，則使用scroll事件實(shí)現(xiàn)圖片懶加載。

下面是一個(gè)示例代碼，演示了如何結(jié)合多種方法來實(shí)現(xiàn)圖片懶加載：

html

<body>
 <img src="placeholder.jpg" data-src="image1.jpg" alt="Description 1">
 <img src="placeholder.jpg" data-src="image2.jpg" alt="Description 2">
 <img src="placeholder.jpg" data-src="image3.jpg" alt="Description 3">
 <!-- 更多 img -->
 <script src="lazyload.js"></script>
</body>

javascript

const lazyImages = document.querySelectorAll('img[data-src]');
// 判斷瀏覽器是否支持 loading 屬性
if('loading' in HTMLImageElement.prototype) {
  lazyImages.forEach(img => {
  img.src = img.dataset.src;
  });
 } else if('IntersectionObserver' in window) {
  // 使用Intersection Observer API實(shí)現(xiàn)懶加載
 const intersectionObserver = new IntersectionObserver((entries) => {
 entries.forEach(entry => {
 if (entry.isIntersecting) {
 const img = entry.target;
 img.src = img.dataset.src;
 intersectionObserver.unobserve(img);
 }
 });
 });

 lazyImages.forEach((img) => {
 intersectionObserver.observe(img);
 });
} else {
 // 使用scroll事件實(shí)現(xiàn)懶加載
 let lazyImages = document.querySelectorAll('img[data-src]');
 function lazyLoad() {
 lazyImages.forEach((img) => {
 if (img.offsetTop < window.innerHeight + window.pageYOffset + 200) {
 img.src = img.dataset.src;
 img.removeAttribute('data-src');
 }
 });
 lazyImages = document.querySelectorAll('img[data-src]');
 if (lazyImages.length === 0) {
 document.removeEventListener('scroll', lazyLoad);
 }
 }
 document.addEventListener('scroll', lazyLoad);
 lazyLoad();
}

三、漸進(jìn)式圖片加載

圖片漸進(jìn)式加載（Progressive Image Loading）是一種逐步加載圖片資源的技術(shù)。通過在圖片加載過程中逐步顯示模糊的低分辨率圖片，可以提升用戶體驗(yàn)，減少等待時(shí)間。這種技術(shù)不僅適用于優(yōu)化頁面性能，還可以為用戶提供視覺上的反饋，使頁面顯得更加流暢。

漸進(jìn)式 JPEG

漸進(jìn)式 JPEG (Progressive JPEG) 是一種通過逐步顯示圖片的技術(shù)，漸進(jìn)式 JPEG 與標(biāo)準(zhǔn)的 JPEG 圖片區(qū)別在于，漸進(jìn)式 JPEG 圖片在加載時(shí)會(huì)逐步顯示圖片的分辨率，而不是一次性顯示完整的圖片。這種逐步加載的方式可以提升用戶體驗(yàn)，減少等待時(shí)間。漸進(jìn)式 JPEG 圖片最初會(huì)顯示的是一張模糊的低分辨率圖片，隨著數(shù)據(jù)的不斷加載，圖片的分辨率會(huì)逐步提高，直至達(dá)到全分辨率。這種方法特別適合需要加載大圖的場(chǎng)景。

許多圖像編輯工具和壓縮工具都支持將圖片保存為漸進(jìn)式 JPEG。在實(shí)際項(xiàng)目中，例如，在 Photoshop 中保存圖片時(shí)，可以勾選“漸進(jìn)式”選項(xiàng)。也可以使用命令行工具如ImageMagick（https://imagemagick.org/index.php）來生成漸進(jìn)式 JPEG：

1convert input.jpg -interlace Plane output.jpg

需要注意的是漸進(jìn)式 JPEG 圖片的文件大小通常會(huì)比標(biāo)準(zhǔn)的 JPEG 圖片稍大，因?yàn)闈u進(jìn)式 JPEG 圖片包含了更多的數(shù)據(jù)，用于逐步顯示圖片的分辨率，但是這種額外的數(shù)據(jù)可以提升用戶體驗(yàn)。因此，在選擇使用漸進(jìn)式 JPEG 圖片時(shí)，需要權(quán)衡圖片質(zhì)量和文件大小之間的關(guān)系。

占位圖技術(shù)

占位圖技術(shù)（Placeholder Image）通常使用一個(gè)非常小的、模糊的低分辨率圖像作為占位符，在高分辨率圖像加載完成之前先顯示出來。這種方法通過減少初始加載時(shí)間和網(wǎng)絡(luò)請(qǐng)求，可以顯著提升頁面的首屏加載速度。

占位圖實(shí)現(xiàn)原理很簡(jiǎn)單，只需要在頁面中插入一個(gè)占位圖像，然后在高分辨率圖像加載完成后替換為真實(shí)圖像即可。

生成一個(gè)小尺寸的圖片，并將其模糊化處理。
在頁面初始加載時(shí)，先顯示這張模糊的小圖，待高分辨率圖像加載完成后再替換。

代碼示例：

html:

<img src="https://fs.autohome.com.cn/energyspace_views/image_demo/compress_before.png?format=webp&dis_rule=20x0_q50_" data-src="https://fs.autohome.com.cn/energyspace_views/image_demo/compress_before.png?format=webp&dis_rule=400x0_q90_" alt="Description">

javascript：

document.addEventListener('DOMContentLoaded', function() {
  const lazyImages = document.querySelectorAll('img[data-src]');
  lazyImages.forEach(img => {
  const placeholder = new Image();
  placeholder.src = img.src;
  placeholder.onload = () => {
  img.src = img.dataset.src;
  };
  });
});

img src 屬性中的圖片是一個(gè)模糊的小圖，data-src 屬性中的圖片是高分辨率圖像。在頁面加載時(shí)，先顯示模糊的小圖，待高分辨率圖像加載完成后再替換。

使用占位圖技術(shù)可以有效減少頁面的加載時(shí)間，提升用戶體驗(yàn)。同時(shí)，占位圖技術(shù)也可以結(jié)合圖片懶加載技術(shù)一起使用，進(jìn)一步提升頁面性能。

四、Base64 編碼

在 Web 開發(fā)中，將圖片轉(zhuǎn)換為 Base64 編碼是一種優(yōu)化頁面加載速度的方法，但需要權(quán)衡其優(yōu)缺點(diǎn)。一般來說，適用于 Base64 編碼的圖片大小取決于幾個(gè)因素，包括頁面的總體加載時(shí)間、HTTP 請(qǐng)求的數(shù)量以及文件大小。

Base64 編碼的優(yōu)點(diǎn)

減少 HTTP 請(qǐng)求：將圖像嵌入到 HTML 或 CSS 中可以減少 HTTP 請(qǐng)求，從而加快頁面加載速度。對(duì)于小圖標(biāo)或背景圖片，效果尤為顯著。
簡(jiǎn)單易用：Base64 編碼圖像是一種文本格式，可以方便地嵌入 HTML、CSS 或 JSON 中，不需要額外的圖像文件管理。
適用于小圖像：Base64 編碼特別適合用于小圖像，例如網(wǎng)站的 logo、按鈕、圖標(biāo)等。

Base64 編碼的缺點(diǎn)

增加文件體積：Base64 編碼會(huì)使文件體積增加，因此對(duì)于大圖像，不推薦使用這種方法。
緩存問題：由于 Base64 圖像嵌入在 HTML 或 CSS 文件中，瀏覽器不能單獨(dú)緩存這些圖像文件，因此在更新圖像時(shí)需要重新下載整個(gè) HTML 或 CSS 文件。
可讀性差：Base64 編碼圖像是一長(zhǎng)串字符，嵌入到文檔中會(huì)降低文檔的可讀性和可維護(hù)性。

適合轉(zhuǎn)為 Base64 的圖片大小一般為 1KB 到 10KB 的圖片：通常，文件大小在 1KB 到 10KB 之間的圖片是轉(zhuǎn)為 Base64 編碼的最佳選擇。這樣的圖片往往是小圖標(biāo)、按鈕、背景圖案等。對(duì)于這些小圖片，Base64 編碼可以顯著減少 HTTP 請(qǐng)求的數(shù)量，從而提升頁面加載速度。

在實(shí)際Web項(xiàng)目開發(fā)中，使用 Webpack或 Vite 將小圖片自動(dòng)轉(zhuǎn)換為 Base64 編碼是一個(gè)常見的優(yōu)化方法。這種自動(dòng)化的處理可以簡(jiǎn)化開發(fā)流程，并確保在構(gòu)建過程中優(yōu)化資源。

webpack 配置示例：

module.exports = {
  module: {
  rules: [
  {
  test: /\.(png|jpe?g|gif)$/i,
  use: [
  {
  loader: 'url-loader',
  options: {
 limit: 10240, // 10KB
 },
 },
 ],
 },
 ],
 },
};

Vite 配置示例：

import { defineConfig } from 'vite';

export default defineConfig({
 build: {
 assetsInlineLimit: 10240, // 10KB
 },
});

在以上配置中，limit 或 assetsInlineLimit 選項(xiàng)指定了圖片轉(zhuǎn)為 Base64 編碼的閾值，超過這個(gè)閾值的圖片將被單獨(dú)打包為文件，而小于這個(gè)閾值的圖片將被轉(zhuǎn)為 Base64 編碼。

五、結(jié)語

通過結(jié)合多種圖片加載與優(yōu)化技術(shù)，可以提升頁面性能，提供更好的用戶體驗(yàn)。預(yù)加載、懶加載、漸進(jìn)式加載等技術(shù)在不同場(chǎng)景下有著不同的優(yōu)勢(shì)，通過合理地選擇和組合這些技術(shù)，可以有效地優(yōu)化圖片加載過程。

在實(shí)際項(xiàng)目中，建議根據(jù)項(xiàng)目的具體需求，選擇合適的技術(shù)和工具進(jìn)行圖片優(yōu)化和加載。希望本文所介紹的技術(shù)和示例代碼能夠幫助您更好地實(shí)現(xiàn)圖片批量處理與加載優(yōu)化，提升網(wǎng)頁的加載速度和用戶體驗(yàn)。

WEB 圖片優(yōu)化的相關(guān)文章到此結(jié)束，希望對(duì)你有所幫助。如果有任何問題或建議，歡迎在評(píng)論區(qū)留言，謝謝！

作者:之家-梁家瑋

來源-微信公眾號(hào):之家前端共享流

出處:https://mp.weixin.qq.com/s/bhxtIED32lJP7PY9g28GNA

一部分：HTML簡(jiǎn)介

什么是HTML？

HTML代表超文本標(biāo)記語言（Hypertext Markup Language）。它是一種用于構(gòu)建網(wǎng)頁的標(biāo)記語言。HTML文件包含一組標(biāo)簽，這些標(biāo)簽用于定義網(wǎng)頁的結(jié)構(gòu)和內(nèi)容。瀏覽器讀取HTML文件，并根據(jù)標(biāo)記中的指示呈現(xiàn)網(wǎng)頁內(nèi)容。

HTML的主要作用是定義文本內(nèi)容、圖像、鏈接和其他媒體的排列方式，并提供交互元素，例如表單和按鈕。

HTML的基本結(jié)構(gòu)

每個(gè)HTML文檔都應(yīng)該遵循以下基本結(jié)構(gòu)：

<!DOCTYPE html>
<html>
<head>
    <title>網(wǎng)頁標(biāo)題</title>
</head>
<body>
    <!-- 內(nèi)容在這里 -->
</body>
</html>

讓我們逐步解釋這個(gè)結(jié)構(gòu)：

<!DOCTYPE html>：這是文檔類型聲明，它告訴瀏覽器正在使用的HTML版本。<!DOCTYPE html>表示使用HTML5。
<html>：HTML文檔的根元素。所有其他元素都包含在<html>標(biāo)簽內(nèi)。
<head>：包含與文檔相關(guān)的元信息，如頁面標(biāo)題、字符集聲明和外部樣式表鏈接。
<title>：定義網(wǎng)頁的標(biāo)題，顯示在瀏覽器標(biāo)簽頁上。
<body>：包含網(wǎng)頁的主要內(nèi)容，如文本、圖像和其他媒體。

HTML標(biāo)簽和元素

HTML標(biāo)簽是由尖括號(hào)括起來的名稱，例如<p>表示段落，<img>表示圖像。標(biāo)簽通常成對(duì)出現(xiàn)，有一個(gè)開始標(biāo)簽和一個(gè)結(jié)束標(biāo)簽。例如：

<p>這是一個(gè)段落。</p>

<p>是開始標(biāo)簽，</p>是結(jié)束標(biāo)簽，文本位于兩個(gè)標(biāo)簽之間。標(biāo)簽定義了元素的類型和結(jié)構(gòu)。

有些HTML標(biāo)簽是自封閉的，不需要結(jié)束標(biāo)簽，例如<img>用于插入圖像。

HTML注釋

在HTML中，你可以使用注釋來添加說明性文字，注釋不會(huì)在瀏覽器中顯示。HTML注釋使用結(jié)尾，如下所示：

<!-- 這是一個(gè)注釋 -->

注釋通常用于添加文檔說明、調(diào)試代碼或標(biāo)記未來的修改。

第二部分：HTML基本元素

文本

HTML中的文本通常包含在段落、標(biāo)題、列表等元素中。以下是一些常見的文本元素：

<p>：定義一個(gè)段落。
<h1>到<h6>：定義標(biāo)題，<h1>是最高級(jí)別的標(biāo)題，<h6>是最低級(jí)別的標(biāo)題。
<strong>：定義強(qiáng)調(diào)文本，通常以粗體顯示。
<em>：定義強(qiáng)調(diào)文本，通常以斜體顯示。
<a>：定義超鏈接，允許用戶點(diǎn)擊跳轉(zhuǎn)到其他頁面。

示例：

<p>這是一個(gè)段落。</p>
<h1>這是一個(gè)標(biāo)題</h1>
<p><strong>這是強(qiáng)調(diào)文本。</strong></p>
<p><em>這是斜體文本。</em></p>
<p>訪問<a href="https://www.example.com">示例網(wǎng)站</a></p>

圖像

要在網(wǎng)頁中插入圖像，可以使用<img>標(biāo)簽。它是一個(gè)自封閉標(biāo)簽，需要指定圖像的src屬性來指定圖像文件的路徑。

示例：

htmlCopy code
<img src="image.jpg" alt="圖像描述">

src：指定圖像文件的路徑。
alt：提供圖像的替代文本，用于無法加載圖像時(shí)的文字描述。

鏈接

通過使用<a>標(biāo)簽，可以在網(wǎng)頁中創(chuàng)建鏈接。鏈接通常包含在文本或圖像中，并使用href屬性指定目標(biāo)URL。

示例：

<a href="https://www.example.com">訪問示例網(wǎng)站</a>

href：指定鏈接的目標(biāo)URL。

列表

HTML支持有序列表（<ol>）、無序列表（<ul>）和定義列表（<dl>）。

無序列表

無序列表使用<ul>標(biāo)簽定義，每個(gè)列表項(xiàng)使用<li>標(biāo)簽。

示例：

<ul>
    <li>項(xiàng)目1</li>
    <li>項(xiàng)目2</li>
    <li>項(xiàng)目3</li>
</ul>

有序列表

有序列表使用<ol>標(biāo)簽定義，每個(gè)列表項(xiàng)使用<li>標(biāo)簽。

示例：

<ol>
    <li>第一項(xiàng)</li>
    <li>第二項(xiàng)</li>
    <li>第三項(xiàng)</li>
</ol>

定義列表

定義列表使用<dl>標(biāo)簽定義，每個(gè)定義項(xiàng)目使用<dt>標(biāo)簽定義術(shù)語，使用<dd>標(biāo)簽定義描述。

示例：

<dl>
    <dt>術(shù)語1</dt>
    <dd>描述1</dd>
    <dt>術(shù)語2</dt>
    <dd>描述2</dd>
</dl>

第三部分：HTML表單

HTML表單允許用戶與網(wǎng)頁進(jìn)行交互，提交數(shù)據(jù)。以下是HTML表單的基本元素：

<form>元素

<form>元素用于創(chuàng)建表單，可以包含文本字段、復(fù)選框、單選按鈕、下拉列表等。

示例：

<form action="submit.php" method="post">
    <!-- 表單元素在這里 -->
</form>

action：指定表單數(shù)據(jù)提交的目標(biāo)URL。
method：指定提交方法，通常是"post"或"get"。

輸入字段

輸入字段用于接收用戶輸入的數(shù)據(jù)，常見的輸入字段類型包括文本框、密碼框、單選按鈕、復(fù)選框等。

文本框

文本框使用<input>標(biāo)簽，type屬性設(shè)置為"text"。

示例：

<input type="text" name="username" placeholder="用戶名">

type：指定字段類型。
name：指定字段的名稱。
placeholder：設(shè)置文本框的占位符文本。

密碼框

密碼框使用<input>標(biāo)簽，type屬性設(shè)置為"password"。

示例：

htmlCopy code
<input type="password" name="password" placeholder="密碼">

單選按鈕

單選按鈕使用<input>標(biāo)簽，type屬性設(shè)置為"radio"。

示例：

<input type="radio" name="gender" value="male">男
<input type="radio" name="gender" value="female">女

name：指定單選按鈕組的名稱。
value：指定每個(gè)選項(xiàng)的值。

復(fù)選框

復(fù)選框使用<input>標(biāo)簽，type屬性設(shè)置為"checkbox"。

示例：

<input type="checkbox" name="subscribe" value="yes">訂閱新聞

下拉列表

下拉列表使用<select>和<option>標(biāo)簽創(chuàng)建。<select>定義下拉列表，而<option>定義選項(xiàng)。

示例：

<select name="country">
    <option value="us">美國</option>
    <option value="ca">加拿大</option>
    <option value="uk">英國</option>
</select>

name：指定下拉列表的名稱。
每個(gè)<option>標(biāo)簽表示一個(gè)選項(xiàng)，使用value屬性定義選項(xiàng)的值。

第四部分：HTML樣式和CSS

HTML用于定義網(wǎng)頁的結(jié)構(gòu)和內(nèi)容，但要使網(wǎng)頁看起來更吸引人，需要使用CSS（層疊樣式表）。CSS允許你定義字體、顏色、布局等樣式。

內(nèi)聯(lián)樣式

可以在HTML元素內(nèi)部使用style屬性來定義內(nèi)聯(lián)樣式。

示例：

<p style="color: blue; font-size: 16px;">這是一個(gè)藍(lán)色的段落。</p>

外部樣式表

外部樣式表將樣式規(guī)則保存在獨(dú)立的CSS文件中，并通過<link>標(biāo)簽將其鏈接到HTML文檔。

示例（style.css）：

/* style.css */
p {
    color: blue;
    font-size: 16px;
}

在HTML中鏈接外部樣式表：

<link rel="stylesheet" type="text/css" href="style.css">

這使得可以在整個(gè)網(wǎng)站上共享相同的樣式。

總結(jié)

HTML是構(gòu)建現(xiàn)代網(wǎng)頁的基礎(chǔ)。通過學(xué)習(xí)HTML的基本語法和元素，你可以創(chuàng)建吸引人且功能強(qiáng)大的網(wǎng)頁。無論是文本、圖像、鏈接還是表單，HTML提供了豐富的工具來呈現(xiàn)內(nèi)容和實(shí)現(xiàn)用戶交互。

這篇文章提供了HTML的基礎(chǔ)知識(shí)，但HTML是一個(gè)廣泛的主題，還有許多高級(jí)特性和技巧等待你探索。希望這篇文章對(duì)你入門HTML有所幫助，讓你能夠開始創(chuàng)建自己的網(wǎng)頁。繼續(xù)學(xué)習(xí)和實(shí)踐，你將成為一個(gè)熟練的網(wǎng)頁開發(fā)者。

在線咨詢

上一篇：HTML常用代碼集合，背完這些基本可以自己做表白網(wǎng)頁了
下一篇：CSS選擇器：偽類

您的項(xiàng)目需求

*請(qǐng)認(rèn)真填寫需求信息，我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。

整合營(yíng)銷服務(wù)商