一级做A爱高清免费观看软件,2024国产手机在线精品

微信咨詢

咨詢QQ

咨詢電話

公眾號(hào)

TOP

首頁 > 知識(shí) > 科技前沿

新方法避免AI一本正經(jīng)“胡言亂語”

來源：科普中國(guó)

作者：王琳琳劉傳波

發(fā)布時(shí)間：2024-09-12

瀏覽次數(shù)：770

目前，大語言模型逐漸成為文學(xué)、法律、醫(yī)學(xué)、自然科學(xué)研究等領(lǐng)域中不可或缺的工具。然而，在應(yīng)用過程中，大語言模型常會(huì)出現(xiàn) “幻覺”現(xiàn)象——可能生成看似合理但實(shí)際并不準(zhǔn)確或不真實(shí)的信息。比如，在新聞?lì)I(lǐng)域，大語言模型可能會(huì)編造出完全不存在的新聞事件；在法律領(lǐng)域，它可能引用虛構(gòu)的法律條文和案例；在醫(yī)學(xué)領(lǐng)域，它可能會(huì)提供錯(cuò)誤的診療建議，甚至危及患者生命安全。鑒于此，用戶在使用這些大語言模型輸出的答案時(shí)不要盲目相信，而應(yīng)對(duì)每次輸出的答案進(jìn)行仔細(xì)核實(shí)和驗(yàn)證。

英國(guó)牛津大學(xué)研究團(tuán)隊(duì)近日在國(guó)際學(xué)術(shù)期刊《自然》上發(fā)表論文，嘗試解決大語言模型輸出中的這種“幻覺”現(xiàn)象，從而提高輸出的可信性。通過評(píng)估大語言模型在特定提示詞下生成內(nèi)容時(shí)的不確定性，可計(jì)算出該模型的困惑程度。作為一種警示，它提醒用戶或模型自身采取額外的循證措施，以確保更準(zhǔn)確地輸出答案。

為了更準(zhǔn)確衡量模型的困惑程度，該論文引入了“語義熵”概念來計(jì)算輸出的不確定性。所謂語義熵，實(shí)際上是信息熵的一種，用于衡量一個(gè)物理系統(tǒng)中所包含的信息量。

為了簡(jiǎn)單理解“熵”所表示的意思，我們可以想象一個(gè)人在岔路口時(shí)作出判斷的情形：如果這個(gè)人向左走或向右走的概率相同，那么這是“熵”的最大情況，代表信息不確定性的極大值，說明這個(gè)人對(duì)前方的路完全沒有把握；而如果這個(gè)人總是選擇向左走，從不選擇向右走，則這是“熵”的最小情況，代表信息不確定性的極小值，說明這個(gè)人對(duì)前方的路完全有把握。

然而，當(dāng)涉及語言時(shí)，情況會(huì)變得更加復(fù)雜。相同的意思可以通過不同的表達(dá)方式來傳達(dá)。例如， “埃菲爾鐵塔的位置在哪里”，答案可以是“巴黎”“在巴黎”或“在法國(guó)首都”。為了解決這種語言本身導(dǎo)致的不確定性，研究人員將意義相同的回答進(jìn)行聚類，從而形成一個(gè)統(tǒng)一的輸出答案，進(jìn)而計(jì)算出聚類后模型輸出答案的“熵”。如果模型輸出的句子都是表達(dá)相同語義的句子，那么語義熵值就會(huì)較低，這意味著模型對(duì)于自己的輸出答案非常確定；反之，語義熵則會(huì)很高，表明模型對(duì)自己輸出的答案感到不確定。

利用語義熵概念，研究人員對(duì)包括GPT-4和LLaMA2在內(nèi)的多個(gè)大語言模型進(jìn)行深入研究。結(jié)果顯示，語義熵在所有模型和數(shù)據(jù)集上的表現(xiàn)都非常出色，是目前用于評(píng)估模型困惑程度的最佳方法，能有效識(shí)別出大語言模型是否在“胡言亂語”。另外，通過對(duì)大語言模型進(jìn)行反復(fù)提問，我們可以有效地定量計(jì)算出它對(duì)問題答案的不確定程度，并通過拒絕回答不確定的問題來提高輸出答案的整體準(zhǔn)確度。

語義熵的優(yōu)勢(shì)顯而易見，它不需要對(duì)大語言模型進(jìn)行改動(dòng)或重新訓(xùn)練，也不需要額外的成本就可立即應(yīng)用于目前所有的大語言模型。此外，在設(shè)計(jì)大語言模型時(shí)，我們可以將語義熵作為參考指標(biāo)，在遇到可能不確定的答案時(shí)可以選擇拒絕回答或嘗試進(jìn)行聯(lián)網(wǎng)搜索，從而提高答案的可靠性。語義熵甚至可以用于人類也不知道答案的未知問題，定量判斷大語言模型輸出答案的確定性。

值得注意的是，利用語義熵來判斷大語言模型輸出的困惑程度，并不等同于對(duì)輸出正確與否的判斷。換句話說，大語言模型輸出答案具有很低的語義熵，只意味著它在其已有的訓(xùn)練數(shù)據(jù)基礎(chǔ)上確信自己答案是正確的。這表明大語言模型有極高概率生成單一語義的句子，但這些句子是否實(shí)際正確仍無法完全保證。

盡管如此，這項(xiàng)研究無疑是在實(shí)現(xiàn)完全機(jī)器自主語言生成的道路上邁出了重要一步，為大語言模型理解其自信度提供了新的視角，給未來發(fā)展帶來了無限可能。

（作者王琳琳系中國(guó)科普作家協(xié)會(huì)會(huì)員、吉林省科學(xué)技術(shù)工作者服務(wù)中心助理研究員，劉傳波系吉林省科普創(chuàng)作協(xié)會(huì)會(huì)員、中國(guó)科學(xué)院長(zhǎng)春應(yīng)用化學(xué)研究所博士）

點(diǎn)擊查看中國(guó)科普資源名錄資源展示

點(diǎn)擊查看中國(guó)科普資源名錄資源需求

歡迎掃碼關(guān)注深i科普！

我們將定期推出

公益、免費(fèi)、優(yōu)惠的科普活動(dòng)和科普好物！