然而新的疑問旋即出現(xiàn)在伊芙·卡莉的腦海之中。
這個南風(fēng)APP的開發(fā)者究竟是怎么搞定這種姑且被叫做“生成式摘要算法”的全新算法呢?
所謂的生成式摘要算法這樣類似的依托于神經(jīng)網(wǎng)絡(luò)的摘要算法他們的開發(fā)團隊之前也曾經(jīng)涉獵過。
當時他們將這種算法稱為“概括式摘要算法”,可是這種算法經(jīng)過他們小組多輪測試實際表現(xiàn)并不理想。
雖然這種概括式或者叫生成式文本摘要的摘要算法能夠產(chǎn)生原文中沒有出現(xiàn)過的表達,相比于抽取式摘要算法更加靈活。
但也正因此生成式摘要更容易產(chǎn)生事實性錯誤,這些錯誤既包括與原文信息相違背的內(nèi)容,又包括與人們的常識相違背的內(nèi)容。
除此之外,這種生成式文本摘要算法在應(yīng)付長新聞時很容易表現(xiàn)出明顯的疲軟乏力。
雖然將這種生成式摘要算法和抽取式摘要算法放到一起的話會改善生成式摘要算法處理新聞長度的能力。
但經(jīng)過測試,沒有生成式摘要算法拖油瓶,抽取式摘要算法反而能夠表現(xiàn)的更加理想。
為了穩(wěn)妥起見,伊芙·卡莉所在的團隊最終還是選擇通過進一步強化抽取式文本摘要的速度和準確度這一傳統(tǒng)文本摘要方向。
一個曾經(jīng)被他們遺棄的方向,卻被別人重新拾起?
聽起來有點不可思議,但是事實就是南風(fēng)APP的開發(fā)者不但重新拾起他們曾經(jīng)遺棄的研究方向,反而做的比他們更優(yōu)秀,可以說是狠狠打臉了。
伊芙·卡莉有點困惑,她怎么也想不通南風(fēng)APP的開發(fā)者究竟是怎么在他們認為行不通的方向趟出一條道的。
但有一點可以肯定,南風(fēng)APP的開發(fā)者雖然用的也是跟概括/生成式算法相類似的算法,但具體到生成式算法本身至少要比他們當初做的那個生成式算法先進一代。
盡管心中困惑加上狠狠被打臉,但伊芙·卡莉并沒有表現(xiàn)出很情緒化,至少沒有如同尼克在信中表現(xiàn)的那樣情緒化。
多年的研究生涯早就養(yǎng)成了伊芙·卡莉?qū)櫲璨惑@的理性性格。
再者科技方面的進步原本就是此起彼伏。
如果因為一時的得失就患得患失,那還不如盡早換行。
多余的情感波動非但沒有必要,反而會影響理智的判斷。
深入體驗?zāi)巷L(fēng)APP,伊芙·卡莉不得不承認,雖然這款A(yù)PP很像是臨時拿翻譯軟件過來湊數(shù)的,但核心算法確實很強。
甚至一如這款軟件宣傳標語所說的那樣——“地表最強”。
除此之外這款軟件宣稱的摘要速度與摘要準確度碾壓同類軟件也所言非虛。
等等,想起南風(fēng)APP這款軟件宣傳標語中著重強調(diào)的“準確度”,伊芙·卡莉突然想到了什么。
現(xiàn)在的新聞?wù)浖惴ㄔ谛麄鞣矫娑际菑娬{(diào)速度的,很少又在準確度方面大談特談的。
倒不是因為準確度在新聞?wù)矫娌恢匾∏∠喾?,準確度在新聞?wù)@方面極其重要,可以說準確度是衡量一個摘要算法堪不堪用最根本的因素,但各種摘要算法很少有對精確度進行極其精確的量化宣傳的。
原因無它,因為現(xiàn)在業(yè)內(nèi)對準確度的衡量缺乏一個統(tǒng)一的標準。
聽起來很不可思議,但是事實如此,評估一篇摘要的準確度看似很容易,但其實這是一件比較困難的任務(wù)。
對于一篇摘要的衡量而言,很難說有標準答案,不同于很多擁有客觀評判標準的任務(wù),摘要的評判一定程度上依賴主觀判斷。
在摘要任務(wù)中,有關(guān)于語法正確性、語言流暢性、關(guān)鍵信息完整度等衡量摘要準確度的標準都缺乏一個統(tǒng)一的標尺。
在現(xiàn)今評估自動文本摘要質(zhì)量的兩種方法:人工評價方法和自動評價方法。
人工評估就是邀請若干專家人為制定標準進行人工評定,這種方法比較接近人的閱讀感受。
但是耗時耗力,不但無法用于對大規(guī)模自動文本摘要數(shù)據(jù)的評價,和自動文本摘要的應(yīng)用場景也并不符合。
最關(guān)鍵的是以擁有主觀思想的人進行摘要的評價的話,很容易出現(xiàn)偏差,畢竟一千個人眼里有一千個哈姆雷特,每個人對新聞?wù)暮饬慷加凶约旱臏世K,或許一個衡量團隊可以制定一個統(tǒng)一的衡量標準,但換一個衡量團隊很可能衡量標準便不一樣。
這就很容易導(dǎo)致在評判準確度的時候因為評判團隊的不同,同一次的摘要結(jié)果會得到截然不同的評價。
評判團隊千差萬別,很容易導(dǎo)致一些明明有實力做好算法的團隊卻因為評判團隊拉跨出師未捷身先死。
伊芙·卡莉他們團隊的文本摘要算法之前一度能夠在全球領(lǐng)先。
跟他們和牛津、哈佛、耶魯三所大學(xué)的語言學(xué)方面深度合作有著很大的關(guān)系。
但這終究不是長久之計,人工的評估方法因其固有的局限性注定了走不遠。
因此,文本摘要算法研究團隊積極地研究自動評價方法。
自上世紀九十年代末開始,一些會議或組織開始致力于制定摘要評價的標準,他們也會參與評價一些自動文本摘要。
比較著名的會議或組織包括SUMMAC、DUC、TAC(Text Analysis Conference)等。
盡管相關(guān)的團隊在積極研究自動評價方法,在現(xiàn)今評估自動文本摘要質(zhì)量的兩種方法(人工評價方法和自動評價方法)還是以人工評價方法這個評估方法最為常用。
很多自動評價方法的原理主要是將摘要算法生成的新聞?wù)蛥⒖颊M行比較通過最大擬合程度來進行評價。
這個評價的過程雖然是自動的,但參考摘要卻是人工撰寫的。
也就是說即便是所謂的自動評價方法,也擺脫不了主觀因素的介入。
那樣的話何苦多費一遍功夫用什么自動評價方法?
也正因為如此很多團隊在評估摘要質(zhì)量時選擇的方式依舊是人工評估。
而人工評估這種主觀東西就很難對結(jié)果進行客觀的量化。
正因為這種情況,盡管之前不少團隊摘要算法準確度都還算不錯。
但涉及到新聞?wù)獪蚀_度方面的宣傳,大家都選擇性的遺忘了。
就這種情況下,為什么南風(fēng)APP的開發(fā)者在軟件介紹中卻言之鑿鑿地稱這款軟件準確度比同類軟件高出270%。
這個所謂的270%究竟是基于什么標準去衡量的呢?