第275章 寫完了~_離語_免费小说阅读网 
免费小说阅读网 > 玄幻魔法 > 離語 > 第275章 寫完了~

第275章 寫完了~(2 / 2)

法分類,這種方法利用機器學習算法來訓練模型,通過模型來預測文本之間的相似度。常見的基於

機器學習的方法有支持向量機(svm)、神經網絡等。

目前,在國內外,文本相似度計算已經取得了豐富的成果。國內方麵,清華大學等機構的研究

者提出了基於深度學習的文本相似度計算方法,利用神經網絡模型來捕捉文本的深層語義信息,實

現了較高的相似度計算精度。江蘇師範大學的研究者提出了利用《新華字典》構建向量空間來做中

文文本語義相似度分析的方法,該方法在中文文本相似度計算方麵取得了顯著的效果。放眼國外,

google

的研究者提出了

word2vec

算法,該算法將詞語表示為高維向量空間中的點,通過計算點之

間的距離來衡量詞語之間的相似度。word2vec

算法在文本相似度計算領域具有廣泛的影響。斯坦

福大學等機構的研究者提出了

bert

模型,該模型通過大量的無監督學習來捕捉文本的上下文信

息,可以實現高精度的文本相似度計算。bert

模型在多項自然語言處理任務中均取得了優異的表

現。

2.5

本章小結

本章主要介紹了本項目中使用的四種關鍵技術與模型。這些技術主要基於大型語言模型,並且

依賴於

rag

技術的原理。介紹了知識抽取技術,它利用先進的自然語言處理技術從文本中提取有意

義的信息和知識,隨後討論了文本處理中所使用的

rag

技術,該技術可以顯著提高大型語言模型在

專業領域的性能,增強信息檢索的準確性和效率。最後探討了在文本比對過程中所需的相似度計算

方法,這對於評估文本之間的相似程度至關重要。

了解清楚數據獲取來源後,進行數據采集,數據采集的方法包括自動化和手動兩種方式:

自動化采集:利用編寫的

python

腳本通過

api

接口自動從上述數據庫和期刊中下載文獻和元

數據,部分代碼如圖

3.2

所示。這種方法的優點是效率高,可以大量快速地收集數據。使用

beautifulsoup

requests

庫從開放獲取的期刊網站爬取數據。

手動采集:通過訪問圖書館、研究機構以及聯係文章作者等方式獲取不易自動下載的資源。雖

然此方法更費時,但有助於獲取更全麵的數據集,特彆是一些最新或尚未公開的研究成果。

將兩種方法采集到的文獻數據進行彙總,最大範圍的將有關電力

lca

領域的英文文獻進行彙

總,共獲得

507

篇。

最後是將各個途徑獲取到的文獻數據和元數據彙總,進行數據預處理。

采集到的數據需經過清洗和預處理,才能用於後續的分析。

數據預處理的步驟包括:

數據清洗:刪除重複的記錄,校正錯誤的數據格式,填補缺失值。

數據整合:將來自不同來源的數據整合到一個統一的格式和數據庫中,如表

3.1

所示,以便進

行進一步的分析。

為了使後續知識庫生成更加準確與完善,對文獻具體內容進行篩選。例如部分文獻中並未提到

所用數據,而是指出所用數據庫鏈接,如圖

3.3

所示,在對該篇文獻進行解析後,數據部分就是欠

缺的,最終構建的知識庫就不完整,在調用大模型回答相關問題時,極大概率產生幻覺。因此為了

構建更為準確的專業模型,對爬取下來的

507

篇文獻進行篩選,選擇包括流程圖(system

boundaries)、各單元過程或生產環節的投入(

input),產出(

output),數據(

life

cycle

inventory),以及數據的時間、地點、獲取方法、技術細節的文獻作為最後應用的數據。核對內容

後的文獻數據集共

98

篇英文文獻。



最新小说: 我靠破案養家糊口 少尊主撿回了個瘋批Omega 我真不是龍傲天老婆 師姐穿軍嫂:兵哥,一起養孩子唄 黃仙討封,我告訴它要相信科學 火紅年代,開局大學演講 原神:璃月劍仙,玩家發癲 一腳悲催穿越古代,努力搞錢 遊戲人生No game No life 美食:我工廠擺攤賣盒飯饞哭全網