text_list
中;如果是
table
類型,就將表格的文本表示(可能是
html
格式)添加到
text_list
中。
將圖
3.8
的提取的數據進行拆分,添加到
text_list
中,輸出結果如圖
3.11
所示。
非結構化文本數據通常非常稀疏,即包含大量的詞彙但每個文檔隻使用其中的一小部分。而結
構化數據則可以通過合並相似信息來降低數據的稀疏性,這有助於生成更加緊湊和有效的嵌入向
量。
結構化數據可以實現更高效的特征提取。結構化數據通常已經按照特定的模式或結構進行了組
織,這使得我們可以更加高效地從中提取有用的特征(如標題、作者、摘要、關鍵詞等)。這些特
征可以作為後續
embedding
的輸入,幫助生成具有更強區分性和泛化能力的嵌入向量。結構化數據
中的元素(如主題、類彆、屬性等)通常具有明確的含義,這些含義可以在
embedding
過程中被保
留下來。因此,基於結構化數據的嵌入向量往往具有更強的解釋性,有助於我們更好地理解模型的
預測結果和內部機製。