返回列表
AI、大數據和知識管理三股熱潮的匯聚與融合,正以前所未有的速度推動企業知識管理向更高效、智能化方向發展。如何充分發揮大模型技術的優勢,克服現有難題,構建高效、智能的知識管理體系,成為當前企業關注的焦點。
在鴻翼與愛分析的網絡研討會上,鴻翼聯合創始人兼CTO羅永秀帶來《企業如何有效落地大模型知識管理》主題分享,以下是分享視頻和文字實錄。
AI、數據、知識,三股熱潮匯聚
1.1 AI、數據、知識在企業中的解讀
本次分享主要圍繞如何把大模型和知識管理融合在一起,在企業內部進行有效的落地。
我們首先需要關注的是,當下存在三個極為重要的關鍵詞,AI、數據和知識。
首先是數據。數據已被視為一項寶貴的資產,今年的第一季度整體財務報表顯示,已有21家上市企業在其財務報表中增設了數據資源項目,無疑數據會成為近年來數字化轉型升級的核心。
其次是知識管理,無論是大型企業還是小型創新企業都需重視知識管理。一個組織的效能提升,包括組織的效率如何,成本能否得到有效控制,產品的質量能否得到全面掌控等,往往取決于企業在經營業務活動過程中所積累的經驗,我們需要將這些經驗標準化,形成知識,進而實現組織規?;瘶I務的開展。因此,知識管理對于企業來說,是生存與發展的關鍵所在。
最后是AI技術,如今越來越多的企業,不僅包括國有企業,還包括私營企業,甚至是跨國企業,都已將AI技術作為組織內部的核心策略之一。他們可以通過AI實現數字化的轉型,以提高企業的生產和經營活動效率。
在這之中,AI與數據的關聯性也不容忽視。通過AI,我們可以對非結構化數據進行深入挖掘。眾所周知,所有的大模型都是通過各種模態的非結構化數據構建而成的。因此,企業中的知識實際上是通過各種非結構化數據的凝練和匯聚形成的。
1.2 鴻翼打造非結構化數據全棧解決方案
鴻翼成立于2000年,專注在廣義的電子文件或非結構化數據20余年。主營業務是和文件有關的各種平臺及應用產品,包括網盤文檔、非結構化數據管理平臺、AI數據管理平臺等等。
基于低代碼平臺、智能平臺以及非結構化數據中臺這三大平臺,我們有一系列的內容應用產品。以主要的應用場景和產品為例,包括文檔的共享協作系統,為各種第三方應用系統提供統一存儲管理平臺。此外我們還關注非結構化數據的治理,如何與業務深度融合,實現知識管理。
近年來,我們在大模型應用平臺上投入了大量的資源,并形成了一系列的產品。因此,鴻翼的AI能力實際上是一個雙環端到端構建企業大模型應用的閉環,左側主要是數據治理的體系平臺和產品,右側則更多地基于非結構化數據在企業內部實施大模型落地。
非結構化數據治理與AI數據處理
2.1 大模型數據分類
下面我們聊聊非結構化數據治理和AI數據處理這兩方面的內容。在任何企業內部,非結構化數據的比例高達80%甚至更高。我們每天都需要處理和接觸各種類型的非結構化數據。對于企業而言,許多數據價值的挖掘實際上取決于我們能否有效地挖掘出它們。在當前的企業環境中,非結構化數據治理已經變得越來越重要,CIO們已經將非結構化數據的頂層規劃視為數字化轉型的關鍵之一。因為我們面臨著一系列的問題,如連接、治理、服務能力、安全體系等,這些都是非結構化數據在不同方面的問題。
模型數據實際上可以分為三類,第一個是全訓模型數據,其實就是知識庫;第二類是RAG數據,即我們將一系列的知識文件轉換為各種內容塊;第三類是進行微調和精調時需要使用的更高質量的QA數據。
這三種數據我們通常稱之為大模型數據,它實際上是通過我們的知識數據轉化為模型數據。這里就引申出一個問題,知識數據來自哪里?知識數據意味著我們必須連接到前序的、非結構化數據的過程文檔庫,或是已與企業內部各式第三方應用系統相聯系的,我們稱之為非結構化數據管理平臺。這樣一來,我們整個企業的知識庫才能在業務流程中得以持續而動態地匯聚。
只有這樣,我們才能將海量且高質量的知識庫數據傳輸至企業各個垂直領域、不同規模所需的龐大模型,提供符合需要的數據模型。所以,這實質上這是一種全域數據關系的整理。而在大模型數據治理中,也有幾個關鍵因素。
2.2 大模型數據治理關鍵
我們首先來看的是非結構化數據全域的管理模型,要治理好數據很多時候需要有模型。同樣的,知識管理就需要有知識管理的模型,知識形成之前無論是過程的文檔還是體系的文檔,那都要有內容模型。AI有模型數據,分類體系里邊包括多少個庫?每個庫里邊有多少個分類?標簽體系、元數據體系等任何一個文件或者內容,它其實多維度的能通過不同的主視角的分類或者是其他緯度的,比如說標簽體系或者元數據,把不同的文件或者知識通過不同的分類體系去組織在一起,這個在我看來是非常關鍵的。
另一方面,我們都知道知識就是隨著企業業務不斷向前運轉且持續更新,而大模型經常會發生幻覺,原因是企業的事實或者內容的數據沒有完整的被獲取到,而這個需要要靠關聯來解決,不管是標簽的還是元數據的,還是內容結構的,或者網狀的知識圖譜的,最終要解決的還是數據的關聯。綜合來看要對大模型數據進行全面的治理,上述這些方面都要完整的考慮到。
最終整個大模型的實際的效果怎么樣,除了需要依賴于有一個很好的知識庫,百分之八九十可能都跟RAG管道工程化是不是全面、是不是足夠有深度相關。因為大模型數據處理會涉及到很多的環節,包括文檔分析、內容拆分、自動生成QA、數據化文檔、圖譜化等等,然后會進行關聯的增強,再去做各種的意圖識別,最后是Query的改寫跟重排,而這些環節的復雜性和工程化的挑戰也是非常高的。
2.3 文件內容化和內容數據化
接下來,讓我們一起看看其中的關鍵環節,首先是文件的內容化處理。我們需要解析內容,并對其進行有效去除。此外,版面的分析也是至關重要的,因為如今的模式識別文檔中,通常包含大量的圖像和表格,且整體布局結構極其復雜,因此,我們必須深入研究文檔的版面內容模態進行全面的分析。接著,我們將對內容進行拆分,包括標題、章節結構以及圖像、表格等內容塊。最后,我們需要對每個內容塊進行QA萃取和自動化處理,這便是文件內容化的核心內容。
關于內容數據化,正如之前所提到的,我們需要借助大模型成熟的數據計算和關聯能力。因此在內容數據化方面,我們可以利用不同的基礎大模型或垂直小模型,以滿足不同業務和類型的數據化需求。當然,這里的數據不僅包括單一數據,還包括表數據和圖譜數據,我們將這些數據存放在相應的關系數據庫或圖譜上,并進行一系列的關聯計算,這便是內容數據化的過程。
至于文檔的圖譜化,雖然它也屬于數據化的范疇,但我們可以將其單獨討論。事實上,國內和國際上的知識圖譜研究已經有近十年的歷史,但在國內,其應用場景相對有限,這并非因為上層應用存在問題,是知識圖譜構建成本過高,一般企業難以承受?,F在基于基礎大模型,通過一系列的微調,我們可以形成不同領域的專用圖譜抽取模型,從而取得良好的效果。因此,文檔圖譜化作為一種可行的應用,其可行性正在逐漸增強。
接下來,我們探討一下對文件進行內容化和數據化處理的具體價值。實際上,內容化的價值與數據化的價值是不同的,數據化的價值主要體現在增強內容管理、提高召回率以及降低大模型的幻覺發生率。
此外,在查詢的改寫與意圖的識別方面,知識圖譜能發揮其重要作用。傳統上,知識圖譜的應用場景十分廣泛,如智能檢索、智能推薦、智能審核等。文件內容化則是將大顆粒的文件拆分為較小的內容區塊,主要運用于內容創作以及提升內容源的效率或進行合規檢查。我們知道,顆粒度較小的標準有其優點,而顆粒度較大的標準也存在其不足之處。因此,文件內容化和文檔數據化實際上是通過大模型技術的賦能,挖掘數據的整體價值,這與過去相比已經發生了巨大的變化。
接下來我們講講全域非結構化數據治理平臺與增強型CORE輸送高質量大模型數據。整個內容庫包括體系的內容庫、過程的內容庫、知識庫,甚至包括檔案庫,可以通過文件的內容化和內容的數據化,轉變為模型數據,從而形成企業的各種垂直專有的大模型。
全鏈智能知識管理
知識管理已經成為組織當前數字化轉型的關鍵,與組織的生存和發展密切相關。知識管理的難度非常大,涉及到人、組織、團隊等多個方面,因此我們不能簡單地認為擁有一個知識庫、一堆知識文件,并使用一個大模型就能實現良好的落地效果。因為這之中會面對一系列各種組織、各種人、各種業務發展所帶來的一系列的問題。而鴻翼帶來的是各個行業中的全鏈條智能知識管理,其中涵蓋了一系列知識管理的不同應用模塊。
這其中包括了知識中心、知識庫、知識的標簽等。在知識的重組和展示層面,我們有統一的搜索,有知識地圖,它實際上也是一種從另一個視角、另一個維度對知識進行重組和組裝。以及知識門戶,案例中心,因為任何一個企業的業務最終都需要沉淀為精品案例,通過這些精品案例可以賦能整個企業的下一個同類業務。這在所有的行業實際上都是完全一致的,那么在知識的應用創新上,我們說如何將隱性知識轉化為顯性知識,在某些行業實際上也是必要的。我們來說說學習中心,我們有如此眾多的知識,如何將這些知識灌輸到人們的腦海中,如何通過個人對知識的掌握讓整個組織的知識得到全面的提升。我們需要通過自主學習,通過考試,通過我們學習的量化和學習成效的一個量化去推動和評估最終的結果。此外,還有專家庫,在創作層面的易寫等等,這些就是知識應用創新的一些知識管理應用模塊。
推動大模型應用在企業落地
接下來講一下鴻翼在大模型應用的一些產品層面相關內容。
4.1 ECM文檔云LLM應用
我們在做知識管理的時候,有時候會使用知識庫,有時候會使用文檔與內容庫,這個要根據企業原有的知識到底是文件知識,還是在線的wiki知識,以及和跟存量知識、增量知識等等不同的因素都是有關的。
ECM文檔云知識庫可能是一個全庫,也可能是某一個一級文件夾,或者二級文件夾,內容追溯可以根據當前選擇的文件夾的內容庫,對內容庫里邊的知識進行智能問答,我們可以在文檔的產品里邊直接可以定位到具體哪一頁的哪個內容塊。
AI搜索在企業內部正逐步產生深遠影響,呈現出重大變革。以往那種僅僅依靠關鍵詞的搜索已無法滿足企業的需求,如今智能問答與傳統檢索緊密相連,使得企業內部用戶能夠迅速獲得準確的答案,且其具備穿透多種信息并根據需求自主查詢的能力。這種檢索方法能便捷地解答用戶的疑問。
在線輕文檔應用功能與WPS AI相似,可直接對文檔內容進行問題回復及插入操作。當然,產品中還包含許多企業原有的知識庫,我們將這些知識庫進行細粒度的內容化處理,用戶只需搜索便可直接插入所需內容,兩種功能兼具。
企業中的視頻文件數量日益增多,過去理解一個視頻文件確實困難重重,需要從頭至尾逐字觀看。然而,通過AI對音視頻進行解析,如今情況已大為改觀。
4.2 AI Agent智能體平臺
接下來,我們講講AI Agent智能體平臺。它實際上是面向企業內部全體員工的AI共創平臺。每位用戶都可以通過語言記憶某個知識庫,并創建與其業務相關的Agent智能體。此外,我們還將整個Agent組件化后,直接嵌入到我們的首頁上。然后,我們構建了一個數據源,對其進行解析、切分、向量模型等策略的設置,我們可以連接到自己的知識庫,也可以連接到整個內容庫,兩者之間可以無縫銜接。
我們所開發的Agent以及大規模知識管理系統,實際都在全力支持著大規模的知識庫,其規模甚至可能達到數億甚至數百億的知識文件,而我們的整個平臺都有能力提供支持。實際上,一家企業中的知識資源確實是極度豐富的,對所有文件進行內容塊的提取和QA的整理,便是整個Agent的建立過程,涉及到了與之相關的模型配置、指令配置和插件的支持。
因此,這兩者在我們進行頂層規劃時是可以有機地結合在一起的。也就是說,我們構建規劃一個Agent智能體應用平臺時,可以先從基于文檔庫或知識庫知識管理的智能文檔開始,然后逐步增加各種不同業務類型的智能體。
在上述能力之下,其實還有三層。
4月14日下午,桂林市委書記李楚率隊前往鴻翼數據要素產業園開展調研指導工作。桂林···
DeepSeek大模型熱潮下,企業紛紛思考如何搭乘這班科技快車,能夠迅速實施并見···
3月20日-21日,以“因聚而生 眾智有為”為主題的“華為中國合作伙伴大會202···
每個企業,每天都在產生大量的操作手冊、研究報告、項目方案等各種類型的業務文檔。這···
2月27日,鴻翼與華為技術有限公司(簡稱“華為”)在華為練秋湖研發中心簽署合作協···
4月14日下午,桂林市委書記李楚率隊前往鴻翼數據要素產業園開展調研指導工作。桂林···
DeepSeek大模型熱潮下,企業紛紛思考如何搭乘這班科技快車,能夠迅速實施并見···
3月20日-21日,以“因聚而生 眾智有為”為主題的“華為中國合作伙伴大會202···
每個企業,每天都在產生大量的操作手冊、研究報告、項目方案等各種類型的業務文檔。這···
2月27日,鴻翼與華為技術有限公司(簡稱“華為”)在華為練秋湖研發中心簽署合作協···