微軟近日在其官方博客上宣布了一項重大更新,將Azure OpenAI端點集成到其LlamaParse文檔中解析器中,這一舉措標志著微軟在生成式人工智能領(lǐng)域邁出了重要一步。
LlamaParse,作為微軟專為生成式人工智能(GenAI)打造的文檔解析器,其核心功能在于解析和清理各類文檔數(shù)據(jù),確保數(shù)據(jù)質(zhì)量上乘,為下游大型語言模型(LLM)提供堅實支撐。此次集成Azure OpenAI端點,無疑為LlamaParse增添了新的動力。
通過集成Azure OpenAI的GPT-4o系列模型,LlamaParse現(xiàn)在能夠更高效地提取非結(jié)構(gòu)化數(shù)據(jù),并實現(xiàn)文檔轉(zhuǎn)換。Azure OpenAI強大的語言模型能力與LlamaParse的高效解析能力相結(jié)合,使得文檔處理更加精準、智能。用戶現(xiàn)在可以直接在LlamaParse中調(diào)用GPT-4o和GPT-4o-mini等模型,享受前所未有的文檔處理體驗。
不僅如此,LlamaParse還新增了多模態(tài)文檔解析功能,這得益于Azure OpenAI的多模態(tài)支持。現(xiàn)在,用戶可以處理包含圖像、文本、音頻等多種模態(tài)的文檔,進一步拓寬了文檔處理的邊界。同時,LLM優(yōu)化的輸出也大大增強了檢索和語義搜索的效果,使得用戶能夠更快速地找到所需信息。
在數(shù)據(jù)攝取方面,LlamaParse通過LlamaIndex無縫連接到Azure AI Search的向量存儲庫中。這一功能使得用戶能夠輕松地將解析后的內(nèi)容分塊、嵌入和索引,為后續(xù)的搜索和生成提供有力支持。企業(yè)級的安全性和合規(guī)性也為敏感工作負載提供了有力保障。
現(xiàn)在,用戶可以利用LlamaCloud、Azure AI Search和Azure OpenAI構(gòu)建一個完整的檢索增強生成(RAG)工作流程。具體步驟包括:首先使用LlamaParse Premium和Azure OpenAI進行高級文檔提取,生成Markdown、LaTeX和Mermaid圖表等多種格式的LLM優(yōu)化輸出;然后使用Azure AI Search作為向量存儲,并利用Azure AI模型目錄中的嵌入模型對解析后的內(nèi)容進行分塊、嵌入和索引;最后利用Azure AI Search的查詢重寫和語義重新排序功能提升檢索質(zhì)量,并通過Llamaindex編排Azure AI Search和Azure OpenAI,構(gòu)建生成式AI應(yīng)用。
這一工作流程的推出,不僅為用戶提供了更便捷、高效的文檔處理方式,也進一步推動了生成式人工智能技術(shù)的發(fā)展。微軟將繼續(xù)致力于技術(shù)創(chuàng)新,為用戶提供更多優(yōu)質(zhì)的人工智能產(chǎn)品和服務(wù)。