日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

開(kāi)篇

在AIGC(人工智能與通用計(jì)算)應(yīng)用中,大型語(yǔ)言模型(LLM)占據(jù)著舉足輕重的地位。這些模型,如GPT和BERT系列,通過(guò)處理和分析龐大的數(shù)據(jù)集,已經(jīng)極大地推動(dòng)了自然語(yǔ)言理解和生成的邊界。它們?cè)诙喾N應(yīng)用中表現(xiàn)出色,如文本生成、語(yǔ)言翻譯、情感分析等,對(duì)提高工作效率和展開(kāi)創(chuàng)新的應(yīng)用場(chǎng)景起著關(guān)鍵作用。

然而,LLM在處理實(shí)時(shí)數(shù)據(jù)方面存在一定的局限性。這些模型主要基于大量歷史數(shù)據(jù)進(jìn)行訓(xùn)練,因此,在理解和分析實(shí)時(shí)或最新信息時(shí)可能不夠靈敏。在應(yīng)對(duì)新興話題或最新發(fā)展趨勢(shì)時(shí),LLM可能無(wú)法提供最準(zhǔn)確的信息,因?yàn)檫@些內(nèi)容可能尚未包含在其訓(xùn)練數(shù)據(jù)中。此外,LLM在快速處理和反應(yīng)實(shí)時(shí)變化方面也面臨挑戰(zhàn),尤其是在需要分析和反映最新市場(chǎng)動(dòng)態(tài)、政策變化或社會(huì)事件時(shí)。
既然我們已經(jīng)意識(shí)到了大型語(yǔ)言模型(LLM)在處理實(shí)時(shí)數(shù)據(jù)方面的局限性,那么下一步就是探索如何通過(guò)Web Research技術(shù)突破這一限制。下面的內(nèi)容將專注于如何通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)結(jié)合LLM,實(shí)現(xiàn)對(duì)實(shí)時(shí)網(wǎng)絡(luò)資源的有效獲取和分析。

整體思路

Web Research 結(jié)合 LLM 的整體思路是復(fù)雜的過(guò)程,旨在利用大型語(yǔ)言模型的自然語(yǔ)言處理能力,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的高效處理和分析。如下圖所示,我們將整個(gè)過(guò)程進(jìn)行拆解:

1. 實(shí)時(shí)網(wǎng)絡(luò)請(qǐng)求:首先,對(duì)目標(biāo)網(wǎng)站發(fā)起實(shí)時(shí)請(qǐng)求,以獲取最新的數(shù)據(jù)和內(nèi)容。
2. 獲取html頁(yè)面:使用網(wǎng)站的URLs來(lái)訪問(wèn)和加載HTML頁(yè)面,此時(shí),網(wǎng)頁(yè)的數(shù)據(jù)將被加載到內(nèi)存中。
3. 內(nèi)容轉(zhuǎn)換:隨后,將加載的HTML頁(yè)面轉(zhuǎn)換為文本信息,為后續(xù)的處理步驟做準(zhǔn)備。這通常涉及去除HTML標(biāo)記和格式化內(nèi)容,以提取純文本數(shù)據(jù)。
4. 數(shù)據(jù)存儲(chǔ)和分類:轉(zhuǎn)換后的文本數(shù)據(jù)可以存儲(chǔ)在向量庫(kù)中,以便于進(jìn)行高效的檢索和分析。同時(shí),可以利用LLM對(duì)內(nèi)容進(jìn)行分類和組織,以便快速訪問(wèn)相關(guān)信息。
5.生成摘要:最后,利用LLM的功能調(diào)用來(lái)生成文本數(shù)據(jù)的摘要。這不僅包括提取關(guān)鍵信息,還可能涉及對(duì)數(shù)據(jù)進(jìn)行綜合和解釋,以便用戶能夠快速理解內(nèi)容的核心要點(diǎn)。
通過(guò)這樣的流程,我們能夠結(jié)合LLM的強(qiáng)大文本處理功能和網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的實(shí)時(shí)數(shù)據(jù)訪問(wèn)能力,有效地處理和分析大量的在線信息。這種方法不僅提高了信息處理的速度和準(zhǔn)確性,而且通過(guò)摘要和分類,使得用戶能夠更容易地獲取和理解需要的數(shù)據(jù)。

關(guān)鍵問(wèn)題

為了驗(yàn)證Web爬蟲(chóng)和大型語(yǔ)言模型結(jié)合的研究思路是否切實(shí)可行,可以以知名新聞網(wǎng)站W(wǎng)all Street Journal(華爾街日?qǐng)?bào))為例進(jìn)行實(shí)證分析。假設(shè)從該網(wǎng)站的首頁(yè),獲取實(shí)時(shí)的新聞信息,并且將這些信息進(jìn)行抽取,最終保存為包括“標(biāo)題”和“摘要”的結(jié)構(gòu)化信息, 以便后續(xù)查找和分析。從過(guò)程描述中發(fā)現(xiàn),將面臨三個(gè)主要的技術(shù)挑戰(zhàn):加載、轉(zhuǎn)換以及通過(guò)LLM進(jìn)行內(nèi)容抽取。
1.加載HTML:我們可以訪問(wèn) https://www.wsj.com,使用網(wǎng)絡(luò)爬蟲(chóng)工具獲取網(wǎng)站的HTML內(nèi)容。這一步涉及發(fā)送HTTP請(qǐng)求并接收返回的網(wǎng)頁(yè)代碼。
2. 轉(zhuǎn)換為文本:分析該網(wǎng)站的HTML結(jié)構(gòu)表明,文章標(biāo)題和摘要信息通常包含在`<span>`標(biāo)簽中。如下圖所示,文章的標(biāo)題是在`<span>`標(biāo)簽中。

如下圖所示,我們觀察到,文章的摘要也是保存在<span>標(biāo)簽中。

因此需要利用HTML解析庫(kù),如BeautifulSoup,從HTML中提取這些標(biāo)簽的內(nèi)容,并將其轉(zhuǎn)換為純文本格式。
3. LLM處理:有了純文本數(shù)據(jù)后,我們將使用大型語(yǔ)言模型來(lái)進(jìn)一步處理這些文本。這可能包括內(nèi)容分類、關(guān)鍵信息提取、摘要生成等。
在這個(gè)例證中,我們將如何確保網(wǎng)絡(luò)爬蟲(chóng)精準(zhǔn)地抓取所需信息,以及如何調(diào)整大型語(yǔ)言模型以精確處理和提取有價(jià)值的內(nèi)容,都是需要解決的問(wèn)題。通過(guò)成功實(shí)施這一流程,我們不僅驗(yàn)證了LLM與Web爬蟲(chóng)結(jié)合的有效性,還進(jìn)一步探索了如何通過(guò)自動(dòng)化工具提高研究和分析的效率。

數(shù)據(jù)加載

通過(guò)上面對(duì)關(guān)鍵問(wèn)題的分析,讓我們先為即將進(jìn)行的技術(shù)旅程做好準(zhǔn)備。從網(wǎng)頁(yè)內(nèi)容的加載到信息的轉(zhuǎn)換,再到利用LLM提取關(guān)鍵數(shù)據(jù),都是構(gòu)建有效網(wǎng)絡(luò)研究工具的關(guān)鍵環(huán)節(jié)。
首先,我們將面對(duì)的挑戰(zhàn)是如何高效地加載網(wǎng)頁(yè)內(nèi)容。異步HTML加載器(AsyncHtmlLoader)扮演著至關(guān)重要的角色。使用aiohttp庫(kù)構(gòu)建的AsyncHtmlLoader能夠進(jìn)行異步HTTP請(qǐng)求,非常適合于簡(jiǎn)單輕量級(jí)的網(wǎng)頁(yè)抓取工作。這意味著它能夠同時(shí)處理多個(gè)URL的請(qǐng)求,提高了數(shù)據(jù)抓取的效率,特別是當(dāng)我們需要從多個(gè)網(wǎng)站快速獲取信息時(shí)。
對(duì)于那些更復(fù)雜的網(wǎng)站,其中的內(nèi)容可能依賴于JAVAScript渲染,我們可能需要更強(qiáng)大的工具,例如AsyncChromiumLoader。這個(gè)加載器利用Playwright來(lái)啟動(dòng)一個(gè)Chromium實(shí)例,它不僅可以處理JavaScript渲染,還可以應(yīng)對(duì)更復(fù)雜的Web交互。Playwright是一個(gè)強(qiáng)大的庫(kù),支持多種瀏覽器自動(dòng)化操作,其中Chromium就是一個(gè)被廣泛支持的瀏覽器。
Chromium可以在無(wú)頭模式下運(yùn)行,即沒(méi)有圖形用戶界面的瀏覽器,這在網(wǎng)頁(yè)抓取中很常見(jiàn)。在無(wú)頭模式下,瀏覽器后臺(tái)運(yùn)行,執(zhí)行自動(dòng)化任務(wù),而用戶不會(huì)看到任何的瀏覽器窗口。這樣的操作對(duì)于服務(wù)器端的抓取任務(wù)尤其有用,因?yàn)樗鼈兛梢阅M瀏覽器中的完整用戶交互過(guò)程,而不需要實(shí)際顯示界面。
無(wú)頭模式,或稱為“無(wú)界面模式”,是一種在不打開(kāi)圖形界面的情況下運(yùn)行應(yīng)用程序的方式。想象一下,你的電腦在執(zhí)行一些任務(wù),如下載文件、刷新數(shù)據(jù)或運(yùn)行一個(gè)復(fù)雜的計(jì)算過(guò)程,而這一切都在沒(méi)有打開(kāi)任何窗口的情況下靜靜進(jìn)行。這正是無(wú)頭模式的工作原理。
在Web開(kāi)發(fā)和自動(dòng)化測(cè)試領(lǐng)域,無(wú)頭模式尤為有用。例如,開(kāi)發(fā)者可能需要測(cè)試一個(gè)網(wǎng)頁(yè)在不同瀏覽器中的表現(xiàn),但并不需要真正地視覺(jué)上檢查這些網(wǎng)頁(yè),而是要檢查代碼的運(yùn)行結(jié)果。在這種情況下,他們可以使用無(wú)頭模式的瀏覽器來(lái)模擬用戶的行為,如點(diǎn)擊鏈接、填寫(xiě)表單等,同時(shí)瀏覽器本身不會(huì)在屏幕上顯示。
實(shí)際上,我們介紹了AsyncHtmlLoader和AsyncChromiumLoader兩種加載器,本例中我們使用前者就足夠了,其示例代碼如下:
from langchain.document_loaders import AsyncHtmlLoader
urls = ["https://www.wsj.com"]
loader = AsyncHtmlLoader(urls)
docs = loader.load()
 

分享到:
標(biāo)簽:數(shù)據(jù)采集
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定