日本女星佐佐木明希一级黄色视频 ,中文字幕精品一区二区三区sm,91精品久久久久久

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁 > 新聞資訊 > IT業(yè)界 >正文

利用python爬取并翻譯GEO數(shù)據(jù)庫(kù)

發(fā)布時(shí)間：2023-07-03 13:43:41 作者：網(wǎng)友整理

GEO數(shù)據(jù)庫(kù)是NCBI創(chuàng)建并維護(hù)的基因表達(dá)數(shù)據(jù)庫(kù)，始于2000年，收錄了世界各國(guó)研究機(jī)構(gòu)提交的高通量基因表達(dá)數(shù)據(jù)，現(xiàn)芯片集數(shù)據(jù)量高達(dá)12萬以上。想要從這里面挖掘（bai piao）數(shù)據(jù)，發(fā)個(gè)sci提前畢業(yè)升職稱？那么第一步就是篩選自己所需要的芯片集。

我采用的方法是利用Python，爬取相關(guān)芯片集，翻譯并整理成本地文件。（自帶翻譯心動(dòng)嗎？）

為什么要用python？因?yàn)槿松喽蹋?duì)于我們這些非編程專業(yè)的人，python是極易上手的語言之一。其簡(jiǎn)潔的編程風(fēng)格，深受小白們的喜歡。個(gè)人認(rèn)為python的學(xué)習(xí)時(shí)間成本很低，只需要短短幾周甚至幾天，即可打造屬于自己的定制爬蟲。

那么，下面我們正式開始python爬取之旅！（python安裝請(qǐng)自行百度）

第1步，在GEO進(jìn)行初步檢索。

我們檢索“obesity”這個(gè)關(guān)鍵詞，發(fā)現(xiàn)有1432個(gè)芯片集。我比較推薦數(shù)量在200到2000之間，這樣既能保證數(shù)據(jù)足夠，又避免審核過多芯片集會(huì)造成時(shí)間浪費(fèi)。如果芯片集過多，可限定檢索條件，如年份、組織、研究類型等。芯片集過少，可放寬檢索條件或增加關(guān)聯(lián)的關(guān)鍵詞。

第2步，將每頁顯示調(diào)為500條芯片集，查看網(wǎng)頁源代碼并將所有代碼保存到txt文件。

如果有多頁，則需要一頁一頁點(diǎn)開，并將所有代碼復(fù)制到同一txt文件中。這樣子我們的芯片集數(shù)據(jù)就收集完畢了。當(dāng)然，python也能實(shí)現(xiàn)自動(dòng)收集，不過個(gè)人認(rèn)為編寫該部分爬蟲比較麻煩，還不如手動(dòng)更便捷。

第3步，確定芯片集內(nèi)容。

我們點(diǎn)開一個(gè)芯片集，里面有哪些信息我?guī)焸冃枰哪兀縏itle、Organism、Summary等等。查看網(wǎng)頁源代碼，我們發(fā)現(xiàn)這些內(nèi)容都有統(tǒng)一的編寫格式。那么，我們就可以編寫爬蟲，逐一提取里面的信息。好了，前期準(zhǔn)備完成了！下面我們開始愉悅的python開發(fā)。（python的安裝與入門可參考：www.runoob.com）

第4步，利用python爬蟲獲取芯片集。