在大數據分析R和RStudio使用指南中,我們將學習如何使用RStudio開始使用R進行編程。我們將安裝R和RStudio RStudio,這是R的非常流行的開發環境。我們將學習RStudio的關鍵功能,以便自己開始在R中進行編程。
如果您已經知道如何使用RStudio,并且想學習一些技巧,竅門和快捷方式,請查看此AAA教育文章。
目錄
1.安裝R
2.安裝RStudio
3.首先看一下RStudio
4.控制臺
5.全球環境
6.安裝 tidyverse 軟件包
7.將tidyverse 軟件包加載 到內存中
8.識別裝載的包裹
9.獲取有關包裝的幫助
10.獲取功能幫助
11. RStudio項目
12.保存您的“真實”工作。刪除其余的。
13. R腳本
14.運行代碼
15.訪問內置數據集
16.風格
17.具有R Markdown的可復制報告
18.使用RStudio Cloud
RStudio入門
RStudio是用于在R中進行編程的開源工具。RStudio是一種靈活的工具,可幫助您創建可讀的分析,并將代碼,圖像,注釋和圖形保持在一個地方。值得了解RStudio在R中進行數據分析和編程的功能。
使用RStudio在R中進行數據分析和編程具有許多優點。以下是RStudio提供的一些示例:
1)直觀的界面使我們能夠跟蹤保存的對象,腳本和圖形
2)具有顏色編碼語法等功能的文本編輯器,可幫助我們編寫簡潔的腳本
3)自動完成功能可節省時間
4)用于創建包含項目代碼,注釋和視覺效果的文檔的工具
5)專用的Project文件夾可將所有內容保存在一個地方
RStudio還可以用于以其他語言進行編程,包括SQL,Python和Bash等。
但是在安裝RStudio之前,我們需要在計算機上安裝R的最新版本。
一、安裝R
R是可從下載官方R網站。查找網頁的此部分:
要下載的R版本取決于我們的操作系統。下面,我們包括mac OS X,windows和linux(Ubuntu)的安裝說明。
MAC OS X
1)選擇Download R for (Mac) OSX選項。
2)查找R的最新版本(新版本會頻繁發布并顯示在頁面頂部),然后單擊.pkg文件進行下載。
3)打開.pkg文件,然后按照標準說明在MAC OS X上安裝應用程序。
4)將R應用程序拖放到該Applications文件夾中。
視窗
1)選擇Download R for Windows選項。
2)選擇base,因為這是我們在計算機上的第一個R安裝。
3)請按照標準說明安裝Windows程序。如果要求我們選擇Customize Startup或Accept Default Startup Options,請選擇默認選項。
Linux / Ubuntu
1)選擇Download R for Linux選項。
2)選擇Ubuntu選項。
3)選擇與您相關的Linux軟件包管理系統Ubuntu。
RStudio與R的許多版本兼容(R版本3.0.1或更高版本,截至2020年7月)。與RStudio分開安裝R后,用戶可以選擇適合他們需要的R版本。
二、安裝RStudio
現在已經安裝了R,我們可以安裝RStudio。
當我們到達RStudio下載頁面時,讓我們單擊RStudio Desktop Open Source License Free選項的“下載”按鈕:
通常會自動檢測到我們的操作系統,因此我們可以通過單擊“下載RStudio”按鈕直接為我們的計算機下載正確的版本。如果我們要為另一個操作系統(而不是正在運行的操作系統)下載RStudio,請向下導航至頁面的“所有安裝程序”部分。
三、首先看一下RStudio
首次打開RStudio時,我們可能會看到這樣的布局:
但是背景顏色將是白色,因此不要期望在RStudio首次啟動時看到這種藍色背景。查看此AAA教育文章,以了解如何自定義RStudio的外觀。
當我們打開RStudio時,也會啟動R。新用戶經常犯的一個錯誤是打開R而不是RStudio。要打開RStudio,請在桌面上搜索RStudio,然后將RStudio圖標固定在首選位置(例如,桌面或工具欄)。
四、控制臺
讓我們從介紹Console的一些功能開始。這Console是RStudio中的一個標簽,我們可以在其中運行R代碼。
請注意,在控制臺位于窗玻璃包含三個選項卡:Console,Terminal和Jobs(這可能取決于所使用的版本RStudio的)。我們現在將重點放在Console。
當我們打開RStudio時,控制臺包含有關我們正在使用的R版本的信息。向下滾動,然后嘗試鍵入一些這樣的表達式。按Enter鍵查看結果。
如我們所見,我們可以使用控制臺立即測試代碼。當我們輸入類似的表達式時1 + 2,在按下Enter鍵后,我們將在下面看到輸出。
我們可以將此命令的輸出存儲為變量。在這里,我們將變量命名為result:
在<-被稱為賦值運算符。該運算符將值分配給變量。上面的命令被翻譯成以下句子:
該result變量的值為一加二。
RStudio的一項不錯的功能是用于鍵入分配運算符的鍵盤快捷鍵<-:
1)Mac OS X:Option+-
2)Windows / Linux:Alt+-
我們強烈建議您記住此鍵盤快捷鍵,因為從長遠來看,它可以節省大量時間!
當我們result在控制臺中鍵入內容并按Enter鍵時,我們將看到的存儲值3:
當我們在RStudio中創建變量時,會將其另存為R 全局環境中的對象。在下一節中,我們將討論環境以及如何查看存儲在環境中的對象。
五、全球環境
我們可以將全球環境視為我們的工作空間。在R中進行編程時,我們定義的任何變量或導入并保存在數據框中的數據都存儲在我們的全局環境中。在RStudio中,我們可以Environment在界面右上角的標簽中查看全局環境中的對象:
我們會result在Environment標簽中的值下看到所有創建的對象,例如。注意,將3顯示存儲在變量中的值。
有時,全局環境中的命名對象太多會造成混亂。也許我們想刪除全部或部分對象。要刪除所有對象,請單擊窗口頂部的掃帚圖標:
要從工作空間中刪除選定的對象,請從下拉菜單中選擇“網格”視圖:
在這里,我們可以選中要刪除的對象的框,然后使用掃帚圖標將其清除Global Environment。
六、安裝tidyverse軟件包
R中的許多功能來自使用軟件包。包是代碼,數據和文檔的可共享集合。軟件包本質上是我們上面安裝的R程序的擴展或附件。
R中最受歡迎的軟件包集合之一被稱為“ tidyverse”。tidyverse是為處理數據而設計的R程序包的集合。tidyverse軟件包具有共同的設計理念,語法和數據結構。Tidyverse包“一起玩”。使用tidyverse,您可以花費更少的時間來清理數據,從而可以將更多的精力放在分析,可視化和建模數據上。
讓我們學習如何安裝tidyverse軟件包。最常見的“核心” tidyverse軟件包是:
1)readr,用于數據導入。
2)ggplot2,用于數據可視化。
3)dplyr,用于數據操作。
4)tidyr,用于數據整理。
5)purrr,用于函數式編程。
6)tibble,對于小標題,是對數據幀的現代重新構想。
7)stringr,用于字符串操作。
8)forcats,用于處理因素(分類數據)。
要在R中安裝軟件包,我們使用內置install.packages()功能。我們可以一一安裝上面列出的軟件包,但是幸運的是,tidyverse的創建者提供了一種通過單個命令安裝所有這些軟件包的方法。在控制臺中鍵入以下命令,然后按Enter鍵。
該install.packages()命令僅需要用于首次下載和安裝軟件包。
七、將tidyverse程序包加載到內存中
將軟件包安裝到計算機的硬盤驅動器上之后,該library()命令用于將軟件包加載到內存中:
使用將包加載到內存中可以library()使給定包的功能可在當前R會話中使用。R用戶通常在其硬盤驅動器上安裝數百個R軟件包,因此一次加載所有軟件包效率低下。相反,我們指定特定項目或任務所需的R包。
幸運的是,核心tidyverse軟件包可以通過一個命令加載到內存中。這是命令和輸出在控制臺中的外觀:
Attaching packages輸出的部分指定了軟件包及其裝入內存的版本。本Conflicts節指定了我們剛剛加載到內存中的程序包中包含的任何函數名,這些函數名與已經加載到內存中的函數具有相同的名稱。使用上面的示例,現在如果我們調用filter()函數,R將使用dplyr軟件包中為此函數指定的代碼。這些沖突通常不是問題,但是值得閱讀輸出消息以確保。
八、識別裝載的包裹
如果需要檢查加載了哪些軟件包,可以參考控制臺右下角窗口中的“ 軟件包”選項卡。
我們可以搜索軟件包,然后選中軟件包旁邊的框以加載它(代碼顯示在控制臺中)。
或者,在控制臺中輸入以下代碼將顯示當前已加載到內存中的所有軟件包:
哪個返回:
返回當前加載到內存中的軟件包名稱的另一個有用的函數是search():
九、獲取有關包裝的幫助
我們已經學習了如何安裝和加載軟件包。但是,如果我們想了解有關已安裝軟件包的更多信息該怎么辦?這很簡單!單擊Packages選項卡中的程序包名稱會將我們帶到Help所選程序包的選項卡。如果單擊該tidyr包,我們將看到以下內容:
或者,我們可以在控制臺中鍵入以下命令并獲得相同的結果:
軟件包的幫助頁面提供了對軟件包中每個功能的文檔的快速訪問。在軟件包的主要幫助頁面上,您還可以在可用的“小插圖”上進行訪問。小插圖提供了有關軟件包或如何使用軟件包中特定功能的簡要介紹,教程或其他參考信息。
產生以下可用選項列表:
從那里,我們可以選擇一個特定的小插圖來查看:
現在,我們看到“透視圖”小插圖顯示在Help選項卡中。這就是為什么RStudio是使用R進行編程的強大工具的一個示例。我們可以在不離開RStudio的情況下訪問功能和軟件包文檔以及教程!
十、獲取功能幫助
正如我們在上一節中了解到的那樣,我們可以通過單擊中的包名稱Packages,然后單擊功能名稱以查看幫助文件來獲得有關功能的幫助。在這里,我們看到包中的pivot_longer()函數tidyr在此列表的頂部:
如果單擊“ pivot_longer”,則會得到以下信息:
Console使用以下任何函數調用,我們都可以達到相同的結果:
請注意,如果包含該功能的軟件包尚未加載到內存中Help,則該pivot_longer()功能(或我們感興趣的任何功能)的特定選項卡可能不是默認結果。通常,最好在尋求功能幫助之前確保已加載特定的程序包。
十一、RStudio項目
RStudio提供了強大的功能,可讓您保持井井有條;項目。在進行多個分析時,保持有條理很重要。RStudio的項目使您可以將所有重要工作放在一個地方,包括代碼腳本,繪圖,圖形,結果和數據集。
導航到FileRStudio中的選項卡,然后選擇,創建一個新項目New Project...。然后指定您是否要在新目錄或現有目錄中創建項目。在這里,我們選擇“新目錄”:
如果您使用的是R軟件包或Shiny Web應用程序,則RStudio提供專用的項目類型。在這里,我們選擇“ New Project”,它將創建一個R項目:
接下來,我們給我們的項目起一個名字。“將項目創建為:的子目錄”顯示文件夾在計算機上的位置。如果我們批準該位置,請選擇“創建項目”,否則請選擇“瀏覽”,然后在計算機上選擇該項目文件夾所在的位置。
現在在RStudio中,我們看到項目的名稱顯示在屏幕的右上角。我們還在選項卡中看到該.Rproj文件Files。我們添加到該項目或在該項目內生成的任何文件將顯示在Files選項卡中。
當您需要與同事共享工作時,RStudio項目非常有用。您可以將項目文件(以結尾.Rproj)與所有支持文件一起發送,這將使您的同事更輕松地重新創建工作環境并重現結果。
十二、保存您的“真實”工作。刪除其余的。
該技巧來自我們的23個RStudio技巧,竅門和快捷方式文章文章,但它非常重要,因此我們也在這里分享它!
練習良好的內務管理,避免將來遇到不可預見的挑戰。如果創建值得保存的R對象,大數據分析R和RStudio使用指南https://www.aaa-cg.com.cn/data/2548.html請在R腳大數據分析R和RStudio使用指南件中捕獲生成該對象的R代碼。保存R腳本,但不要保存創建對象的環境或工作空間。
為防止RStudio保存工作區,請在啟動時打開Preferences > General并取消選擇要還原.RData到工作區的選項。確保指定您永遠不要保存工作空間,如下所示:
現在,每次打開RStudio時,都會從一個空會話開始。您以前的會話生成的代碼都不會被記住。R腳本和數據集可用于從頭開始重新創建環境。
其他專家一致認為不會保存您的工作空間是最好的做法使用RStudio時。
十三、R腳本
在學習大數據分析R和RStudio使用指南時,我們在中編寫了代碼Console。隨著項目變得越來越復雜,我們將編寫更長的代碼塊。如果要保存我們的工作,則必須將代碼組織成腳本。這使我們可以跟蹤項目的工作,編寫帶有大量注釋的簡潔代碼,重現我們的工作并與他人共享。
在RStudio中,我們可以在界面左上方的文本編輯器窗口中編寫腳本:
要創建新腳本,我們可以使用文件菜單中的命令:
我們也可以使用鍵盤快捷鍵Ctrl+ Shift+ N。保存腳本時,其文件擴展名為.R。作為示例,我們將創建一個新腳本,其中包含以下代碼以生成散點圖:
要保存腳本,我們導航到File菜單選項卡并選擇Save。或者我們輸入以下命令:
1)Mac OS X:Cmd+S
2)Windows / Linux:Ctrl+S
十四、運行代碼
要運行輸入到腳本中的一行代碼,我們可以單擊Run腳本的右上角,或者當光標位于要運行的行上時使用以下鍵盤命令:
1)Mac OS X:Cmd+Enter
2)Windows / Linux:Ctrl+Enter
在這種情況下,我們需要突出顯示多行代碼以生成散點圖。要突出顯示并運行腳本中的所有代碼行,請輸入:
1)Mac OS X:Cmd+ A+Enter
2)在Windows / Linux的:Ctrl+ A+Enter
當我們運行上面指定的代碼行時,讓我們檢查一下結果:
旁注:此散點圖是使用包中mpg包含的數據集中的數據生成的ggplot2。該數據集包含1999年至2008年的38種流行車型的燃油經濟性數據。
在該圖中,發動機排量(即尺寸)在x軸(水平軸)上顯示。y軸(垂直軸)表示以每加侖英里為單位的燃油效率。通常,燃料經濟性隨著發動機尺寸的增加而降低。此圖是使用tidyverse軟件包生成的ggplot2。該軟件包非常適合R中的數據可視化。
十五、訪問內置數據集
是否想mpg從ggplot2上一個示例中提到的包中了解有關數據集的更多信息?使用以下命令執行此操作:
從那里,您可以使用head()函數查看數據的前六行:
使用以下summary()功能獲取摘要統計信息:
或打開Help標簽中的幫助頁面,如下所示:
最后,R中內置了許多可以使用的數據集。內置數據集很容易練習新的R技能,而無需搜索數據。使用以下命令查看可用的數據集:
十六、風格
編寫R腳本時,最好在腳本頂部指定要加載的包:
在編寫R腳本時,也是一種好的做法,添加注釋以解釋我們的代碼(# like this)。R忽略以開頭的代碼行#。與同事和協作者共享代碼是很常見的。確保他們了解我們的方法將非常重要。但是更重要的是,詳盡的注釋對您的未來很有幫助,以便您將來重新訪問腳本時可以理解自己的方法!
這是我們的散點圖代碼的注釋示例:
十七、具有R Markdown的可復制報告
上面示例中使用的注釋可以很好地提供有關我們R腳本的簡短說明,但是這種格式不適合編寫需要總結結果和發現的報告。我們可以使用R Markdown文件在RStudio中編寫格式精美的報告。
R Markdown是用于在R中生成可復制報告的開源工具。RMarkdown使我們能夠將所有代碼,結果和編寫都集中在一個地方。使用R Markdown,我們可以選擇將我們的作品導出為多種格式,包括PDF,Microsoft word,幻燈片或HTML文檔,以供網站使用。
如果您想學習R Markdown,請查看以下AAA教育文章:
1)R Markdown入門-指南和備忘單
2)R Markdown技巧,竅門和快捷方式
十八、使用RStudio Cloud
RStudio現在提供了一個基于云的RStudio桌面版本,稱為RStudio Cloud。RStudio Cloud允許您在RStudio中進行編碼而無需安裝軟件,只需要一個Web瀏覽器。我們在大數據分析R和RStudio使用指南中學到的幾乎所有內容都適用于RStudio Cloud!
RStudio Cloud中的工作被組織成與桌面版本相似的項目。RStudio Cloud使您可以指定要用于每個項目的R版本。如果您要重新考慮圍繞R的早期版本構建的舊項目,那就太好了。
RStudio Cloud還可以輕松,安全地與同事共享項目,并確保每次訪問項目時都能完全再現工作環境。
RStudio Cloud的布局與RStudio桌面非常相似:
學習RStudio的最好方法是應用大數據分析R和RStudio使用指南中介紹的內容。自行跳入并熟悉RStudio!創建自己的項目,保存工作并共享結果。我們不能足夠強調這一點。