1. R軟體如何定義自變數
摘要 方法二:
2. R語言數據對象與運算
R語言數據對象與運算
R語言數據對象與運算 筆記整理
2.1 數據對象及類型
R語言創建和控制的實體被稱為對象(object)
ls()命令來查看當前系統里的數據對象
R對象的名稱必須以一個英文字母打頭,並由一串大小寫字母、數字或鍾點組成
注意:R區分大小寫
不要用R的內置函數名稱作為數據對象的名稱,如c、length等
2.2 數據對象類型
R語言的對象包括
數值型(numeric):實數, 可寫成整數(integers)、小數(decimal fractions)、科學記數(scientific notation)
邏輯型(logical):T(true)或F(FALSE)
字元型(character):夾在" "或之間
復數型(complex):形如a+bi
原味型(raw):以二進制形式保存數據
預設型(missing value):有些統計資料是不完整的,當一個元素或值在統計的時候是「不可得到(not available)」或「缺失值(missing value)」的時候,相關位置可能會被保留並賦予一個特定的NA(not available)值,任何NA的運算結果都是NA。
辨別和轉換數據對象類型的函數:
辨別 轉換
character is.character() as,character()
complex
double
integer
logical
NA
numeric
2.3 數據對象構造
R語言里的數據對象主要有六種構造:向量(vector)、矩陣(matrix)、數組(array)、列表(list)、數據框(data frames)、因子(factor)
2.3.1 向量(vector)是由有相同基本類型元素組成的序列,相當於一維數組
5個數值組成的向量x,這是一個用函數c()完成的賦值語句,這里c()可以有任意多個參數,而它輸出的值則是一個把這些參數首尾相連形成的一個向量
R的賦值符號除了「<-」外,還有"->""="
例如:
> c(1,3,5,7,9) -> y
> y
[1] 2 5 8 3
> z = c(1,3,5,7,9)
> z
[1] 1 3 5 7 9
assign()函數對向量進行賦值
length():可返迴向量的長度
mode()可返迴向量的數據類型
正則序列 用 「:」符號,可產生有規律的正則序列(: 的運算級別最高)
函數seq()產生有規律的各種序列
seq(from,to ,by) from 給序列的起始值,to表示序列的終止值,by表示步長(by 省略時,表示步長值為1)
> seq(1,10,2)
[1] 1 3 5 7 9
> seq(1,10)
[1] 1 2 3 4 5 6 7 8 9 10
有時關注的是數列的長度,利用句法:seq(下界,by=,length=)
> seq(1,by=2,length=10)
[1] 1 3 5 7 9 11 13 15 17 19
rep(x,times,……)x表示要重復的對象,times表示重復的次數
> rep(c(1,3),4)
[1] 1 3 1 3 1 3 1 3
> rep(c(1,3),each=4)
[1] 1 1 1 1 3 3 3 3
對每個元素進行重復;
R中的內置函數:
mean()來示向量的均值
median()求是位數
var()求方差
sd()求標准差
sort()對向量排序
rev()將向量按原方向的反方向排列
rank()給求出向量的秩
prod()求向量連乘積
append()為向量添加元素
對向量運算常見函數表
函數 用途
sum() 求和
max() 求最大值
min() 求最小值
range() 求極差(全矩)
mean() 求均值
median 求中位數
var() 求方差
sd() 求標准差
sort() 排序
rev() 反排序
rank() 求秩
append() 添加
replace() 替換
match() 匹配
pmatch() 部分匹配
all() 判斷所有
any() 判斷部分
prod() 積
2.3.2 矩陣
矩陣(matrix)是將數據用行和列排列的長方形表格,它是二維的數組,其單元必須是相同的數據類型,通常用列來表示不同的變數,用行表示各個對象。
其句法是:
matrix(data=NA,ncol=1,byrow-=FALSE,dimnames=NULL)
data是必須的,其它幾個選擇參數。
nrow表示矩陣的行數
ncol表示矩陣的列數
byrow默認為FALSE,表示矩陣按列排列,如設置為T,表示按行排列;
dimnames可更改矩陣行列名字
diag()函數生成對角矩陣
diag()這個函數比較特別,當數據是向量時則生成對角矩陣,但當數據是矩陣時,則返回對角元素
也可用函數diag()生成單位矩陣
當我們生成了某個矩陣後,若要訪問矩陣的某個元素或某行(列),可以利用形如A[i,j]的形式得到相應的索引矩陣
矩陣可進行相應的加減乘除運算,但運算過程中要注意行數和列數的限制條件
R里A*B並不是表示矩陣相乘,只表示矩陣對應的元素相乘
矩陣相乘應用A%*%B
dim()返回矩陣的行數和列數
nrow()返回矩陣的行數
ncol()返回矩陣的列數
solve()返回矩陣的逆矩陣
對矩陣運算的常見函數
函數 用途
as.matrix() 把非矩陣的轉換成矩陣
is.matrix() 辨別是否矩陣
diag() 返回對角元素或生成對角矩陣
eigen() 求特徵值和特徵向量
solve() 求逆矩陣
chol() Choleski分解
svd() 奇異值分解
qr() QR分解
det() 求行列式
dim() 返回行列數
t() 矩陣轉置
apply() 對矩陣應用函數
R語言還提供了專門針對矩陣的行或列計算的函數
如 colSUms()對矩陣各列求和 colMeans()求矩陣各列的均值
類似的有 rowSums()rowMeans()
更一般的方法:
apply()函數來對各行各列進行運算
句法是:apply(X,MARGIN,FUN,……)
X表示要處理的數據
MARGIN表示函數作用的范圍
取1表示對行運用函數
取2表示對列運用函數
FUN表示要運用的函數
rbind()、cbind()將兩個或兩個以上的矩陣合並起來
rbind()表示按行合並,cbind()則表示按列合並
2.3.3 數組
數組(array)可以看作是帶有多個下標的類型相同的元素的集合。
數組的生成函數是array(),其句法是
array(data=NA,dim=length(data),dimnames-NULL)
data表示數據,可以為空
dim 表示維數
dimnames可以更改數組難度的名稱
2.3.4 列表
向量、矩陣和的單元必須是同一類型的數據,若一個數據對象需要含有不同的數據類型,可採用列表(list)這種數據對象的形式。
列表是一個對象的有序集合構成的對象,列表中包含的對象又稱為它的分量(components),分量可以是不同的模式或(和)類型
語法式為:list (變數1=分量1,變數2=分量2,……)
若要訪問列表的某一成分,可以用LST[[1]],LST[[2]]的形式訪問
因分量可以被命名,故可以在列表名稱後加$符號,再寫上成分名稱來訪問列表分量
函數length()、mode()、names()可以分別返回列表的長度(分量的數目)、數據類型、列表裡成分的名字
2.3.5 數據框
數據框(data frame)是一種矩陣形式的數據,但數據框中各列可以是不同類型的數據。數據框每列是一個變數,每行是一個觀測 。
對可能列入數據框中的列表有如下的一些限制:
1.分量必須是向量(數值,字元,邏輯),因子,數值矩陣,列表或者其他數據框。
2.矩陣,列表和數據框為新的數據框提供了盡可能多的變數,因為它們各自擁有列、元素或者變數。
3.數值向量、邏輯值、因子保持原有格式,而字元向量會被強制轉換成因子並且它的水平就是向量中出現的獨立值。
4.在數據框中以變數形式出現的向量結構必須長度一致,矩陣結構必須有一樣的行數。
R中用函數data.frame()生成數據框,其句法是:data.frame(data1,data2,……)
數據框的列名默認為變數名,也可對列名進行重新命名
也可以對數據框的行名進行修改
2.3.6 因子和有序因子
分類型數據經常要把數據分成不同的水平或因子(factor)
生成因子的命令是factor(),其句法是:factor(data,levels,labels,……)
其中data表示數據
levels是因子水平向量
labels是因子的標簽向量
levels,labels是備選項,可以不選
若上面的每個因子並不表示因子的大小,要表達因子之間有大小順序(考慮因子之間的順序),則可以用 ordered()函數產生
2.4 數據的錄入及編輯
c函數:c函數是把各個值聯成一個向量或列表,可以形成數值型向量、字元型向量或其它類型向量
scan函數:功能類似於c函數,實際上是一種鍵盤輸入數據函數。當輸入scan(),然後按回車鍵,這時將等待輸入數據,數據之間只要空格分開即可(c函數要用逗號分開)。輸入完數據,再按回車鍵,這時數據錄入完畢。
scan函數還可以讀入外部文本文件,若現有一個文本文件,data.txt,讀入這個文件的命令是:> x=scan(file="dat.txt")
若原文件的數據之間有逗號等分隔符,用scan讀入應該去掉這些分隔符,其命令是:> x=scan(file="dat.txt",sep=",")
編輯數據
data.entry命令
xx原先未被定義,現在賦予其一個空值,這時會出現一個電子表格界面,等待輸入數據:> data.entry(xx=c(NA))
當電子表格關閉後,數據會自動保存
edit命令用來編輯函數,也可用來編輯數據,但不會自動保存
fix函數與edit類似,但它可以自動保存
從外部文件讀入數據
從文本文件讀取:
> s1=read.table("student.txt")
> s1
V1 V2 V3
1 class sex score
2 1 女 80
3 1 男 85
4 2 男 92
5 2 女 76
6 3 女 61
7 3 女 95
8 3 男 83
讀入表格數據的命令是:read.table
忽略掉標簽而直接使用默認的行標簽
> s2=read.table("student.txt",header=T)
> s2
class sex score
1 1 女 80
2 1 男 85
3 2 男 92
4 2 女 76
5 3 女 61
6 3 女 95
7 3 男 83
從網路讀入數據
url可以從網頁上讀入正確格式的數據,要藉助read.table函數
> address=http://www.the-data-mine.com/bin/view/Misc/WebHome
/sample.txt
> read.table(file=url(address))
讀入其他格式的資料庫
要讀入其他格式的資料庫,必須先安裝"foreign"模塊,它不屬於R的8個內置模塊,需在使用前安裝。 library(foreign)
SAS:R只能詩篇SAS Transport format(XPORT)文件,需要把普通的SAS數據文件(.ssd和.sas7bdat)轉換成Transport format(XPORT)文件,再用命令:read.xport()
SPSS資料庫:read.spss()可讀入SPSS數據文件
Epi info資料庫:
要給數據集一個名字,則是;read.epiinfo("文件名.rec")->名稱
Stata資料庫:
R可讀入Stata5,6,7的資料庫
讀入數據文件後,使用數據集名$變數名,即可使用各個變數
> read.dta(「文件名.dta」)
讀入數據文件後,使用數據集名$變數名,即可使用各個變數。
>mean(data$age)
便是計算數據集 data中的變數age的均數。
2.5 函數、循環與條件表達式
2.5.1 編寫函數
句法是:
函數名 = function (參數1,參數2…)
{
函數體
函數返回值
}
對於這類只有一個算術式的簡單函數,也要不要{}
>mean(data$age)
便是計算數據集 data中的變數age的均數。
若不使用圓括弧,直接輸入函數名,按回車鍵將顯示函數的定義式:
單參數:使函數個性化,可使用單參數,函數將會根據參數的不同,返回值不同
> welcome.sb = function(names) print(paste("welcome",names,"to
use R"))
> welcome.sb("Mr fang")
[1] "welcome Mr fang to use R"
> welcome.sb("Mr Wang")
[1] "welcome Mr Wang to use R"
默認參數:即不輸入任何參數
函數的默認參數
> welcome.sb=function(names="Mr fang")print(paste("welcome",
names,"to use R"))
> welcome.sb()
[1] "welcome Mr fang to use R"
當函數體的表達式超過一個時,要用{}封起來
2.5.2 for循環
for循環的句法是:
for (變數 in取值向量) {
表達式…
}
3. r軟體怎麼導入自變數數據和因變數數據
能得到擬合曲線的表達式。下面以Excel 2010為例進行演示: 1、根據示例數據作出散點圖 2、選中數據系列→右鍵菜單→添加趨勢線,如下圖設置趨勢線的類型,並且可以顯示擬合的
4. 如何將帶變數公式(即字元串)替換為VB程序中的數學表達式
dim
a
as
string
a="字元串"
msgbox
a
其實沒什麼實際意義。
msgbox
"字元串"也是一樣的
5. matlab里如何把結果的字元表達式轉換成數值表達式,然後畫圖呢
你這個里的自變數應當是時間t,x應當是一個參變數。
%%0到8沒有問題。
t1=[0,8];
v1=[0,0];
%%8到9這里,x是一個微分方程,我直接用最簡單的歐拉法求解。
dt2=0.001;
t2=8:dt2:9;
x2=0.7; %初值
for i=2:length(t2)
x2(i)=x2(i-1)+dt2*(-1.6*sign(x2(i-1))*sqrt(abs(x2(i-1))));
v2(i)=-0.8*sign(x2(i))*sqrt(abs(x2(i)));
end
%%9到14這里,
t3=[9,14];
v3=[0,0];
%%14到17這里,同樣用歐拉法求解
dt4=0.001;
t4=14:dt4:17;
y4=-0.2; %初值
for i=2:length(t4)
y4(i)=y4(i-1)+dt4*(-0.8*sign(y4(i-1))*sqrt(abs(y4(i-1))));
v4(i)=-0.8*sign(y4(i))*sqrt(abs(y4(i)));
end
t=[t1,t2,t3,t4];
v=[v1,v2,v3,v4];
plot(t,v)
6. R語言一個表達式的問題
我手上沒有這本書,只能按自己的R語言知識解答哈。pi ^ 1:4 表示從pi的一次冪(就是pi)開始,遞增到4的一個向量。如果是pi ^ (1:4),表示從pi的一次冪到4次冪的一個向量。舉個例子吧:
> 3^2:11
[1] 9 10 11
> 3^(2:11)
[1] 9 27 81 243 729 2187 6561 19683 59049 177147
不知道樓主看懂了嗎?
7. VBA中定義了變數R,給R賦值為當前單元格的行數,表達式怎麼寫
Sub abc()
Dim R
R = ActiveCell.Row
MsgBox R
End Sub
8. R語言正則表達式
首先你要知道正則表達式怎麼寫,如果你的a變數第一個字元是字母那你就寫gsub(「^\w」,「」,text);如果你的a變數第一個字元是數字那就寫gsub(「^\d」,「」,text);如果第一個字元即可能是數字也可能是字母那就寫gsub(「^[0-9a-zA-Z]」,「」,text)。如果第一個字元是中文,你去搜一下中文的正則表達式,再替換之即可。
9. R軟體的全局變數怎麼定義
你需要調用的局部變數return()出來就可以了
另外一種方法是在腳本最外層定義變數,在腳本函數中用 <<- 給變數賦值就可以了
10. r語言中數據框能用正則表達式嗎
首先聲明,用R來處理字元串數據並不是一個很好的選擇,還是推薦使用Perl或者Python等語言。不過R本身除了提供了一些常用的字元串處理函數,也對正則表達式有了一定的支持,具體各個函數的使用方法還是要參考R的幫助文檔。
sub()與gsub()使用正則表達式對字元串進行替換。
grep()、regexpr()、gregexpr()都是用於正則表達式的匹配,只是返回的結果格式有些不同。
幾個函數的使用格式如下:
grep(pattern, x, ignore.case = FALSE, extended = TRUE,
perl = FALSE, value = FALSE, fixed = FALSE, useBytes = FALSE)
regexpr(pattern, text, ignore.case = FALSE, extended = TRUE,
perl = FALSE, fixed = FALSE, useBytes = FALSE)
gregexpr(pattern, text, ignore.case = FALSE, extended = TRUE,
perl = FALSE, fixed = FALSE, useBytes = FALSE)
sub(pattern, replacement, x,
ignore.case = FALSE, extended = TRUE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)
gsub(pattern, replacement, x,
ignore.case = FALSE, extended = TRUE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)
其中參數pattern表示用於匹配的正則表達式模式;參數x和text表示用於搜索的字元串向量;參數ignore.case為FALSE時,表示模式匹配是對字母的大小寫敏感;參數VALUE也是一個邏輯變數,若為FALSE,grep函數會返回一個由匹配元素所在的位置組成的向量,若為TRUE,則返回由匹配元素本身組成的向量;參數replacement只在函數sub和gsub中出現,用於進行替換,如果fixed=FALSE,可通過\1,...,\9來回溯引用匹配模式中由括弧括起來的子表達式。如果參數perl=TRUE,還可以通過\U或\L將匹配字元轉換成大寫或小寫。
一些示例代碼:
> grep("[a-z]", letters)
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
[25] 25 26
#參數value的使用
> grep("[a-z]", letters,value=TRUE)
[1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r"
[19] "s" "t" "u" "v" "w" "x" "y" "z"
#將字元串的首字母轉換為大寫
> gsub("^(\\w)", "\\U\\1", "a test of capitalizing", perl=TRUE)
[1] "A test of capitalizing"
#將字元串中每個單詞的首字母轉換為大寫
> gsub("\\b(\\w)", "\\U\\1", "a test of capitalizing", perl=TRUE)
[1] "A Test Of Capitalizing"
#對電子郵件地址進行匹配為例,用一個正則表達式來匹配電子郵件地址是一項很常見的任務。
>text<-c("[email protected]","[email protected]","[email protected]","[email protected]","[email protected]")
> text
[1] "[email protected]" "[email protected]" "[email protected]"
[4] "[email protected]" "[email protected]"
> grep("(\\w+\\.)*\\w+@(\\w+\\.)+[a-zA-Z]+",text)
[1] 1 3 5