成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<kbd id="08oec"><code id="08oec"></code></kbd>

<abbr id="08oec"><code id="08oec"></code></abbr>

<strike id="08oec"><tbody id="08oec"></tbody></strike><table id="08oec"><strong id="08oec"></strong></table>

<pre id="08oec"></pre>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

R語言進階之2：文本（字符串）處理與正則表達式

作者：xxx 2013-05-15 13:32:16

處理文本是每一種計算機語言都應該具備的功能，但不是每一種語言都側重于處理文本。R語言是統計的語言，處理文本不是它的強項，perl語言這方面的功能比R不知要強多少倍。幸運的是R語言的可擴展能力很強，DNA/RNA/AA等生物序列現在已經可以使用R來處理。

R語言處理文本的能力雖然不強，但適當用用還是可以大幅提高工作效率的，而且有些文本操作還不得不用。高效處理文本少不了正則表達式（regular expression），雖然R在這方面先天不高效，但它處理字符串的絕大多數函數都使用正則表達式。

0、正則表達式簡介：

正則表達式不是R的專屬內容，所以用0編號，這里也只簡單介紹，更詳細的內容請查閱其他文章。

正則表達式是用于描述/匹配一個文本集合的表達式。

1. 所有英文字母、數字和很多可顯示的字符本身就是正則表達式，用于匹配它們自己。比如 'a' 就是匹配字母 'a' 的正則表達式

2. 一些特殊的字符在正則表達式中不在用來描述它自身，它們在正則表達式中已經被“轉義”，這些字符稱為“元字符”。perl類型的正則表達式中被轉義的字符有：. \ | ( ) [ ] { } ^ $ * + ?。被轉義的字符已經有特殊的意義，如點號 . 表示任意字符；方括號表示選擇方括號中的任意一個（如[a-z] 表示任意一個小寫字符）；^ 放在表達式開始出表示匹配文本開始位置，放在方括號內開始處表示非方括號內的任一字符；大括號表示前面的字符或表達式的重復次數；| 表示可選項，即 | 前后的表達式任選一個。

3. 如果要在正則表達式中表示元字符本身，比如我就要在文本中查找問號‘?’，那么就要使用引用符號（或稱換碼符號），一般是反斜杠 '\'。需要注意的是，在R語言中得用兩個反斜杠即 ‘\\’，如要匹配括號就要寫成 ’\\(\\)‘

4. 不同語言或應用程序（事實上很多規則都通用）定義了一些特殊的元字符用于表示某類字符，如 \d 表示數字0-9， \D 表示非數字，\s 表示空白字符（包括空格、制表符、換行符等），\S 表示非空白字符，\w 表示字（字母和數字），\W 表示非字，\< 和 \> 分別表示以空白字符開始和結束的文本。

5. 正則表達式符號運算順序：圓括號括起來的表達式***先，然后是表示重復次數的操作（即：* + {} ），接下來是連接運算（其實就是幾個字符放在一起，如abc），***是表示可選項的運算（|）。所以 'foot|bar' 可以匹配’foot‘或者’bar‘，但是 'foot|ba{2}r'匹配的是’foot‘或者’baar‘。

一、字符數統計和字符翻譯

nchar這個函數簡單，統計向量中每個元素的字符個數，注意這個函數和length函數的差別：nchar是向量元素的字符個數，而length是向量長度（向量元素的個數）。其他沒什么需要說的。

> x <- c("Hellow", "World", "!") 
> nchar(x) 
[1] 6 5 1 
> length(''); nchar('') 
[1] 1 
[1] 0

另外三個函數用法也很簡單：

> DNA <- "AtGCtttACC" 
> tolower(DNA) 
[1] "atgctttacc" 
> toupper(DNA) 
[1] "ATGCTTTACC" 
> chartr("Tt", "Uu", DNA) 
[1] "AuGCuuuACC" 
> chartr("Tt", "UU", DNA) 
[1] "AUGCUUUACC"

二、字符串連接

paste應該是R中最常用字符串函數了，也是R字符串處理函數里面非常純的不使用正則表達式的函數（因為用不著）。它相當于其他語言的strjoin，但是功能更強大。它把向量連成字串向量，其他類型的數據會轉成向量，但不一定是你要的結果：

> paste("CK", 1:6, sep="") 
[1] "CK1" "CK2" "CK3" "CK4" "CK5" "CK6" 
> x <- list(a="aaa", b="bbb", c="ccc") 
> y <- list(d=1, e=2) 
> paste(x, y, sep="-")     #較短的向量被循環使用 
[1] "aaa-1" "bbb-2" "ccc-1" 
> z <- list(x,y) 
> paste("T", z, sep=":")   #這樣的結果不知合不合用 
[1] "T:list(a = \"aaa\", b = \"bbb\", c = \"ccc\")" 
[2] "T:list(d = 1, e = 2)"

短向量重復使用，列表數據只有一級列表能有好的表現，能不能用看自己需要。會得到什么樣的結果是可以預知的，用as.character函數看吧，這又是一個字符串處理函數：

> as.character(x) 
[1] "aaa" "bbb" "ccc" 
> as.character(z) 
[1] "list(a = \"aaa\", b = \"bbb\", c = \"ccc\")" 
[2] "list(d = 1, e = 2)"

paste函數還有一個用法，設置collapse參數，連成一個字符串：

> paste(x, y, sep="-", collapse='; ') 
[1] "aaa-1; bbb-2; ccc-1" 
> paste(x, collapse='; ') 
[1] "aaa; bbb; ccc"

三、字符串拆分

strsplit函數使用正則表達式，使用格式為：strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE)

參數x為字串向量，每個元素都將單獨進行拆分。

參數split為拆分位置的字串向量，默認為正則表達式匹配（fixed=FALSE）。如果你沒接觸過正則表達式，設置fixed=TRUE，表示使用普通文本匹配或正則表達式的精確匹配。普通文本的運算速度快。

perl=TRUE/FALSE的設置和perl語言版本有關，如果正則表達式很長，正確設置表達式并且使用perl=TRUE可以提高運算速度。

參數useBytes設置是否逐個字節進行匹配，默認為FALSE，即按字符而不是字節進行匹配。

下面的例子把一句話按空格拆分為單詞：

> text <- "Hello Adam!\nHello Ava!"

> strsplit(text, ' ')

[[1]]

[1] "Hello" "Adam!\nHello" "Ava!"

R語言的字符串事實上也是正則表達式，上面文本中的\n在圖形輸出中是被解釋為換行符的。

> strsplit(text, '\\s')

[[1]]

[1] "Hello" "Adam!" "Hello" "Ava!"

strsplit得到的結果是列表，后面要怎么處理就得看情況而定了：

> class(strsplit(text, '\\s'))

[1] "list"

有一種情況很特殊：如果split參數的字符長度為0，得到的結果就是一個個的字符：

> strsplit(text, '')

[[1]]

[1] "H" "e" "l" "l" "o" " " "A" "d" "a" "m" "!" "\n" "H" "e" "l" "l"

[17] "o" " " "A" "v" "a" "!"

從這里也可以看到R把 \n 是當成一個字符來處理的。

四、字符串查詢：

1、grep和grepl函數：

這兩個函數返回向量水平的匹配結果，不涉及匹配字符串的詳細位置信息。

grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE, 
     fixed = FALSE, useBytes = FALSE, invert = FALSE) 
grepl(pattern, x, ignore.case = FALSE, perl = FALSE, 
      fixed = FALSE, useBytes = FALSE)

雖然參數看起差不多，但是返回的結果不一樣。下來例子列出C:\windows目錄下的所有文件，然后用grep和grepl查找exe文件：

> files <- list.files("c:/windows") 
> grep("\\.exe$", files) 
 [1]   8  28  30  35  36  57  68  98  99 101 110 111 114 116 
> grepl("\\.exe$", files) 
  [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE 
 [14] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
#......

grep僅返回匹配項的下標，而grepl返回所有的查詢結果，并用邏輯向量表示有沒有找到匹配。兩者的結果用于提取數據子集的結果都一樣：

> files[grep("\\.exe$", files)] 
 [1] "bfsvc.exe"      "explorer.exe"   "fveupdate.exe"  "HelpPane.exe"   
 [5] "hh.exe"         "notepad.exe"    "regedit.exe"    "twunk_16.exe"   
 [9] "twunk_32.exe"   "uninst.exe"     "winhelp.exe"    "winhlp32.exe"   
[13] "write.exe"      "xinstaller.exe" 
> files[grepl("\\.exe$", files)] 
 [1] "bfsvc.exe"      "explorer.exe"   "fveupdate.exe"  "HelpPane.exe"   
 [5] "hh.exe"         "notepad.exe"    "regedit.exe"    "twunk_16.exe"   
 [9] "twunk_32.exe"   "uninst.exe"     "winhelp.exe"    "winhlp32.exe"   
[13] "write.exe"      "xinstaller.exe"

2、regexpr、gregexpr和regexec

這三個函數返回的結果包含了匹配的具體位置和字符串長度信息，可以用于字符串的提取操作。

> text <- c("Hellow, Adam!", "Hi, Adam!", "How are you, Adam.") 
> regexpr("Adam", text) 
[1]  9  5 14 
attr(,"match.length") 
[1] 4 4 4 
attr(,"useBytes") 
[1] TRUE 
> gregexpr("Adam", text) 
[[1]] 
[1] 9 
attr(,"match.length") 
[1] 4 
attr(,"useBytes") 
[1] TRUE 
[[2]] 
[1] 5 
attr(,"match.length") 
[1] 4 
attr(,"useBytes") 
[1] TRUE 
[[3]] 
[1] 14 
attr(,"match.length") 
[1] 4 
attr(,"useBytes") 
[1] TRUE 
> regexec("Adam", text) 
[[1]] 
[1] 9 
attr(,"match.length") 
[1] 4 
[[2]] 
[1] 5 
attr(,"match.length") 
[1] 4 
[[3]] 
[1] 14 
attr(,"match.length") 
[1] 4

五、字符串替換

雖然sub和gsub是用于字符串替換的函數，但嚴格地說R語言沒有字符串替換的函數，因為R語言不管什么操作對參數都是傳值不傳址。

> text 
[1] "Hello Adam!\nHello Ava!" 
> sub(pattern="Adam", replacement="world", text) 
[1] "Hello world!\nHello Ava!" 
> text 
[1] "Hello Adam!\nHello Ava!"

可以看到：雖然說是“替換”，但原字符串并沒有改變，要改變原變量我們只能通過再賦值的方式。

sub和gsub的區別是前者只做一次替換（不管有幾次匹配），而gsub把滿足條件的匹配都做替換：

> sub(pattern="Adam|Ava", replacement="world", text) 
[1] "Hello world!\nHello Ava!" 
> gsub(pattern="Adam|Ava", replacement="world", text) 
[1] "Hello world!\nHello world!"

sub和gsub函數可以使用提取表達式（轉義字符+數字）讓部分變成全部：

> sub(pattern=".*(Adam).*", replacement="\\1", text)

[1] "Adam"

六、字符串提取

substr和substring函數通過位置進行字符串拆分或提取，它們本身并不使用正則表達式，但是結合正則表達式函數regexpr、gregexpr或regexec使用可以非常方便地從大量文本中提取所需信息。兩者的參數設置基本相同：

substr(x, start, stop) 
substring(text, first, last = 1000000L)

第 1個參數均為要拆分的字串向量，第2個參數為截取的起始位置向量，第3個參數為截取字串的終止位置向量。但它們的返回值的長度（個數）有差別：substr返回的字串個數等于***個參數的長度；而substring返回字串個數等于三個參數中最長向量長度，短向量循環使用。先看第1參數（要拆分的字符向量）長度為1例子：

> x <- "123456789" 
> substr(x, c(2,4), c(4,5,8)) 
[1] "234" 
> substring(x, c(2,4), c(4,5,8)) 
[1] "234"     "45"      "2345678"

因為x的向量長度為1，所以substr獲得的結果只有1個字串，即第2和第3個參數向量只用了***個組合：起始位置2，終止位置4。

而substring的語句三個參數中最長的向量為c(4,5,8)，執行時按短向量循環使用的規則***個參數事實上就是c(x,x,x)，第二個參數就成了c(2,4,2)，最終截取的字串起始位置組合為：2-4, 4-5和2-8。

請按照這樣的處理規則解釋下面語句運行的結果：

> x <- c("123456789", "abcdefghijklmnopq") 
> substr(x, c(2,4), c(4,5,8)) 
[1] "234" "de"  
> substring(x, c(2,4), c(4,5,8)) 
[1] "234"     "de"      "2345678"

用substring函數可以很方便地把DNA/RNA序列進行三聯拆分（用于蛋白質翻譯）：

> bases <- c('A','T','G','C') 
> DNA <- paste(sample(bases, 12, replace=T), collapse='') 
> DNA 
[1] "CCTTTACGGTGT" 
> substring(DNA, seq(1,10,by=3), seq(3,12,by=3)) 
[1] "CCT" "TTA" "CGG" "TGT"

用regexpr、gregexpr或regexec函數獲得位置信息后再進行字符串提取的操作可以自己試試看。

七、其他：

比如strtrim、strwrap、charmatch、match和pmatch等，甚至是 %in% 運算符都是可以使用的。R的在線幫助很全，自己看吧，就當學習E文。

原文鏈接：http://helloxxxxxx.blog.163.com/blog/static/21601509520133492033667/?latestBlog

【編輯推薦】

1.R語言學習筆記(1)：R是什么

1.R語言學習筆記(2)：數據類型和數據結構

責任編輯：彭凡來源：網易博客

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产探花在线精品一区二区 | 日本欧美在线 | 久久精品a级毛片 | 久久午夜精品福利一区二区 | 操网站 | 国产欧美一区二区在线观看 | 农村真人裸体丰满少妇毛片 | 免费v片 | 久久久久国产精品 | 国产精品久久久久久久久免费高清 | 欧美久久免费观看 | 欧美a在线 | 一区二区三区精品视频 | 91热爆在线观看 | 久久91精品国产一区二区 | www.国产精品 | 韩日在线 | 91精品国产综合久久福利软件 | av免费在线观看网站 | 免费国产一区 | 麻豆av网站 | 亚洲精品一区中文字幕乱码 | 一区二区三区国产 | 在线丝袜欧美日韩制服 | 三级视频在线观看电影 | 五月综合激情婷婷 | 国产精品亚洲成在人线 | 一区二区在线观看免费视频 | 欧美综合国产精品久久丁香 | 成人久久久久久久久 | 国产精品特级毛片一区二区三区 | 99热国产在线播放 | 国产a级黄色录像 | 91精品国产91久久久久久不卞 | av天天澡天天爽天天av | 九九精品久久久 | 欧美高清视频在线观看 | 成人无遮挡毛片免费看 | 国产一区二区在线看 | 国产精品高潮呻吟久久久久 | 国产免费看 |

<button id="iwmgu"></button>

<kbd id="iwmgu"><table id="iwmgu"></table></kbd>

<dl id="iwmgu"><source id="iwmgu"></source></dl><table id="iwmgu"><source id="iwmgu"></source></table>