6  Metin İşlemleri

R’de bir çift tek tırnak veya çift tırnak içine yazılan herhangi bir değer, bir karakter olarak kabul edilir. Karakter yapısına sahip olan verilerin analizi özellikle metin madenciliği konusunda kullanışlıdır. Karakter nesneleri üzerinde çalışmak için kullanılabilecek birçok fonksiyon vardır.

# as.character
as.character(3.14)
[1] "3.14"
class(as.character(3.14))
[1] "character"
# paste and paste0 karakter verilerini birleştirir

first <- "Fatih"
last <- "Tüzen"
paste(first,last) # default olarak arada boşluk bırakır
[1] "Fatih Tüzen"
paste0(first,last) # default olarak arada boşluk yoktur
[1] "FatihTüzen"
paste("R","Python","SPSS",sep = "-")
[1] "R-Python-SPSS"
# grep fonksiyonu metin vektörünün içinde belirli bir deseni arar

x <- c("R programı","program","istatistik","programlama dili","bilgisayar","matematik")
grep("program",x)
[1] 1 2 4
grep("^ist",x) # ist ile başlayan ifdelerin olduğu yerler
[1] 3
grep("tik$",x) # tik ile biten ifdelerin olduğu yerler
[1] 3 6
# grepl TRUE-FALSE olarak sonuç döndürür
grepl("tik$",x) # tik ile biten ifdelerin olduğu yerler
[1] FALSE FALSE  TRUE FALSE FALSE  TRUE
x[grep("tik$",x)] # tik ile biten ifdelerin olduğu yerler
[1] "istatistik" "matematik" 
x[grepl("tik$",x)] # tik ile biten ifdelerin olduğu yerler
[1] "istatistik" "matematik" 
# nchar karakter uzunluğunu verir
nchar(x)
[1] 10  7 10 16 10  9
nchar("R Programlama") # boşluklar da sayılır!
[1] 13
# tolower ve toupper 
toupper("program") # karakteri büyük harf yapar
[1] "PROGRAM"
tolower(c("SPSS","R","PYTHON")) # karakteri küçük harf yapar
[1] "spss"   "r"      "python"
# substr ve substring ile karakter parçalama yapılır
substr("123456789",start = 3, stop = 6)
[1] "3456"
substring("123456789", first =3, last = 6)
[1] "3456"
x <- "R Programlama"
substr(x,nchar(x)-3,nchar(x)) # son 4 karakteri getir
[1] "lama"
# strsplit karakteri bölme işini yapar
strsplit("Ankara;İstanbul;İzmir",split = ";")
[[1]]
[1] "Ankara"   "İstanbul" "İzmir"