Day 42. Learning review | 코딩이 쏘아올린 작은 공 👏🔨🥰👍

2021. 7. 14. 16:32📸 기자 교육/Learning review

[ 210714(수)│서준영 선생님_텍스트 마이닝을 활용한 기사쓰기
day 1.빅데이터와 텍스트마이닝을 활용한 R Studio. ]

<한국잡지교육원_취재기자20기_주하은>


"데이터 분석은 하나의 도구이기 때문에 전공에 상관 없이 할 수 있다는 점이 중요하다!"
"어떠한 가치 있는 것들을 끌어낼 것인가를 생각해봐야 한다."
텍스트 마이닝 기법 중 가장 기본이 되는 "워드 클라우드" → 내일 배운다

빅데이터가 생각만큼 아주 대단하게 어려운 건 아니라는 생각이 들었다.
모든 배우는만큼 보이는 것인가.


[ R, R studio 설치하기 ]
R 설치 링크 : https://cran.r-project.org/bin/windows/base/
R studio 설치 링크 : https://www.rstudio.com/products/rstudio/download/#download

(주의!)
* 둘 다 우클릭 - 관리자 권한으로 실행 후 설치하기!
* 설치 전 관리자 이름을 영어로 바꿔야 한다.
(C: 드라이브 > 사용자 이름에 뜨는 폴더명이 영어여야 원활히 실행됨.)
(제어판-사용자계정-계정이름변경) → 로컬 계정으로 로그인 누르면 됨!
나는 이것저것 하다가 잘못해서 결국 초기화 후 윈도우 - netplwiz 검색해서 사용자계정 수동으로 추가했ㄷr...
* 파일 저장 장소 :  C드라이브 > R studio > R   (이름 저장도 다 영어로 해야 한다)


[ 프로그램 창에 대한 설명 ]

1. 왼쪽 위 R 프로그램 입력창
   =메모장 (빗자루 위의 네모 창 버튼 누르면 나온다) 이 창에 쓰는 건 아무 상관 없다!
2. 좌측 아래 창 컨솔 창(프로그램 수행)
   이곳은 수정이 어렵다. 히스토리창이자 결과값 창이라고 보면 됨!

3. 오른쪽 상단의 R데이터/환경 창
   실행된 입력값이 표기되는 곳.
   * 창 지우기 → 빗자루 버튼
   * 원하는 것만 지우기 → rm(없애고 싶은 데이터) <Ex.> rm(podo2) → 하면 podo2만 없어짐.
     여기서 rm은 remove의 약!
     * 이것도 실행(Ctrl+Enter)을 시켜야 적용이 된다.
4. 패키지/그래픽/도움말
  - 그래프 함수를 입력하면 이곳에 그래프가 나온다!
  - 오른쪽 아래 창 4번째에 help 탭 > 검색 기능
    기능 이름을 알고 있을 때, 그 기능의 "사용법"을 알아보는 검색창이다.


[ 기타 알아두어야 할 것들 ]

▷ 함수 쓸때 : 기능 이름(데이터, 설정값)
 여러 개의 데이터를 묶을 때는 c(안에 숫자와 ","로 나열)를 쓴다. podo2 <- c(3,6,9) math <- c(92,30,100,80,85,96)

▷ 원하는 경우에 드래그해서 블럭을 씌운 뒤 실행하면 한 번에 실행이 된다.
▷ 메모와 같이 실행시키기 싫은 건 "#"을 붙이기 (#메모_엑셀이랑 똑같넹)

 

[ 코딩에서 가장 중요한 기본 콘셉트 이해하기! ]

1. 할당(assignment) : 화살표를 사용하여 "오른쪽의 것을 왼쪽에 넣는다는 개념"
화살표 좌측에는 원하는 이름(영어만 가능_띄어쓰기만 없으면),
화살표 우측에는 넣고 싶은 데이터 값을 넣는다.
<Ex.> x <- 3

2. 함수 (=기능) 기능이름(데이터)" 로 이루어져 있음
<Ex.> 평균값 계산 mean() / 최대값 max() / 최소값 min()

3. 할당 + 함수
함수를 쓰면 아래에 결과값은 나오는데, 오른쪽 창에 저장은 안 된다.

평균 점수를 저장하고 싶으면, 할당과 함수를 함께 쓸 것.
<Ex.> 아까 구한 수학의 평균 점수를 이름으로 저장!
math_mean(그냥 임의로 지정한 이름임) <- mean(math)
math_max <- max(math)
math_min <- min(math)

▷ 연습 문제!
#Korean 이라는 이름에 점수 (100,50,60,75,80,90,47) 할당하기 :  Korean <- c(100,50,60,75,80,90,47)
#Korean_mean 라는 이름에 Korean의 평균 점수 넣기 : Korean_mean <- mean(Korean)


[ 이런저런 실습 ]

▷ 오른쪽 아래에 그래표와 표 그리기 실습
* 그래프 그리는 함수 :  plot(data이름)

* 제목 넣기 main=" "
  <Ex.> plot(x,y, main="연습용 그래프")
이런식으로 알스튜디오는 (반복문을 이용하지 않고)수식을 이용하여 그래프 그리기가 가능하다!

▷ 막대그래프 만들기
* rnorm : 랜덤으로 정규분포를 생성하는 코드
* hist(데이터) : 막대그래프 그리는 코드
<Ex.> x2 <- rnorm(100) : "정규분포를 따라서 100개의 데이터를 생성하라"는 명령
<Ex.> x2의 막대그래프를 그려랴 : hist(x2) (참고로 hist는 histogram!)

▷ 사칙연산
공학용 계산기처럼 식으로 만들어도 계산 가능!
<Ex.> al <- 45 + 78 / 456 - (45+5) *123 = 7.7

▷ 글자 인식시키기
코드 :  이름 -> "텍스트"
따옴표 사이에 텍스트를 넣어서 사용한다.

<Ex.> " text <- "I love Text mining"
<Ex.> Ungeun_team <- "Him nae yo"
#오늘의 tmi.
파이썬에서는 한 줄이 넘어가는 긴 글에 사용해야하는 방식이 있다! → ''' 긴~~~~~~~~~글 '''

* 소문자와 대문자를 다르게 인식함!
소문자로 만들기 :  tolower(text)
대문자로 만들기 : toupper(text)

▷ 추가패키지 설치
다음 코드를 입력 후 실행하기 → install.packages('ggplot2')

==같다
!= 같지 않다


[ 오늘의 최종 소감 ]

내일은....더 낫길....바라며...^~^!