'K-MOOC/빅데이터와 머신러닝 소프트웨어'에 해당되는 글 8건

###map, flatMap

rdd : {"apple pear", "apple orange", "apple lemon grape"}

rdd.map(tokenize)

{"apple", "pear"},["apple","orange"]......

이런식으로 분활됨

rdd.flatMap(tokenize)

["apple", "pear","apple","orange"......

이런식으로 모임

 

###

@@출력

reduceByKey()

groupByKey()   같은 키값 모음

keys()             키만 모아서 변환

values()          벨류만 모아서 변환

sortByKey()      sort함수로 만듬

jion()              결과만듬

@@Action

collect()          다모아서 프로그렘에 돌려줌

count()           원소갯수 

first()             첫번째거

take(n)           n개원소 반환

@@저장 반환

saveAsTextFile(path)                텍스트로 저장

saveAsSequenceFile(path)         페어 형테의 저장

 

lines = sc.textFile("hdfs:/data/logs")

errors = lines.filter(lambda line:line.startsWith("ERROR"))

messages = errors.map(lambda line: line.split()).map(lambda words: words[1])

messages.filter(lambda line: *sshd" in line).count()

messages.filter(lambda line: "ngnix" in line).count()

로그 분석 하는것

 

Log mining with Caching 

좀더 효율적으로 

massages = errors.map(lambda line: line.split()).map(lambda words: words[1])

messages.persist() # caching messages

곂친것을 수행하지않는다

 

###Natural jion 

v_lookup 엑셀 같은거같음

값을 찾아서 옆 값을 같이 붙여서 추가해준다

 

### dataframe

df = spark.read.json("data/customer.josn")

df.show()   ## 값을 보여줌

df.printSchema()  ##타입을 알려줌

 

select()           df.select("name", df("age")+10)

filter()            df("age")> 30       

groupBy()       df.groupBy("age").count()

 

완전 DB 같다

DB처럼 출력되며 구릅을 묶거나 True 만 출력함

 

df.createOrReplaceTempView("customer")

sqlDF = spark.sql("SELECT age, name FROM customer")

sqlDF.show()

 

블로그 이미지

Or71nH

,

### 구조도

                             Compliler                                  Runtime

Program ---> Logical plan ===+ Physical paln ---->   

 

 

###Level 순서 높은 순서부터

Specialized language

(SQL)

 

Transformation on data

(RDD)

 

Mapreduce

(DAG)

 

### Dataflow graph

 

 

 

 

###https://alklid.github.io/dlog/2017/10/12/spark-01/

'K-MOOC > 빅데이터와 머신러닝 소프트웨어' 카테고리의 다른 글

6주차 텐서플로우  (0) 2020.04.11
5주차 머신러닝 시스템 개요  (0) 2020.04.02
4주차 스트림 처리  (0) 2020.04.01
3주차 배치 분석  (0) 2020.03.24
1주차 빅데이터 소프트웨어  (0) 2020.03.20
블로그 이미지

Or71nH

,

###데이터를 분석에 필요한 것

많은 데이터를 분석하기 위하여 다양한 컴퓨터의 데이터를 연동시 켜야한다

그 데이터양을 처리할 수 있는 속도 가 필요하다

그외에도 다양한 필요요소가 있을 것이다

 

### 데이터의 구성요소

 

데이터 디스크 ---> 분산 처리 시스템 ---> 분산 프로세싱 시스템 ---> 응용 가능하게 할 앱 같은거

 

### 빅데이타 WORKFLOW

1. 서비스 (Service)

2. Data ingestion(분석하는거)

3.Data analysis(예측하는거)  

 

4. Machine learning training(머신러닝 학습)

5. Machine learning interence(머신러닝 추론시스템) 다음은 1.로 다시감

 

### 분산처리를 어떻게 할지 

1. name node

어떤 데이타가 어디있다는 위치를 알려줌

 

2. Client

어떤 일을 해야하는지 얻고 찾아서 읽거나 쓴다

 

'K-MOOC > 빅데이터와 머신러닝 소프트웨어' 카테고리의 다른 글

6주차 텐서플로우  (0) 2020.04.11
5주차 머신러닝 시스템 개요  (0) 2020.04.02
4주차 스트림 처리  (0) 2020.04.01
3주차 배치 분석  (0) 2020.03.24
2주차 데이터 처리 개요  (0) 2020.03.22
블로그 이미지

Or71nH

,