[Spark] RDD란?

ComputerScience/스파크 2020. 7. 10. 15:46

"RDD란 스파크가 사용하는 핵심 데이터 모델로서 다수의 서버에 걸쳐 분산 방식으로 저장된 데이터 요소들의 집합을 의미하며, 병렬처리가 가능하고 장애가 발생한 경우에도 스스로 복구될 수 있는 내성(tolerance)를 가지고 있다"

"Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant collection of elements that can be operated on in parallel."

https://spark.apache.org

저작자표시

'ComputerScience > 스파크' 카테고리의 다른 글

[spark]Exception in thread "main" java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries! 에러 (0)	2020.07.20
[Spark] RDD의 Action 연산 (0)	2020.07.20
[Spark] IntelliJ에서 lambda not supported at this language level '5' (0)	2020.07.13
[Spark] 스파크컨텍스트 , RDD 생성 (0)	2020.07.13

ABOUT ME

기록소 기록소

'ComputerScience > 스파크' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'ComputerScience > 스파크' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바