홍보 / 광고

  • [빅데이터교육/스파크학원]빅데이터 입문자를 위한 아파치 스파크(Apache Spark) 프로그래밍(평일주간)
빅데이터 입문자를 위한 아파치 스파크(Apache Spark) 프로그래밍
교육개요빅데이터R도 데이터 분석에서 널리 사용되고 있는 무료 도구이지만 대용량 데이터를 직접 다루는 데 한계가 있습니다. 하지만 아파치 스파크(Apache Spark)는 머신러닝, 그래프 알고리즘, 실시간 스트리밍, 처리는 물론 하둡, 빅데이터 R, Hive, Apache Zeppeli) 등 빅데이터 분야의 기존 도구와 연동이 가능해서 다양한 분야로 확장되고 있으며 특히 메모리상에서 동작하여 클러스터 환경의 분산 데이터 처리 시스템으로 뛰어난 성능과 다양한 데이터 처리를 위한 함수를 제공하며 빅데이터R, 하둡, 하이브 등 기존 데이터 분석 도구등과 연동하여 사용할 수 있으며 하둡에 비해 간단한 코드로 작업이 가능 합니다.

본 과정에서 스파크의 개요, 설치, 설정 및 작동, 사례, 적용방법을 예제와 더블어 배울 수 있으므로 단기간에 스파크에 대해 이해를 하고 여러분들의 시스템에 적용할 수 있을 것 입니다.
수료조건출석률 80%이상
교육목표- 아파치 스파크 개요의 이해
- 스파크 설치 및 개발환경의 이해
- 스파크 설정의 이해
- Scalar 언에에 대한 이해
- 스파크 RDD의 이해
- SQL과 HiveQL기반의 아파치 스파크 SQL의 이해
- 스파크 MLlib의 이해
- Mllib과 스파크 ML을 이용한 머신 러닝 애플리케이션 개발 방법의 이해
- 스파크 스트리밍을 이용한 고속 데이터 스트림 처리 방법의 이해
교육대상- 빅데이터에 관심 있는 자
- 아파치 스파크의 도입을 원하는 자
- 아파치 스파크에 관심있는 개발자, 데이터분석가, DB전문가

교육내용

빅데이터 스파크 프로그래밍아파치 스파크 개요
스파크 설치 및 설정
클러스터 디자인
개요 및 용어
클러스터 환경의 이해
스파크 어플리케이션 개발
Hello World 작성
Scalar 프로그래밍
- 설치
- 기본문법
RDD 프로그래밍
- RDD 생성
- RDD 액션
- RDD 연산, 트랜스포메이션
- Key/Value 페어
스파크 SQL
- 스파크 SQL을 이용한 데이터 처리
- 데이터프레임
- JDBC
- User Define Function
- 내장함수
- 하이브
스파크 스트리밍을 통한 데이터 처리
- 스트리밍 아키텍처
- 스트리밍 컨텍스트
- 스트리밍 데이터 처리
스파크 MLlib을 이용한 머신러닝
- 개발환경 설정
- MLlib API
- 데이터 타입
- MLlib 데이터 처리
- 알고리즘
0  COMMENTS