Data Engineering 4

T아카데미 - 데이터 엔지니어링 기초 (4)Google Cloud Functions을 이용해 BigQuery에 데이터 옮기기

강의영상 강의 요약 BigQuery 완전관리형 데이터 웨어하우스 매우 큰 데이터도 저렴하게 저장, 빠른 속도로 처리 가능 Google Cloud Functions 구글 클라우드의 서버리스 제품 트리거 조건과 코드를 설정해놓으면 원하는 동작을 자동으로 수행 실습 프로젝트 이름 클릭 → 데이터세트 만들기 테이블, 스키마 생성 스키마 순서는 나중에 변경할 수 없으므로 주의 Pub/Sub이랑 연동: Cloud 함수 트리거 Cloud 함수 설정 API 사용 설정해야 함 런타임: python 3.7 Source code: Inline Editor main.py: 트리거되었을 때 실행할 코드 requirements.txt: main.py 실행하는 데 필요한 패키지 정보 BigQuery에 저장된 데이터 확인: 쿼리 편..

T아카데미 - 데이터 엔지니어링 기초 (3)Google Cloud Pub/Sub으로 데이터 보내기

강의영상 강의 요약 프로젝트 생성: https://cloud.google.com/resource-manager/docs/creating-managing-projects?hl=ko google-cloud-pubsub 라이브러리 설치 인증키 생성 IAM 및 관리자 - 서비스 계정 만들기 역할: 게시/구독 편집자, BigQuery 데이터 편집자 키 만들기 -> json 파일 다운로드해서 프로젝트 폴더에 넣음 저장된 데이터 확인하는 방법: subscriber 생성 - 메시지 보기 실습 코드 import tweepy from google.cloud import pubsub_v1 from google.oauth2 import service_account from dotenv import load_dotenv imp..

T아카데미 - 데이터 엔지니어링 기초 (2)트위터 스트리밍 데이터 수집

강의영상 강의 요약 데이터 엔지니어 취업을 위해 준비야 할 것 Apache Spark: 원하는 회사에서 사용한다면 공부해야 함 Hadoop은 알면 좋지만 필수는 아님 (요즘에는 직접 다룰 일 별로 없음) CS 지식, 개발역량도 갖춰야 함 실습 개요: 무인으로 동작하는 실시간 데이터 파이프라인 만들기 Twitter Streaming Data: Google Kubernetes Engine에 올림 트위터에서는 무료로 실시간 스트리밍 데이터를 활용할 수 있는 API 제공 https://developer.twitter.com/en/docs/twitter-api/v1/tweets/filter-realtime/overview https://developer.twitter.com/en/docs/twitter-api/v..

T아카데미 - 데이터 엔지니어링 기초 (1)미래의 데이터 엔지니어

강의영상 강의 요약 사전준비 Google Cloud Platform 가입 https://zzsza.github.io/gcp/2018/01/01/gcp-intro/ 데이터 분야의 직업 데이터 분석가, 사이언티스트 비즈니스 분석가 데이터 엔지니어 데이터 엔지니어 역할정의 잘 안 되어 있음 데이터 파이프라인을 만드는 사람 만능 서포터(개발/도메인지식/파이프라인/관리/지표) 데이터 엔지니어링의 히스토리 직접 구현(컴퓨터 조립까지) 초창기의 하둡은 자동복구가 되긴 하지만 고장나는 것이 더 많고, 성능 스케일이 되긴 되는데 성능이 떨어지는 게 더 많았음 → 생산성이 높지 않았음 오픈소스 클라우드 서비스화 Fully Managed Service 미래의 데이터 엔지니어 다 만들 줄 알면서, 서비스를 활용해서 시간을 아..