본문 바로가기

분류 전체보기408

데이터 엔지니어링 on Google Cloud (4/4) 제 4장. AI, 머신러닝 및 Google Cloud 기반 분석 브리핑 문서분석 및 인공지능(AI)의 주요 테마와 핵심 아이디어를 요약하고, Google Cloud 플랫폼에서 AI와 머신러닝을 활용하는 다양한 방법과 도구에 초점을 맞추어 설명합니다.1. 분석 및 AI 소개 (M4_1_Introduction_to_Analytics_and_AI_KO.pdf)AI, 머신러닝(ML), 딥러닝의 관계: AI는 자율적으로 생각하고 행동하는 머신을 구축하는 이론 및 방법 전반을 아우르는 분야이며, ML은 데이터를 기반으로 예측 통계를 도출하고 반복적인 결정을 내리는 AI의 한 유형입니다. 딥러닝은 이미지, 음성 등 비정형 데이터 처리에서 뛰어난 성능을 보이는 ML의 한 종류입니다."많은 사람이 인공지능(AI), 머신.. 2025. 4. 7.
데이터 엔지니어링 on Google Cloud (3/4) 제 3장. Google Cloud 기반의 복원력 있는 스트리밍 분석 시스템 구축본 문서는 스트리밍 데이터 처리의 주요 개념, 과제, Google Cloud 서비스의 역할 및 활용 방안, 그리고 성능 최적화를 위한 고려 사항을 종합적으로 정리합니다.1. 스트리밍 데이터 처리 소개 (M3_1_Introduction_KO.pdf)스트리밍 데이터의 정의 및 과제: 스트리밍 데이터는 무한하고 지속적으로 생성되는 데이터 세트이며, 대용량(Volume), 빠른 속도(Velocity), 다양한 형태(Variety), 그리고 데이터의 불확실성(Veracity)이라는 4가지 주요 과제를 안고 있습니다."스트리밍은 제한 없는 데이터를 대상으로 하는 데이터 처리 방법입니다.""스트리밍 애플리케이션과 관련된 과제는 4V, 즉 .. 2025. 4. 7.
데이터 엔지니어링 on Google Cloud (2/4) 배치(일괄) 데이터 파이프라인의 개념, 구축 방법, Google Cloud Platform (GCP) 상에서의 실행 및 관리 전략에 대해 살펴 보겠습니다. 배치 파이프라인의 기본 개념부터 ELT/ETL 프로세스, 데이터 품질 고려 사항, GCP의 주요 서비스 (BigQuery, Dataproc, Dataflow, Cloud Data Fusion, Cloud Composer, Data Catalog) 활용 방안, 그리고 파이프라인 최적화 및 관리 전략에 이르기까지 광범위한 주제를 다룹니다.배치 데이터 파이프라인의 기본 개념:배치 파이프라인은 "제한된 양의 데이터를 처리한 다음 종료하는 파이프라인입니다." 예를 들어, 매일의 거래 데이터를 처리하고 데이터 웨어하우스에 기록하는 파이프라인이 있습니다.데이터 처.. 2025. 4. 7.
데이터 엔지니어링 on Google Cloud (1/4) 1장: 데이터 엔지니어링 및 Google Cloud 기반 데이터 레이크/웨어하우스 구축데이터 엔지니어링의 주요 개념과 Google Cloud를 활용한 데이터 레이크 및 데이터 웨어하우스 구축에 대한 핵심 내용을 요약하고 있습니다. 데이터 엔지니어의 역할, 데이터 엔지니어링의 과제, 데이터 레이크와 데이터 웨어하우스의 차이점 및 Google Cloud 솔루션(BigQuery, Cloud Storage, Cloud SQL 등)을 중심으로 주요 아이디어와 사실을 정리했습니다.1. 데이터 엔지니어링 소개 및 역할 데이터 파이프라인 구축: 데이터 엔지니어의 핵심 역할은 데이터 기반 의사 결정을 지원하는 데이터 파이프라인을 구축하는 것입니다. 이는 데이터를 필요한 위치로 가져오고, 사용 가능한 상태로 만들며, 새로.. 2025. 4. 7.