티스토리

둘러가기

검색하기

블로그 홈

둘러가기

blog.just4u.life/m

소소한 생활 이야기

구독자: 1

방명록 방문하기

주요 글 목록

데이터 엔지니어링 on Google Cloud (0/4) 구글 클라우드 데이터 관리 체계 및 데이터 엔지니어링데이터 관리 개념, 시스템 아키텍처, 서비스 아키텍처 및 구글 클라우드 서비스 활용 가이드목차소개데이터 관리 개념시스템 아키텍처서비스 아키텍처구글 클라우드 서비스Google Cloud Storage (GCS)BigQueryCloud ComposerDataprocDataflowData Fusion데이터 파이프라인 구축활용 사례모범 사례결론1. 소개현대 비즈니스에서 데이터는 가장 중요한 자산 중 하나입니다. 대규모 데이터를 효율적으로 저장, 처리, 분석하는 능력은 비즈니스 성공의 핵심 요소가 되었습니다. 구글 클라우드 플랫폼(Google Cloud Platform, GCP)은 기업이 데이터를 최대한 활용할 수 있도록 다양한 데이터 관리 서비스를 제공합니다... 공감수 2 댓글수 1 2025. 4. 11.
Supabase Supabase는 오픈 소스 백엔드 서비스 플랫폼으로, 개발자들이 애플리케이션의 데이터베이스와 인증, 실시간 데이터 처리 등을 관리할 수 있도록 지원한다. 이 플랫폼은 PostgreSQL을 기반으로 하며, 데이터베이스와 관련된 다양한 작업을 쉽게 수행할 수 있는 도구와 인터페이스를 제공한다. 또한 Supabase는 API를 통해 클라이언트 애플리케이션과 상호작용하고, 데이터를 실시간으로 업데이트할 수 있는 기능도 제공한다. 요약하자면, Supabase는 백엔드 작업을 간편하게 처리할 수 있도록 도와주는 플랫폼이다.Supabase | The Open Source Firebase Alternative Supabase | The Open Source Firebase AlternativeBuild product.. 공감수 0 댓글수 0 2024. 2. 21.
Qdrant - Vector Database Qdrant - Vector Database Qdrant - Vector Database Qdrant is an Open-Source Vector Database and Vector Search Engine written in Rust. It provides fast and scalable vector similarity search service with convenient API. qdrant.tech Qdrant(Quadrant)는 벡터 유사성 검색 엔진이자 벡터 데이터베이스입니다. 추가 페이로드가 있는 벡터인 포인트를 저장, 검색 및 관리할 수 있는 편리한 API를 통해 프로덕션에 바로 사용할 수 있는 서비스를 제공합니다. Qdrant는 확장된 필터링 지원에 맞게 조정되었습니다. 따라서 모든 종류.. 공감수 0 댓글수 0 2023. 4. 21.
Milvus open source vector database Milvus는 2019년에 만들어졌으며, 딥 뉴럴 네트워크 및 기타 머신 러닝(ML) 모델에서 생성된 대량 임베딩 벡터를 저장, 인덱싱 및 관리하는 것을 목표로 합니다. 입력 벡터에 대한 쿼리를 처리하기 위해 특별히 설계된 데이터베이스로, 조작 가능한 벡터를 1조 단위로 인덱싱할 수 있습니다. 기존 관계형 데이터베이스가 사전 정의된 패턴을 따르는 구조화된 데이터를 처리하는 데 주로 사용되는 반면, Milvus는 비구조화된 데이터에서 변환된 임베딩 벡터를 처리할 수 있도록 로우레벨 수준에서 설계되었습니다. 인터넷이 성장하면서 비구조화된 데이터가 점점 더 많아졌습니다. 그 예로는 이메일, 논문, IoT 센서 데이터, Facebook 사진, 단백질 구조 등이 있습니다. 이러한 데이터를 컴퓨터가 이해하고 처리할.. 공감수 0 댓글수 0 2023. 4. 17.
Pinecon - Long-term Memory for AI Pinecone는 고성능 벡터 검색 어플리케이션을 쉽게 만들 수 있게 해주는 관리형 클라우드 벡터 데이터베이스입니다. 사용하기 쉬운 API와 인프라에 대한 걱정 없이 초저지연 쿼리 처리와 라이브 인덱스 업데이트, 메타데이터 필터링 등 다양한 기능을 제공합니다. Pinecone는 텍스트, 이미지, 제품 추천 등 다양한 분야에서 사용할 수 있으며, 벡터 검색 기능은 전통적인 키워드 기반 검색 방법과는 다르게, 벡터 임베딩을 이용해 데이터를 처리합니다. 이를 통해, 검색 쿼리와 가장 유사한 항목을 찾아내는데, 이 때 벡터 임베딩이 필요합니다. Pinecone는 밀집 임베딩과 희소 임베딩을 모두 지원합니다. Pinecone를 이용하면, 텍스트 데이터를 변환하여 검색, 질문에 대한 답변을 생성, 이미지 유사도 검.. 공감수 0 댓글수 0 2023. 4. 17.
DataHub: The Metadata Platform for the Modern Data Stack https://github.com/datahub-project/datahub GitHub - datahub-project/datahub: The Metadata Platform for the Modern Data Stack The Metadata Platform for the Modern Data Stack. Contribute to datahub-project/datahub development by creating an account on GitHub. github.com DataHub is an open-source metadata platform for the modern data stack. Read about the architectures of different metadata systems.. 공감수 0 댓글수 0 2023. 4. 6.
CKAN: The Open Source Data Portal Software https://github.com/ckan/ckan GitHub - ckan/ckan: CKAN is an open-source DMS (data management system) for powering data hubs and data portals. CKAN makes it e CKAN is an open-source DMS (data management system) for powering data hubs and data portals. CKAN makes it easy to publish, share and use data. It powers catalog.data.gov, open.canada.ca/data, data... github.com CKAN is the world’s leading .. 공감수 0 댓글수 0 2023. 4. 6.
sqllineage https://github.com/reata/sqllineage GitHub - reata/sqllineage: SQL Lineage Analysis Tool powered by Python SQL Lineage Analysis Tool powered by Python. Contribute to reata/sqllineage development by creating an account on GitHub. github.com SQL Lineage Analysis Tool powered by Python Never get the hang of a SQL parser? SQLLineage comes to the rescue. Given a SQL command, SQLLineage will tell you .. 공감수 0 댓글수 0 2023. 4. 6.
Open Source Database - Ranking https://ossinsight.io/collections/open-source-database/ Last 28 days / Monthly ranking of repos in this collection by stars, pull requests, issues. Historical Ranking by Popularity. mivus: Vector database built for scalable similarity search Milvus는 딥 뉴럴 네트워크와 기타 머신 러닝(ML) 모델에서 생성된 방대한 임베딩 벡터를 저장, 색인, 관리한다는 단 하나의 목표를 가지고 2019년에 만들어졌습니다. 입력 벡터에 대한 쿼리를 처리하도록 특별히 설계된 데이터베이스로서, 1조 개 규모의 벡터를 색인할 수 있습.. 공감수 0 댓글수 0 2023. 4. 6.
Snowflak 오브젝트 및 용어 Snowflake에서 사용되는 오브젝트 종류는 다음과 같습니다. 태스크(task): 태스크는 일정한 주기로 실행되거나, 특정 이벤트가 발생할 때 실행되는 작업을 정의하는 오브젝트입니다. 태스크를 사용하여 ETL(Extract, Transform, Load) 작업, 데이터 통합 작업 등을 자동화할 수 있습니다. 스트림(stream): 스트림은 데이터 변경을 캡처하고, 다른 테이블(table)이나 스트림(stream)에 전달하는 오브젝트입니다. 스트림을 사용하여 데이터 변경 이벤트를 감지하고, 실시간 데이터 통합을 수행할 수 있습니다. 인티그레이션(integration): 인티그레이션은 다른 클라우드 서비스나 데이터 소스와 연결하기 위한 구성 요소입니다. 인티그레이션을 사용하여 Amazon S3, Azure.. 공감수 0 댓글수 0 2023. 3. 22.
Data Fabric 및 Data Mesh: 조직에 적합한 균형 찾기 데이터 패브릭과 데이터 메시는 조직이 분산되고 확장 가능한 방식으로 데이터를 관리하는 데 도움이 되는 두 가지 아키텍처 개념입니다. 두 접근 방식 모두 고유한 이점이 있지만 조직의 요구 사항에 맞는 데이터 아키텍처를 생성하려면 중앙화와 분산 사이의 적절한 균형을 찾는 것이 중요합니다. 데이터 패브릭: 조직 전반에 걸쳐 통합된 데이터 보기 데이터 패브릭은 여러 위치와 시스템에서 데이터에 액세스하고 데이터를 관리하는 일관된 방법을 제공하는 통합 데이터 아키텍처입니다. 본질적으로 기본 기술 및 데이터 소스에 관계없이 사용자에게 원활한 경험을 제공하기 위해 함께 작동하는 상호 연결된 데이터 서비스 집합입니다. 데이터 패브릭을 사용하면 일관성을 유지하고 데이터 사일로를 줄이고 데이터 액세스를 단순화합니다. 또한 .. 공감수 0 댓글수 0 2023. 2. 23.
OpenMetadata OpenMetadata: Data Discovery, Profiling, Collaboration, Lineage. (open-metadata.org) OpenMetadata: Data Discovery, Profiling, Collaboration, Lineage. An end-to-end metadata management solution that includes data catalog, data discovery, governance, data quality, observability, and people collaboration. open-metadata.org All Data in One Place A central store to integrate metadata from different s.. 공감수 0 댓글수 0 2022. 10. 20.
Project Nessie Project Nessie: Transactional Catalog for Data Lakes with Git-like semantics Transactional Catalog for Data Lakes Git-inspired data version control Cross-table transactions and visibility Open data lake approach, supporting Hive, Spark, Dremio, AWS Athena, etc. Works with Apache Iceberg and Delta Lake tables Run as a docker image, AWS Lambda or fork it on GitHub Get in touch via our Google Group.. 공감수 1 댓글수 0 2022. 10. 20.
Presto https://prestodb.io/ Presto | Distributed SQL Query Engine for Big Data Distributed SQL Query Engine for Big Data prestodb.io Presto: Fast and reliable SQL query engine for data analytics and the open lakehouse For data engineers who struggle with managing multiple query languages and interfaces to siloed databases and storage, Presto is the fast and reliable engine that provides one simple ANSI.. 공감수 0 댓글수 0 2022. 10. 19.
ClickHouse https://clickhouse.com/ Fast Open-Source OLAP DBMS - ClickHouse sudo apt-get install apt-transport-https ca-certificates dirmngr sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 8919F6BD2B48D754 echo "deb https://packages.clickhouse.com/deb stable main" | sudo tee /etc/apt/sources.list.d/clickhouse.lis clickhouse.com ClickHouse® is a column-oriented database management system (D.. 공감수 0 댓글수 0 2022. 10. 19.
Apache Pinot https://docs.pinot.apache.org/basics/concepts Concepts - Apache Pinot Docs In contrast to RDBMS schemas, multiple tables in Pinot (real-time or batch) can inherit a single schema definition. Tables are independently configured for concerns such as indexing strategies, partitioning, tenants, data sources, and/or replication. docs.pinot.apache.org Pinot is designed to deliver low latency queries o.. 공감수 0 댓글수 0 2022. 10. 19.
DBMS Tools Atlas 관련 유사 툴을 검색하다 우연히 발견한 사이트를 공유한다. https://dbmstools.com/ 크게 툴 분류와 대상 DB를 선택하면 관련 된 솔루션을 용도와 특성을 적절히 잘 분류하여 준다. Database Tools Catalog Data modeling tools List of data modeling and database design tools. Data catalogs List of data catalogs tools Data dictionary tools List of tools that enable design and building of data dictionaries. Business Glossary tools List of tools that help build, mai.. 공감수 0 댓글수 0 2020. 9. 28.
Teradata - QUALIFY ROW_NUMBER() SQL 을 작성하다보면 최근값을 가져오기 위해 SELECT * FROM TAB1 WHERE SEQNO = (SELECT MAX(SEQNO) FROM TAB2 WHERE T1.SEQNO = T2.SEQNO); 형태로 가져올 때가 있다. 이 때 QUALIFY ROW_NUMBER()을 유용하게 사용할 수 있다. 예시) SELECT PID, ORDDD, SEQ, COL1 FROM TAB1 QUALIFY ROW_NUMBER() OVER(PARTITION BY PID, ORDDD ORDER BY SEQ DESC ) = 1; 설명: PID, ORDDD 별로 SEQ 를 정렬하여 1개 값을 가져 오기 공감수 0 댓글수 0 2014. 9. 2.
Teradata - Substring 과 Substr 비교 기본적으로 Teradata SQL Assistant 를 사용할 때는 Teradata 를 통해 접속을 한다. 하지만 일반 어플리케이션에서는 ODBC를 통해서 접속하거나 JDBC를 통해서 접속을 한다. 이 때 사용할수 있는 함수나 기능적으로 차이가 날수 있다. 그예로 substring 과 substr을 살펴보면SELECT SUBSTRING ('1234567890' FROM 1 FOR 5);> 12345 SUBSTRING(string FROM ~ FOR) 는 ANSI 표준으로 Teradata 나 ODBC 다 가능하다.SELECT SUBSTR('1234567890' ,1,5); > 12345 위의 경우도 둘다 가능하다. 하지만 아래의 경우에 Teradata 를 사용하는 경우 오류가 발생한다.SELECT SUBS.. 공감수 0 댓글수 0 2014. 8. 28.
Teradata - Interval 과 Add_Months 비교 전월 같은 월 계산시에 오류가 발생할 수 있는 경우가 있다. 예를 들어, 7월은 31일까지 있지만 6월은 30일까지 밖에 없다. 또는 2월이 마지막 일이 28일 혹은 29일이다. 이런 경우 interval 을 사용하면 오류가 발생할 수 있다. SEL DATE '2014-07-31' - INTERVAL '1' MONTH; > SELECT Failed. [2665] Invalid DATE. SEL ADD_MONTHS(CAST('2014-07-31' AS DATE ),-1); > 2014-06-30 공감수 1 댓글수 0 2014. 8. 28.
ORACLE TO TERADATA MIGRATION GUIDELINES Primary Index creation rules: OracleTeradataPRIMARY KEYMake UPI and change those columns to NOT NULL.No PRIMARY KEY but one or more UNIQUE indexesCreate UPI with unique index with the least number of columns. Maintain NULL/NOT NULL constraint as is.No PRIMARY KEY, no Unique indexes, but only non-unique indexesPick a good candidate for PI and create NUPI. Maintain NULL/NOT NULL constraint as is.N.. 공감수 0 댓글수 0 2014. 4. 28.
Performance tuning #1 출처: http://www.teradatatips.com/2010/07/performance-tuning-1.html I have taken a long break from updating this blog. To appease my mind, I am going to update a series of posts for Performance tuning, as it is going on in my project work. When it comes to performance tuning, we cannot stick to a certain set of rules. It varies based on the data you are dealing with. Although, we can create a base.. 공감수 0 댓글수 0 2014. 4. 24.
Teradata Performance Tuning - Basic Tips Performance tuning thumb rules. Here are very basic steps which are used to PT any given query in given environment . As a pre-requiste , make sure - user has proper select rights and actual profile settings - Enough space available to run and test the queries 1. Run explain plan (pressing F6 or "EXPLAIN sel * …",) Then see for potential information like - No or low confidence - Product joins co.. 공감수 0 댓글수 0 2014. 4. 24.
Teradata SQL Query Optimization Or Performance Tuning SQL and Indexes : 1) Primary indexes: Use primary indexes for joins whenever possible, and specify in the where clause all the columns for the primary indexes. 2) Secondary indexes (10% rule rumor): The optimizer does not actually use a 10% rule to determine if a secondary index will be used. But, this is a good estimation: If less than 10% of a table will be accessed if the secondary index is u.. 공감수 0 댓글수 0 2014. 4. 24.
Oracle Database XE Installation(oracle-xe-11.2.0-1.0.x86_64.rpm) 오라클 설치 To install Oracle Database XE: Log on to your computer with root permissions. Go to the following Web site: http://www.oracle.com/technetwork/database/express-edition/downloads/index.html Click Free Download and follow the instructions to select and download the Linux version of Oracle Database XE. Run the Oracle Database XE executable oracle-xe-11.2.0-1.0.x86_64.rpm to install Oracle Database X.. 공감수 0 댓글수 1 2013. 3. 14.
테이블스페이스(Tablespace)별 사용량확인 쿼리(SQL) SELECT d.tn, ROUND (total / 1000000) "total(MB)", ROUND (free / 1000000) "free(MB)", TO_CHAR (ROUND (free / total * 100, 1), '99.9') || '%' rate FROM ( SELECT tablespace_name tn, SUM (bytes) total FROM dba_data_files GROUP BY tablespace_name) d, ( SELECT tablespace_name tn, SUM (bytes) free FROM dba_free_space GROUP BY tablespace_name) f WHERE d.tn = f.tn ORDER BY 4 DESC 공감수 0 댓글수 1 2012. 6. 10.
# Database 용어 정리 # Data / Information - Data : 신문의 모든 정보 - Information : 나의 관심사 # Data Modelling / ERD - 나에게 도움이 될만한 것을 찾아내는 것 - Output(산출물) # Database - ... # DBMS - ... # Oracle Server - Oracle Instance + Database select * from dba_users where username like upper('user') || '%' order by username; user : user10 ALTER USER user&2 BY IDENTIFIED ORACLE ACCOUNT UNLOCK; # .SQL - 관계형 database 를 access하는 언어(select, up.. 공감수 0 댓글수 0 2011. 9. 18.

문의안내

티스토리
로그인
고객센터

티스토리는 카카오에서 사랑을 담아 만듭니다.