본문 바로가기

분류 전체보기377

컬럼별 데이터 프로파일링 DW 마트나 데이터를 분석하기 위해서는 테이블 내 컬럼별 데이터의 정보가 중요하다. 하지만 모르기도 하고 귀찮기도 해서 살펴보지 않고 사용하며 심지어 PK 컬럼이 스페이스가 들어가 있거나 DW 테이블임에도 불구하고 null 있는 컬럼이 많이 존재하거나 도메인이 맞지 않는 데이터가 있음을 쉽게 볼수 있다. 특이한 점은 많은 프로젝트를 수햄해 왔지만 최근 데이터베이스의 접근이 통제되면서 더욱 데이터에 대한 품질은 떨어지는 듯 하다. 별도의 데이터 품질을 관리하는 솔루션이 없는 프로젝트에서 수행하다가 필요성에 의해 간단하게나마 쿼리를 작성하여 사용하고 있다. 샘플값과 데이터 패턴도 추가하여 쓰고 있으나 간단한 부분이고 별도의 테이블로 생성하여 관리하는 터리 제외했다. ## 컬럼별 데이터 프로파일링 WITH C.. 2016. 4. 30.
그린카 - 아이오닉 지난 주 시승이 가능한 신규 차량이 있어 탑승해 보았다. 차를 렌트 위주로 하다보니 차의 제원이나 이런 건 잘 모르겠다. 언제나처럼 단순 체감에 대해서 몇 자 적어 본다. 위형은 신형답게 기존과는 새로운 디자인으로 꼭 타보고 싶어서 굳이 없어도 되는 구간을 차로 다녀왔다. 처음 시동 걸고 가장 먼저 보인 것은 주행 가능 거리. 883km! 이미 앞에 분이 채워둬서 연료가 완전히 만땅인지는 모르겠으나 연료 게이지가 끝까지 차 있는 상태에서 대단해 보인다. 아래 보이는 평균연비는 주행할떄마다 변경 폭이 싶해 실제 연비인지 어떤지는 모르겠다. 요즘 구형 SM520 LPG를 중고로 6개월 전에 구매해서 이제 1000km 정도 주행했다. 나처럼 주말에나 놀러다닌다면 꽤나 오래 탈 것 같다(실제 이렇게 자주 타지 .. 2016. 4. 25.
스냅스 후기 미래에 애기들 선물로 줘야지 하는 생각에 다소 비싸더라도 한번 만들어 보자는 생각에 제작을 해 보았다. 처음으로 앨범을 만들어 보는데 만드는데는 어렵지는 않았으나 100장 정도 넘어가기 시작하니 정리함에 있어서 귀찮아지기 시작했다. 넣고 나니 너무 대충이라는 게 느껴졌다. 대부분 아이폰으로 찍은 사진들이었는데, 8x8 사이즈에서는 매우 잘 찍힌 것은 2/3 정도 크기로 봐도 괜찮았으나 아이폰6정도 수준이라면 어지간한 사진들은 작은 편이 낫지 않을까 싶다. 초반에는 글이 있는 레이아웃도 선정하고 했으나 역시 뒤쪽으로는… 만약 단순 앨범형태로 해서 각 장에 4장씩 넣는다든가 하면 스냅스 자동배치 기능을 이용하면 쉽게 할 수 있을 듯 하다. 레이플랫으로 하면 아래처럼 나오는데 웨딩앨범이나 돌사진처럼 완전히 펴.. 2016. 4. 18.
배치로 Hive 로 보내기 배치로 Hdfs 로 옮기는 방법은 여러 가지가 있고 최근 들어 나오는 컴포넌트들을 사용하면 쉽게 할 수 있다. 하지만 보안 등의 이슈로 인해 이러한 컴포넌트들을 사용할 수 없을 때 그리고 텍스트 파일 경우 사용할 간단한 방법을 알아보자. 많은 종류의 Sql on Hadoop 이 있지만 아직까지 비교적 느리지만 Hive 가 여러 방면으로 유용하게 사용되고 있다. 조회를 해보기 위해 Hive에서 특정 디렉토리를 external 로 잡은 테이블로 생성한다. 올릴 파일들의 크기가 너무 작은 파일들이 많다면 묶어서 올리는 것이 좋다. cat / | hadoop fs –put - / 그러데 배치인 경우에는 매일 올리거나 하는 경우가 많은데 roll back 이나 관리가 어려울 수 있다. 다행히 Hive 에서는 파티.. 2016. 4. 3.