전체 글373 a loading into HDFS - Part1 Data loading into HDFS - Part1 By Alexey Filanovskiy-Oracle on Jan 07, 2016 Today I'm going to start first article that will be devoted by very important topic in Hadoop world – data loading into HDFS. Before all, let me explain different approaches of loading and processing data in different IT systems. Schema on Read vs Schema on Write So, when we talking about data loading, usually we do this.. 2016. 5. 18. 지능적인 데이터 관리 6가지 원칙 출처: Informatica 고급 분석을 제공하기 위한 필수 사항 차세대 분석 성공의 핵심이 우수한 데이터라면, 기업의 데이터 관리 접근 방식이 올바른 결과를 산출할 것이라고 어떻게 확신할 수 있을까요? 지능적인 데이터 관리는 다음 6가지 원칙으로 요약할 수 있습니다. 1. 반복 2. 분리 3. 정렬 4. 협업 5. 자동화 6. 거버넌스 이 원칙들이 의미하는 바를 설명하고, 이를 실행으로 옮기기 위한 방법을 소개하겠습니다. 이 6가지 필수 사항을 적용함으로써 차세대 분석을 준비할 수 있습니다. 1 반복 핸드 코딩된 데이터 통합과 수동 데이터 정제를 통해 한 번은 문제를 해결할 수 있습니다. 문제는 이것이 반복적으로 발생할 것이라는 점입니다. 모든 새로운 데이터 세트에는 마지막 것과 같은 동일한 상세 정제.. 2016. 5. 13. 리눅스 패스워드 복잡도(Linux Password) RHEL 6.x 기준, 계정의 비밀번호 변경 시 복잡도 제한을 두는 방법이다. root를 제외한 계정에게 해당되며, root는 적용 받지 않는다. [root@Sample-local ~]# cat /etc/pam.d/system-auth #%PAM-1.0 # This file is auto-generated. # User changes will be destroyed the next time authconfig is run. auth required pam_env.so auth sufficient pam_fprintd.so auth sufficient pam_unix.so nullok try_first_pass auth requisite pam_succeed_if.so uid >= 500 quiet aut.. 2016. 5. 11. Space Marshals 공략 Space Marshals는우주에서 펼쳐지는 공상과학 웨스턴 모험 게임입니다! 이 탑다운 슈팅 게임에서 당신은 스페셜리스트 Burton의 역할을 맡아 감옥에서 탈옥한 위험한 탈옥수들을 쫓아야 합니다. 전술적인 전투 환경을 자신에게 유리하게 이용하세요. 구조물에 몸을 숨겨서 공격을 피하세요. 적의 측면을 공략해서 더욱 효율적으로 공략하고, 반대로 적에게 자신의 측면을 내주지 마세요! 수류탄, 섬광탄, 소란 유발 도구, 개인 보호막, 근접 지뢰 등의 도구를 사용해서 적을 제압하세요. 조심스럽게 접근하세요. 총탄이 빗발치는 적의 진영으로 그냥 뛰어드는 건 언제나 성공하는 작전은 아닙니다. 소란 유발 도구를 사용해서 적을 한 명만 유인하세요. 변장을 하고 엄폐물을 이용해서 중요하지 않은 경비들은 지나치세요. 무.. 2016. 4. 30. 컬럼별 데이터 프로파일링 DW 마트나 데이터를 분석하기 위해서는 테이블 내 컬럼별 데이터의 정보가 중요하다. 하지만 모르기도 하고 귀찮기도 해서 살펴보지 않고 사용하며 심지어 PK 컬럼이 스페이스가 들어가 있거나 DW 테이블임에도 불구하고 null 있는 컬럼이 많이 존재하거나 도메인이 맞지 않는 데이터가 있음을 쉽게 볼수 있다. 특이한 점은 많은 프로젝트를 수햄해 왔지만 최근 데이터베이스의 접근이 통제되면서 더욱 데이터에 대한 품질은 떨어지는 듯 하다. 별도의 데이터 품질을 관리하는 솔루션이 없는 프로젝트에서 수행하다가 필요성에 의해 간단하게나마 쿼리를 작성하여 사용하고 있다. 샘플값과 데이터 패턴도 추가하여 쓰고 있으나 간단한 부분이고 별도의 테이블로 생성하여 관리하는 터리 제외했다. ## 컬럼별 데이터 프로파일링 WITH C.. 2016. 4. 30. 그린카 - 아이오닉 지난 주 시승이 가능한 신규 차량이 있어 탑승해 보았다. 차를 렌트 위주로 하다보니 차의 제원이나 이런 건 잘 모르겠다. 언제나처럼 단순 체감에 대해서 몇 자 적어 본다. 위형은 신형답게 기존과는 새로운 디자인으로 꼭 타보고 싶어서 굳이 없어도 되는 구간을 차로 다녀왔다. 처음 시동 걸고 가장 먼저 보인 것은 주행 가능 거리. 883km! 이미 앞에 분이 채워둬서 연료가 완전히 만땅인지는 모르겠으나 연료 게이지가 끝까지 차 있는 상태에서 대단해 보인다. 아래 보이는 평균연비는 주행할떄마다 변경 폭이 싶해 실제 연비인지 어떤지는 모르겠다. 요즘 구형 SM520 LPG를 중고로 6개월 전에 구매해서 이제 1000km 정도 주행했다. 나처럼 주말에나 놀러다닌다면 꽤나 오래 탈 것 같다(실제 이렇게 자주 타지 .. 2016. 4. 25. 스냅스 후기 미래에 애기들 선물로 줘야지 하는 생각에 다소 비싸더라도 한번 만들어 보자는 생각에 제작을 해 보았다. 처음으로 앨범을 만들어 보는데 만드는데는 어렵지는 않았으나 100장 정도 넘어가기 시작하니 정리함에 있어서 귀찮아지기 시작했다. 넣고 나니 너무 대충이라는 게 느껴졌다. 대부분 아이폰으로 찍은 사진들이었는데, 8x8 사이즈에서는 매우 잘 찍힌 것은 2/3 정도 크기로 봐도 괜찮았으나 아이폰6정도 수준이라면 어지간한 사진들은 작은 편이 낫지 않을까 싶다. 초반에는 글이 있는 레이아웃도 선정하고 했으나 역시 뒤쪽으로는… 만약 단순 앨범형태로 해서 각 장에 4장씩 넣는다든가 하면 스냅스 자동배치 기능을 이용하면 쉽게 할 수 있을 듯 하다. 레이플랫으로 하면 아래처럼 나오는데 웨딩앨범이나 돌사진처럼 완전히 펴.. 2016. 4. 18. 배치로 Hive 로 보내기 배치로 Hdfs 로 옮기는 방법은 여러 가지가 있고 최근 들어 나오는 컴포넌트들을 사용하면 쉽게 할 수 있다. 하지만 보안 등의 이슈로 인해 이러한 컴포넌트들을 사용할 수 없을 때 그리고 텍스트 파일 경우 사용할 간단한 방법을 알아보자. 많은 종류의 Sql on Hadoop 이 있지만 아직까지 비교적 느리지만 Hive 가 여러 방면으로 유용하게 사용되고 있다. 조회를 해보기 위해 Hive에서 특정 디렉토리를 external 로 잡은 테이블로 생성한다. 올릴 파일들의 크기가 너무 작은 파일들이 많다면 묶어서 올리는 것이 좋다. cat / | hadoop fs –put - / 그러데 배치인 경우에는 매일 올리거나 하는 경우가 많은데 roll back 이나 관리가 어려울 수 있다. 다행히 Hive 에서는 파티.. 2016. 4. 3. Shiny에서 SparkR 실행하기 Shiny와 SparkR을 통해서 웹으로 분석결과 보여주기 server.R에서는 glm 을 통해서 회귀 모델을 구해서 웹에서 변수값에 따른 결과를 보여준다. server.R # First install shiny library library(shiny) library(ggfortify)# Set the system environment variables Sys.setenv(SPARK_HOME = "C:/app/gitProjects/spark") .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))#load the Sparkr library library(SparkR)# Create a spark context and a SQ.. 2016. 3. 28. 맥처럼 화면을 이동하는 가상 테스크탑 기능 윈도우 10은 필요에 따라 화면을 추가하는 '가상 데스크탑' 기능을 쓸 수 있다. 가상 데스크탑 기능은 프리젠테이션 도중 데모 시연을 위해 화면을 빠르게 전환할 수 있다는 점에서 만족할 수 있다. 멀티 모니터를 사용하는 것과 같은 환경을 가상으로 제공할 수 있기 때문에 한정된 화면을 효율적으로 배치해 쓸 수 있다.단축키 컨트롤(Ctrl)+윈도우+D키를 누르면 즉시 만들어된 새 데스크탑 화면으로 이동하며, 컨트롤+윈도우+방향키를 누르면 간편하게 원하는 데스크탑 화면으로 바꿀 수 있다. 화면 전환을 위한 마우스 클릭은 필요하지 않다. 단축키를 잘 알고 있으면 동선을 줄여 프리젠테이션의 흐름을 잘 이을 수 있다.액션 센터는 윈도우 10의 이벤트 내용, 장치에서 활성화된 주요 기능을 한 눈에 볼 수 있는 화면이.. 2016. 3. 27. RStudio 에서 Spark 사용하기 로컬모드로 Spark 를 띄우기 위해 먼저 Spark 부터 받자 http://spark.apache.org 혹은 새로 빌드를 하거나 [INFO] Reactor Summary: [INFO] [INFO] Spark Project Parent POM ........................... SUCCESS [ 13.980 s] [INFO] Spark Project Test Tags ............................ SUCCESS [01:04 min] [INFO] Spark Project Sketch ............................... SUCCESS [ 20.141 s] [INFO] Spark Project Networking ....................... 2016. 3. 26. Apache NiFi 사용기 간단하게 NiFi를 사용해보자 바이너리를 받아도 되지만 어떤게 있는지 보기 위해 git 에서 소스를 받아서 빌드 해보자. git clone https://github.com/apache/nifi.git mvn install -Dmaven.test.skip=true 빌드를 했다면 아래 위치에 있고 바이너리를 받았다면 bin 아래에 있다. nifi/nifi-assembly/target/nifi-0.6.0-SNAPSHOT-bin/nifi-0.6.0-SNAPSHOT/bin/run-nifi.bat 기본적으로 8080 포트를 사용하기 떄문에 확인하고 수정이 필요할 수 있다. 웹서버가 실행되는데 몇 초 정도 시간이 걸리니 웹브라우저에서 바로 나타나지 않을 수 있다. 잠시 기다렸다가 접속해보면 아래와 같이 보인다. 주.. 2016. 3. 26. 이전 1 ··· 18 19 20 21 22 23 24 ··· 32 다음