Apache Atlas, 쪽모이 세공 진행, Whirr 은퇴

이번 주 Apache Software Foundation (ASF)의 발표는 빅 데이터의 세계와 변화하는 방식에 대해 흥미로운 시각을 제공합니다. 매주 ASF에서 나온 소식이 있지만 이번 주에 발표 된 내용은 내 눈을 사로 잡았습니다. 데이터 관리 및 최적화 된 기둥 저장소와 관련된 두 가지 프로젝트가 새 릴리스를 발표했지만 클라우드의 Hadoop과 관련된 초기 프로젝트는 폐기되었습니다.

사람들에 의한 거버넌스, 첫째, 세부 사항. Hortonworks의 데이터 거버넌스 이니셔티브의 핵심 인 Apache Incubator 프로젝트 인 Atlas는 0.5 버전을 발표했습니다. 산출물의 세부 사항은 0.5가 사소한, 대부분 관리적인 릴리스임을 분명히합니다. 그러나 “절반 방법”버전 번호와 ASF 소스 코드 저장소 ( “repo”)에 대한 변경 사항은 중요한 무언가의 특징입니다. Hadoop 관련 ASF 프로젝트 모음에는 개요 설명에 따르면 “Hadoop 내에서 기업이 효율적으로 효율적으로 규정 준수 요구 사항을 충족하고 전체 엔터프라이즈 데이터 생태계와 통합 할 수 있도록 지원하는 데 중점을 둡니다.

메타 데이터 및 마스터 데이터 관리, 크로스 스택 보안 및 데이터 계보와 같은 것들은 2 년 전 사실상 비웃었습니다. 하둡 (Hadoop)과 빅 데이터 (Big Data)의 힘에 비해 상대적으로 수입이 적은 둔감한 엔터프라이즈 정신으로 간주되었습니다. 그러나 이제 Hadoop은 초기 단계의 주류 기술이되었으며 미션 크리티컬 프로젝트에서 사용되는 다음 단계로 나아 가기 위해 열심히 노력하고 있으므로 관리 효율성 및 감사 기능과 같은 특성이 전면에 집중되었습니다.

열은 기둥이므로 클러스터 수준의 매크로 수준뿐만 아니라 클러스터의 개별 노드에 대한 쿼리 성능에도 성능이 있습니다. 데이터웨어 하우징 세계는 십년 이상 동안 주어진 데이터 열의 값이 함께 저장되고 처리되는 원주 저장 및 처리에 가치를두고 투자했습니다. 대부분의 분석 작업에는 선택된 일부 열의 집계가 포함되기 때문에 모든 행 값을 함께 저장하는 것이 아니라 데이터가 읽힐 때 대부분의 행 값을 건너 뛰는 것보다 훨씬 효율적입니다. Columnar 기술은 이제 Hadoop 분산 파일 시스템 (HDFS)와 호환되는 거의 모든 처리 엔진에 적합합니다.

그래서 Columns 파일 포맷을 HDFS에 가져 오는 Apache Parquet 프로젝트는 Cloudera의 임팔라와 심지어 Apache Hive와 같은 원주 형 엔진이 더 효율적으로 작업 할 수 있도록 도와줍니다. Cloudera, Twitter 및 심지어 Apache Drill 및 Spark와 같은 Hadoop 독립적 프로젝트조차도 지원하는 Parquet는 업계 전반에 걸쳐 매우 중요한 표준이되었습니다.

Parquet MR (Parquet 파일 작업을위한 Java 라이브러리 모음)의 새로운 1.80 릴리스는 실제로 두 가지 버그를 해결하는 유지 관리 릴리스입니다. 그러나 이러한 버그로 인해 파르 케 파일이 손상되었습니다. 버그와 같은 버그가 빨리 해결되지 않으면 형식에 대한 확신과 채택이 중요하지 않을 수 있습니다.

스크립트를 통한 클라우드 클러스터, 2012 년에 빅 데이터를 처음 접했을 때 나는 Cloudera에서 처음으로 인터뷰를했습니다. 어느 정도 순진하게, 나는 채팅 한 Cloudera 엔지니어 인 Todd Lipcon에게 “cloud”이라는 단어로 시작하는 회사가 본질적으로 사용하도록 설계된 제품을 제공 한 이유를 물었습니다. Lipcon이 3, 4 년 전 나와 공유 한 답변은 Whirr이라는 오픈 소스 도구를 사용하는 것이 었습니다.

ASF 프로젝트 Whirr은 클라우드 플랫폼 독립적 인 API를 통해 클라우드 기반 인프라에 Hadoop 노드를 자동으로 배치하기 위해 도입되었습니다. 그때조차도 그다지 우아하지 않았습니다. 그리고 Qubole 및 Altiscale과 같은 Hadoop as a a service 회사와 Amazon EC2 및 Microsoft Azure의 주요 Hadoop 배포를위한 간단한 클라우드 마켓 기반 배포가 있으므로 Whirr는 쓸모 없게되었습니다. 이와 같이이 프로젝트는 공식적으로 ASF “Attic”에 은퇴했습니다. 즉, 아직 사용할 수 있지만 더 이상 개발되지는 않습니다.

Big Data Analytics, 빅 데이터 애널리틱스, DataRobot은 데이터 과학의 저조한 성과를 자동화하는 것을 목표로하고 있으며 Big Data Analytics, MapR 창업자 인 John Schroeder는 사임하고, 대체 할 COO

그것은 당신이 아닙니다, 나야, 우리는 Whirr을 놓치고, 데이터 거버넌스와 노드 레벨 쿼리 성능이 그다지 중요하지 않은 더 간단한 시간 (2012 년이면)을 놓치게 될 것입니다. 그러나 Hadoop과 스키마 변수 Big Data 분석이 평범한 것이되기를 원한다면 계속 진행해야합니다. 이번 주에 ASF 발표가 몇 편이나 나오면서 빅 데이터 세상이 그렇게하고있는 것으로 보입니다.

LinkedIn, 새로운 블로깅 ​​플랫폼 발표

Big OLAP 시대인가?

DataRobot은 데이터 과학의 낮은 매달린 열매를 자동화하는 것을 목표로합니다.

MapR 창업자 존 슈뢰더 (John Schroeder)가 물러났다.