Google Cloudではじめる実践データエンジニアリング入門
[業務で使えるデータ基盤構築]
[業務で使えるデータ基盤構築]
2021年2月20日紙版発売
2021年2月18日電子版発売
下田倫大,寳野雄太,饗庭秀一郎,吉田啓二 著
B5変形判/440ページ
定価3,740円(本体3,400円+税10%)
ISBN 978-4-297-11948-5
書籍の概要
この本の概要
AIやIoTが実用化フェーズに入りつつあるのみならず,デジタルトランスフォーメーション(DX)への注目の高まりによって,事業やサービスを取り巻くデータを分析・活用・管理するためのインフラであるデータ基盤の重要性が増しています。 データ基盤を構築するにあたり,先行する事例から,Google Cloud(Google Cloud Platform, GCP)はデータ領域に強みがある,あるいは,BigQueryは高速に動作するデータウェアハウスである,と聞いたことがある方は多いでしょう。
本書では「データ基盤」そのものを体系的に整理しながら,Google Cloudの各サービスをどのように活用することで実用的なデータ基盤を構築できるか,また発展的なデータ分析ニーズに応えるデータ基盤をどのように設計できるか,といった点について解説しています。 特にGoogle Cloudはマネージドサービスを中心として提供されているため,その特性を正しくとらえることで,最大限の価値を発揮できるようになります。 実際にGoogle Cloudやオンプレミス,他のクラウドサービスを用いたデータ基盤の構築や設計に携わってきた筆者らによる一歩踏み込んだ解説が本書の特徴です。
本書は以下のような方におすすめです。
- これからデータ基盤の構築に関わる可能性があるエンジニア
- Google Cloudや他のクラウドサービスを利用しており,これからデータ領域での活用を広げようとしている方
また,すでにGoogle Cloudを利用しているエンジニアやデータ基盤に携わっているエンジニアにとっても,より洗練されたデータ基盤の設計を行うための知識やノウハウを得ることができるでしょう。
本書は近年のビジネス要件の変化からデータ基盤に求められる要件,一般的なデータ基盤のアーキテクチャを紹介した後,Google Cloudでの設計として以下のようなトピックを取り扱います。
- データウェアハウス
- データレイク/ETL/ELT
- データパイプラインマネジメント/データ統合
- データ基盤のセキュリティとコスト管理(アクセス制御,データ持ち出しの防止,重要データ検知)
- BI,データの可視化
- 発展的な分析(地理情報分析,機械学習,リアルタイム分析)
こんな方におすすめ
- これからデータ基盤の構築に関わる可能性があるエンジニア,Google Cloudや他のクラウドサービスを利用しており,これからデータ領域での活用を広げようとしている方
この書籍に関連する記事があります!
- データ基盤に取り組む意義
- データを扱うためのインフラ,すなわちデータ基盤も分析技術と同じくらい,いや,分析技術以上に重要であると言っても過言ではありません。
目次
第1章 データ基盤の概要
- 1.1 データ基盤に取り組む意義
- 1.2 データ基盤とは
- 1.3 Google Cloud上で構築するデータ基盤
- 1.4 まとめ
第2章 BigQueryのコンセプトと利用方法
- 2.1 DWHとは
- 2.2 Googleのデータ処理を支える技術
- 2.3 BigQueryの内部アーキテクチャを理解する
- 2.4 DWHとしてのBigQueryの基本操作
- 2.5 BigQueryユーザー向けのクエリの最適化
- 2.6 まとめ
第3章 データウェアハウスの構築
- 3.1 データウェアハウスに求められるさまざまな要件
- 3.2 高可用性,Disaster Recovery計画
- 3.3 用途別の影響隔離
- 3.4 サイジング
- 3.5 目的環境別の影響隔離
- 3.6 テーブルを設計する
- 3.7 データの投入
- 3.8 バックアップとリストア
- 3.9 BigQueryにおけるトランザクションとパーティションを用いたDMLの最適化
- 3.10 DMLをまとめる/パーティションの利用
- 3.11 外部接続の最適化 - Storage APIの利用とBI Engineの利用
- 3.12 データマートジョブの設計最適化
- 3.13 まとめ
- Column マルチクラウドでのクラウドデータ基盤の利用
第4章 データレイクの構築
- 4.1 データレイクとは
- 4.2 Hadoopとは
- 4.3 Google Cloudで構築するデータレイク
- 4.4 Google Cloudのおもなデータレイク関連のサービス
- 4.5 Google Cloudでデータレイクを中心としたデータ分析基盤を構築することのメリット
- 4.6 オンプレミス環境からGoogle Cloudへのデータレイクの移行
- 4.7 まとめ
第5章 ETL/ELT処理
- 5.1 ETL/ELTとは
- 5.2 ETL/ELT 処理を実施するサンプルシナリオ
- 5.3 サンプルシナリオ実施用の環境の構築
- 5.4 BigQueryでのELT
- 5.5 BigQueryでのETL
- 5.6 DataflowでのETL
- 5.7 DataprocでのETL
- 5.8 サンプルシナリオ実施用の環境の破棄
- 5.9 その他のETL/ELT処理の実施方法
- 5.10 ETLとELTの各手法の使い分け
- 5.11 まとめ
- Column Apache BeamとDataflow の関係は?
第6章 ワークフロー管理とデータ統合
- 6.1 Google Cloudのワークフロー管理とデータ統合のためのサービス
- 6.2 Cloud Composerの特徴
- 6.3 Cloud Composerでのワークフロー管理
- 6.4 Cloud Data Fusionの特徴
- 6.5 Cloud Data Fusionでのワークフロー管理
- 6.6 Cloud ComposerとCloud Data Fusionの比較と使い分けのポイント
- 6.7 まとめ
- Column Google Cloudにおけるジョブオーケストレーションの選択肢
第7章 データ分析基盤におけるセキュリティとコスト管理の設計
- 7.1 Google Cloud Platformのセキュリティサービス
- 7.2 Google Cloudのリソース構成とエンタープライズ向けの管理機能
- 7.3 IAMを利用したBigQueryのアクセス制御
- 7.4 IAMとAccess Control List(ACL)を利用したCloud Storageのアクセス制御
- 7.5 VPC Service Controlsを利用したアクセス制御とデータ持ち出し防止
- 7.6 監査
- 7.7 Security Command Centerを利用したデータリスクの検知と自動修復
- 7.8 組織のポリシーサービスの適用
- 7.9 アクセス管理とコスト管理の設計
- 7.10 まとめ
- Column データ暗号化とデータ損失防止
第8章 BigQuery へのデータ集約
- 8.1 BigQueryへデータ集約を行うメリット
- 8.2 BigQueryへのデータ集約の方法
- 8.3 BigQuery Data Transfer Service(BigQuery DTS)
- 8.4 BigQueryへのデータパイプライン構築
- 8.5 サービス間連携によるBigQueryへのデータ連携
- 8.6 まとめ
- Column BigQueryのデータ取り込み方法の使い分け
- Column Firebaseを用いたデータ分析の活用方法
第9章 ビジネスインテリジェンス
- 9.1 BIとBIツール
- 9.2 コネクテッドシート
- 9.3 データポータル
- 9.4 Looker
- 9.5 BIツールと親和性の高いBigQueryの機能
- 9.6 まとめ
第10章 リアルタイム分析
- 10.1 リアルタイム分析とユースケース
- 10.2 リアルタイム分析基盤に求められるもの
- 10.3 Google Cloudを利用したリアルタイム分析基盤のアーキテクチャ
- 10.4 Pub/Sub
- 10.5 Dataflow
- 10.6 BigQuery
- 10.7 リアルタイムタクシーデータを用いたリアルタイム分析基盤の構築
- 10.8 まとめ
- Column Dataflow のアーキテクチャと分散処理におけるコンピュート,ストレージ,メモリの分離
第11章 発展的な分析
- 11.1 Google Cloudによる発展的な分析
- 11.2 BigQueryによる地理情報分析
- 11.3 BigQuery上での機械学習
- 11.4 AutoML Tables
- 11.5 AI Platformを活用したデータサイエンスと機械学習
- 11.6 まとめ
- Column Pub/Subのアーキテクチャ
この本に関連する書籍
-
図解即戦力 Google Cloudのしくみと技術がこれ1冊でしっかりわかる教科書[改訂2版]
本書は,Googleのクラウドコンピューティングサービス「Google Cloud」のしくみや関連技術をフルカラー図解した書籍です。エンジニア1年生や転職・就職を目指す人,サー...
-
[エンジニアのための]データ分析基盤入門 データ活用を促進する! プラットフォーム&データ品質の考え方
システムとデータの両面にスポットを当て,データ分析基盤の整備/運用/活用の指針をまとめた入門書。 データ分析の中心にある「データ分析基盤」を取り巻く環境は,大...
-
実践的データ基盤への処方箋 〜ビジネス価値創出のためのデータ・システム・ヒトのノウハウ
データ整備/データ基盤システムの構築/データ分析組織立ち上げのプロがすぐ効くノウハウを教えます! 「会社内でバラバラになっているデータを集めたが,これから...
-
Google Cloud Platform GAEソフトウェア開発入門 ―Google Cloud Authorized Trainerによる実践解説
Google Cloudは,すぐにクラウドでアプリを開発できるので,ビジネスをすばやくIT化できます。フルマネージド(サーバー管理が要らない!)なので,Googleの技術基盤に...
-
図解即戦力 ビッグデータ分析のシステムと開発がこれ1冊でしっかりわかる教科書
近年はビッグデータを分析し,ビジネスに活かすのは当たり前の時代となりました。今後IoTやAIなどの活用が期待される中,データを分析するだけではなく,データを集める...
-
データ分析基盤構築入門[Fluentd,Elasticsearch,Kibanaによるログ収集と可視化]
「サービスのデザインはログのデザインから。」良いサービスを作り上げるには,ログデータを収集し,改善を続けるシステムの構築が必要です。本書は,ログデータを効率...