カイワレの大冒険 Third

技術的なことや他愛もないことをたまに書いてます

クラウド-GCP

GCPのインスタンスで、pysparkからGCSに繋いでみた

お仕事で大量のデータをピボットテーブルのように集計処理する必要がでてきまして、色々触ってみたので、まとめてみます。 やることはこちら。 GCP(Google Cloud Platform)でgcloudとbdutilの設定を行う GCS(Google Cloud Storage)にCSVを置く pysparkをダウ…