楽屋

【特別連載】さぁ、社内でデータ分析を始めよう!(第1回)

はじめに

  みなさんこんにちは。 みなさんはデータ分析を会社で活用できていますか? ・データ分析してみたいけどデータがない ・データを残すノウハウがない ・データ分析の予算を引き出すにはそのバリューを証明しないといけない 上記のことで足が止まっている会社は非常に多いと思っています。 以前に私もこのような状況に遭遇したことがあります。 しかしながらデータ分析をしてみたいと思っている人は少なからずいるはずです。 データアナリストとして、経験者としてこれらを打破するためのお手伝いができればと思っています。   3回にわたる連載形式で 1回目:現在あるデータを活用してみる 2回目:新しくログを作成してみる 3回目:DWH(データ・ウェア・ハウス)を検討してみる という内容を中心に、経験を交えてお手伝いできればと思います。 またECサイトを運営していると仮定して今後の話を進めていきますが、他の分野であったとしても活用できるはずです。 1回目である今回は『現在あるデータを活用してみる』がテーマになります。  

実際にデータを活用してみる前に

  会社でデータ分析を行う上でどんなノウハウよりも重要な事があります。 それはデータ分析をやってみたいと思う仲間を社内に持つことです。 やはりどんなことであろうと単独で行うには限界があります。 またデータ分析を進めていくうえで気軽に相談できる仲間がいることは大変心強いです。 社内においてデータ分析で得られるメリットを共有することができれば、きっと仲間が増えるはずです。 もし自分がエンジニアでない場合は仲間にサイトオペレーションチームなどのサーバ管理者や開発をしているエンジニアがいると非常に頼もしく思えるはずです。 なぜならばデータ分析を行う上で必要不可欠なログを収集したり、集計したりするためにはエンジニアリングスキルがどうしても必要になるからです。 また社内に仲間をどんどん増やせば、データ分析の専門チームを立ち上げることも不可能ではないはずです。 backstage_analysis_env_vol1_1

現在あるデータを活用してみる

  データ分析を行う上でその基盤環境を作ることはお金がかかります。 データ分析がしたいからといって、いきなり高額の予算申請が通ることは少ないと思われます。 (もし通るならば大変幸運なことです) またいきなりデータ分析の基盤環境を作ったとしてもデータ分析を定常的に行う習慣がないため、利用しきれないケースもあります。 そのため、現在あるものを利用してデータ分析を行ってみることが重要です。   仮にECサイトを運営しているとすると、サーバのアクセスログやエラーログは日々出力されているはずです。 またCS(Customer Support : ユーザからの問い合わせ)対応のためにユーザの行動履歴などを保存している可能性が高いです。 ではこれらを利用してデータ分析をしてみるのはどうでしょうか?   アクセスログからは特定のページや特定のステータスコードに対するユーザのアクセス数などが分かります。 エラーログからはユーザのどういった行動によりエラーが起きているかが分かります。 CS対応のログからは行動の分析やユーザにとって誤解を招きやすいことや分かりにくいことが分かります。 そしてawkやperlを使えば限られたデータからでも様々なことを集計することができます。   まずはデータからどのような分析ができるか把握し、それを業務に活かすことができれば次のステップに進むこともできるのではないでしょうか?  

アクセスログやエラーログを使う際の注意点

  オススメのパターンとしてはサーバのログローテート時にAWS(アマゾン・ウェブ・サービス)のS3などのクラウドストレージサービスに送ることが挙げられます。 多くの場合、ログローテート時にはログは捨ててしまっているがそれを別途保存し、データ分析に用います。 ローカルの環境にログを残し続ける、自前のファイルサーバに送るとなると いくら最近のHDDが安価になろうとも容量の問題に頭を悩ませることになります。 サーバの容量の監視を怠ったがためにサービスに障害を与えてしまうのはナンセンスです。 クラウドストレージサービスならば容量の問題を気にせず、比較的安価で高い耐久性と可用性のある環境に置くことができます。  

セパレータや特殊文字取り扱いの注意点

  ログの出力する文字列にログの項目の区切りとして指定するセパレータが混在することはしばしばあります。 (CSV形式で出力するのに文字列の中にコンマが含まれているなど) また改行や特殊文字がログの文字列に含まれてしまうこともあります。 これらの場合はログの文字列を修正しないかぎり、正常にログの分析をすることが難しいです。 私もセパレータや特殊な文字列の混在については経験があり、これらの修正には手間がかかるため注意が必要となります。 backstage_analysis_env_vol1_2

おわりに

  今回は『現在あるデータを活用してみる』方針でした。 これを繰り返し、知見を貯めると更に詳細なデータが欲しくなります。 次回は『新しくログを作成してみる』ということで新しくアクションログを作成する際の注意点を書いていきたいと思います。   ———   DATUM STUDIO株式会社では『現在あるデータ』を利用した分析も行っています。 興味を持たれた場合はご連絡お願いいたします。   <<お問い合わせ窓口>>