コラム

2021年1月15日
効率的なデータ活用のために
知っておきたい、
データクレンジング手法
  • BI/データ分析
  • データ連携基盤

データクレンジングは、日々の業務のなかで収集したデータを利活用するうえで欠かせない取り組みですが、その必要性や手法について正しく理解できているでしょうか。この記事では、特に複数の業務システム間でデータ連携をする際に必要となるデータクレンジングの手法や対象項目などについてまとめました。


データクレンジングの手法

業務のなかで収集されたデータを、経営判断や営業戦略のための分析に適したデータに整備するデータクレンジング。まずはその具体的な手法について、ステップごとに理解していきましょう。

STEP1:データ品質の分析、クレンジング対象の設定

データクレンジングを行う際は、まず対象のデータを観察し、どのような「洗浄」が必要かを把握することが重要です。データの欠損、表記の揺れ、不整合のある箇所、誤記入、重複など、修正や削除、整理が必要な項目を洗い出し、どの程度「汚れている」のかを客観的に分析しておきましょう。

この手順は、具体的な作業工程を考えるうえでも大切なものです。自社で保管しているデータには間違いが少ないと考える人も多いのですが、項目を一つひとつ見ていくと意外と粗があることも少なくありません。作業工程を見誤らないためにも、対象データの品質をしっかりと分析、評価しておくことが重要です。

STEP2:機械的なデータクレンジング

データクレンジングにはさまざまなやり方がありますが、まずはSTEP1で発見したクレンジング対象項目のなかで、機械的に一括処理できるものを修正・削除していきます。具体的には表記の揺れの統一や誤記入の修正、また重複項目の解消(名寄せ)などに絞って処理していくといいでしょう。

このステップでは機械的に大量の項目をクレンジング処理し、データを大まかに整えていくことが目的です。大量の件数を処理するため、通常は専用のツールを使用して網羅的にデータの改善を行っていきます。

STEP3:手作業でのデータクレンジング

専用ツールなどを活用した機械的なクレンジングで改善しきれない項目がある場合は、目視でのクレンジング処理が必要になります。具体的には重複データや不要データの削除などが該当します。

最近のクレンジングツールは大量の企業データベースをもとに処理を行うため、ほとんど自動でクレンジングが可能ですが、社名変更や廃業、また担当者の情報が変わった場合(役職や部署名、名字の変更など)は対処しきれないケースもあります。こうした漏れを潰すために、ツールでクレンジング処理したデータも再度、人の目でデータを観察し確認を行う必要があります。

STEP4:用途に合わせたクレンジング処理

データの表記揺れや誤記、重複などの修正・削除が完了したら、次はデータの使用用途に合わせたクレンジング処理を行っていきましょう。

例えば、一口に顧客リストといっても営業部が管理するリストとマーケティング部が管理するリストでは、項目が異なるケースがあります。営業部のリストは担当者の名前やその上長となるキーパーソンの名前が、またマーケティング部のリストはその顧客の見込度や流入チャネルなどの情報が重視されているかもしれません。社内のデータ統合などで両部門のデータを統合したような場合は、当然ながら項目が一致せず、部分的にデータの欠損が生じることになります。

自社で抱えている顧客の名前を知りたいだけなら、このデータ欠損はそれほど問題にはなりません。しかし、特定の用途がある場合はこうした欠損部分をクレンジング段階で調整しておいたほうが、後々利用価値の高いデータとなるでしょう。

STEP5:データ品質のモニタリング

データクレンジングの作業は、一度行えばそれで終了するわけではありません。顧客リストや商品管理データ、従業員の実績といったデータは業務のなかで日々蓄積されるものであり、データは常に増えていきます。そのため、データは一度クレンジング作業を終えたあとも、表記揺れや誤記、重複などが生じないようにルールを定義し、それに基づいて運用されているかをモニタリングする必要があるのです。

モニタリングはデータそのもののチェックのほか、自由入力項目の排除やシステム上で統制をかけるなど、誤入力が起こらないような仕組みづくりも重要です。こうしたモニタリングを怠ってしまうと、時間が経つにつれ徐々にデータ品質が低下していくことになってしまいます。


データクレンジングの
対象項目

データクレンジングの作業では、具体的にどのような項目を修正・削除していけばいいのでしょうか。チェックすべき代表的な項目をまとめてみました。

表記の揺れ(統一されていない表記を調整)

  • 企業名:「株式会社」「(株)」「㈱」「カ)」などの法人格、全半角などの統一
  • 個人名:姓名の分離方法(全角スペース、半角スペース、セルなど)
  • 住所:郵便番号のハイフン、番地の表記(全角数字、半角数字、漢数字)など
  • 電話番号:市外局番の表記方法、ハイフンの有無など

データの欠損(部分的なデータ欠損の補完)

  • 企業や担当者名の欠損:企業名、法人格、担当者名、役職名など
  • 用途に応じた必要データの欠損:上場区分、従業員数、売上高、業種、商品の購入履歴、顧客の流入チャネルなど

誤表記(入力ミス、入力内容の誤りの修正)

  • 企業名:アルファベット、カタカナ、拗音、中黒の有無など
  • 法人格:法人格の位置、法人格の種類(株式会社、合同会社、合資会社、合名会社、NPO法人、一般社団法人、一般財団法人)など
  • 住所:市町村合併にともなう名称変更への対応など
  • 電話番号:市外局番の変更への対応など

データクレンジングで使える
Excel関数

一般的にデータクレンジングには専用のツールが使用されますが、データ量が少ない場合や人の目によるチェック作業の割合が多い場合は、汎用性が高く使いやすいExcelを使用するケースもあります。その際は、以下のような関数を活用することで、データ整理や名寄せを効率的に行うことができます。

COUNTIF:データの重複を発見する

クレンジング作業での重複チェックは、条件に合うデータの個数を指定した範囲から検索して表示するCOUNTIF関数が便利です。企業名や個人名の重複を削除するにはExcelの「重複の削除」機能もありますが、これだと同一社名だが異なる企業などの場合に対応が難しくなります。必ずCOUNTIF関数で該当データを目視でチェックするようにしましょう。

【=COUNTIF(範囲,検索条件)】

DATEDIF:期間を求める関数

取引年数や会員期間など時間を求めたい場合はDATEDIF関数が便利です。指定した開始日と終了日の期間(年数、月数、日数など)を表示してくれる関数で、営業戦略やマーケティング用のデータ整理の際に、取引年数や会員期間などを調べたい場合などに使うことができます。

【=DATEDIF(開始日,終了日,単位)】

VLOOKUP:特定データから対応する値を見つける

指定した範囲のなかから対応する値を抽出するVLOOKUP関数は、特に手作業で項目を一つひとつ修正する場面で役立ちます。顧客コードから企業名や担当者名を抽出する、商品名から原材料名や価格を抽出するなど、大量のデータを効率的に処理する際に便利です。

【=VLOOKUP(検索値, 範囲, 列番号, 検索の型)】

TRIM:不要なスペースを削除する

指定したセル内で文字列の間にあるスペースだけを残し、他のスペースを削除してくれます。個人名の整理を行う場合に、姓と名の間のスペースだけを残してそれ以外のスペースを削除したい場合などに便利です。

【=TRIM(指定セル)】

CLEAN:不要な改行を削除する

指定したセル内の文字列のなかにある改行を削除して表示してくれます。顧客情報に関するメモやアンケートの回答など、自由記入形式の項目を整理する際に便利な関数です。

【=CLEAN(指定セル)】


データの有効活用のためには、
クレンジング作業が欠かせない

データクレンジングは、データベースの品質を向上させ、経営判断や営業戦略の立案などに役立てるためには欠かせないプロセスです。目的に合わせてデータを整備し、データベースの質をあげていくことが重要といえるでしょう。

データクレンジングの重要性や実施により生まれるメリットについては、以下の記事でも詳しくご紹介しています。こちらもぜひ、あわせてご一読ください。