ブログ記事
非構造化データとは
非構造化データとは
非構造化データとは、通常、画像、音声ファイルなどネイティブな内部構造を有しているものの、事前定義された形式に従って配置されていない情報を指します。事前設定された構造がないため、非構造化データはネイティブ形式で保存されます。
一般的な非構造化データは、テキスト データとマルチメディア データ(リッチ データ)の2種類です。非構造化データは、収集される情報の大部分を占めており、デジタル システムを通じて継続的に生成されるため、その量は増え続けています。
非構造化データの価値は、機械学習(ML)や人工知能(AI)などの高度な分析を使用してインサイトを獲得できることにあります。
非構造化データは、構造化データに関連付けられた統計や数値よりもはるかに多くのことを説明できます。
非構造化データについて詳しく知る(目次)
非構造化データと構造化データの比較
非構造化データの例
非構造化データのカテゴリには、さまざまなリッチ メディア(マルチメディア)とテキスト ファイルが含まれます。非構造化データの例には、次のようなものがあります。
半構造化データとは
非構造化データと同様に、半構造化データには事前設定された形式がありません。しかし、内部カテゴリ、メタ タグ、マーキングが含まれるため、非構造化データに比べて構造がある程度決まっています。内部カテゴリ、メタ タグ、マーキングを使用して、非構造化データをグループ、ペア、階層で分離および区別します。
半構造化データと非構造化データのもう一つの類似点は、リレーショナル データベースを使用して構成できないことです。半構造化データと関連データ形式の例には、次のようなものがあります。
メール
非構造化データの典型的な例の一つは、メールです。メールは、複数のカテゴリ(日付、送信者、受信者、件名など)を使用して構成されますが、本文(メッセージ)の内容は非構造化データです。メール メッセージは、フォルダー(受信トレイ、送信済み、ゴミ箱、迷惑メール、カスタム フォルダーなど)に保存されます。
Webページ
Webページは、トップレベルとサブナビゲーションを備えた階層カテゴリを使用して構成されます(例:「会社」をトップレベル、「会社概要」、「リーダーシップ」、「採用情報」をサブナビゲーションに配置)。Webページでは、HTMLの緩やかな構造を使用して非構造化データを表示します。
HTML
HTML(ハイパー テキスト マークアップ言語)は、Webページなどのデータを表示するために使用される階層言語です。HTMLの半構造特性により、注釈を使用して非構造化データ(テキストや画像など)を表示します。
半構造化文書
半構造化データで一般的に使用される言語は、CSV、XML、JSONの3つです。
CSV(コンマ区切り値)は、コンマで区切られた一連の値としてプレーン テキストを保存します。
XML(拡張可能なマークアップ言語)は、タグでマークされた要素、属性、テキストとしてデータを保存します。
JSON(JavaScriptオブジェクト表記法)は、キーと値のペアで構成されるオブジェクトとしてデータを保存するテキスト形式です。
非構造化データで構成されるソーシャル メディアの投稿は、多くの場合、CSV、XMLまたはJSONを使用して、半構造化データとして構成されます。
NoSQLデータベース
NoSQL(構造化クエリ言語、非SQLが含まれますが、それらに限定されません)データベースは、半構造化データ、非構造化データを保存するために使用される、非リレーショナル データベースです。NoSQLデータベースの一般的な種類は、ドキュメント、キーと値のペア、ワイドカラム、グラフです。
電子データ交換(EDI)
EDIは、紙のビジネス文書(例:発注書、インベントリ情報、請求書)を、電子文書伝送システムに置き換えます。標準形式(例:NSI、EDIFACT、TRADACOMS、ebXML)は、非構造化データを共有するための共通の構造を提供します。
非構造化データの用途
非構造化データは、主にビジネス インテリジェンス(BI)と分析に使用されます。ここでは、組織における非構造化データの用途例をいくつか紹介します。
カスタマー サービス
非構造化データを次の方法でマイニングし、デジタル、人間を介したカスタマー サービス対応を改善できます。
担当者が顧客の質問に対する回答を迅速に見つけられるように支援
チャットボットベースのルーティングを改善
よくある質問の特定
インフラ、製造
インフラを維持するあらゆる種類の組織は、次の方法で非構造化データ(センサー データ、システム ログなど)を使用して予測分析を行い、オペレーションを最適化できます。
機器の不具合を発生前に検出
メンテナンスが必要な領域を特定
サイバー セキュリティ システムの有効性を向上
使用状況を監視し、パターンを特定
システム クラッシュの回避
製品開発
非構造化データ分析を通じて、製品開発の指針となる、次のような貴重なインサイトを獲得できます。
製品、サービスの改善方法を特定
製品に対する顧客の関心を予測
市場動向の特定
競争の監視
法規制遵守
非構造化データの分析は、次の項目をサポートすることで法規制遵守の取り組みを促進します。
セールス、マーケティング
小売企業をはじめとした多くの組織は、次の目的のために非構造化データを分析します。
顧客ニーズの予測
ターゲットを絞ったマーケティングの実現
顧客満足度の向上
購入傾向の特定
カスタマー エクスペリエンスの向上
新規、既存顧客に対して、より適切な製品、サービスを推奨
既存顧客向けのアップセル プログラムのタイミングを決定
製品、カスタマー サービス、ブランドに関する顧客の感情を把握
非構造化データの課題
データ ガバナンスが困難
組織は、非構造化データに対して次のようなデータ ガバナンス ルールを施行するのに苦慮しています。
暗号化要件
プライバシー権の要求への対応
保存期間、削除期間
非構造化データの使用が困難
処理する前に機械判読可能な形式に変換する必要がある
使用する前にインデックスとスキーマが必要
サイバー攻撃に対する脆弱性の増大
分散した異種の非構造化データには、適切なデータ保護が欠けていることが多い
大量の非構造化データにより攻撃対象領域が拡大
法規制違反
多くの非構造化データには、機密情報が含まれているものの、適切な検証が行われていない
規制されていないデータは、さまざまな法的リスクやコンプライアンス上のリスクにつながる可能性がある
規模の拡大が困難
大量の非構造化データを処理できない
大量の非構造化データを保存するにはコストがかかる
大量の非構造化データのストレージ、処理システムを維持するには、膨大なリソースが必要
データのサイロ化
複数の宛先をまたいで分散して収集、保存された非構造化データ(例:チャット、メール、音声ログ)
複数のシステムをまたいで異種情報を保存
非構造化データがもたらす計り知れない価値
非構造化データが、最も有益な事業資産の一つであることは明白です。強力なツール、サービスを活用することで、非構造化データからインサイトを無限に獲得できます。内部生成データと外部データを組み合わせることで、組織は傾向を特定し、将来の行動を予測できるようになります。また、戦術に関するデータ主導の意思決定、戦略計画の策定に必要不可欠な情報を得ることができます。
FAQ
よくある質問
非構造化データの例は?
非構造化データとは、画像、文書、音声、デザインデータ等、従業員の日常業務で生成されるデータを意味します。これは、データベースで取り扱うことが困難なデータです。
構造化データと非構造化データの違いは?
構造化データは高度に整理され、データベースで簡単に検索できるようにフォーマットされています。非構造化データは事前に定義された形式や組織がないため、収集、処理、分析がはるかに困難です。
統合型IDセキュリティの力を解き放ちましょう。
集中制御をエンタープライズ規模で実現します。