イベントログのサポートされるデータ形式

データアップロードのファイルサポート

ProcessMindはイベントログのアップロードに以下のファイル形式をサポートしています。

  • XLS: 古くからあるExcel形式で、多くのシステムでまだサポートされています。
  • XLSX: 最も一般的で最新のExcelスプレッドシート形式。
  • XLSB: 読み込みが速く、ファイルサイズが小さいバイナリExcel形式。大規模なイベントログの高速処理にはXLSBを推奨します。
  • CSV: カンマ区切り値ファイル、表形式データの保存に一般的なテキスト形式です。
  • TSV: タブ区切り値ファイルで、CSVに似ていますが、列を分けるためにタブ文字が使用されます。
  • TXT: プレーンテキストファイルで、カンマ、タブ、セミコロンなどの区切り文字を使用してデータを構造化します。

ファイル構造の一般要件

ProcessMind内でのプロセスマイニングを成功させるために、アップロードされるファイルがExcel形式(XLS, XLSX, XLSB)やテキスト形式(CSV, TSV, TXT)のいずれであっても、特定の構造ガイドラインを遵守する必要があります。これにより、アプリがデータを正しく解釈し、正確な分析を実行できます。

1. ヘッダ行

  • ファイルはヘッダ行で始めなければなりません。Excelファイルならセル A1、CSV, TSV, TXTファイルなら行 1に位置するべきです。ヘッダーは各列のデータタイプを明確に示す必要があります(例:「Case ID」、「Activity」、「Timestamp」)。
  • CSV、TSV、TXT形式の場合、区切り文字と引用符は自動検出されるため、手動で設定する必要はありません。

2. 最低限の属性セット

プロセスマイニングイベントログ構造をサポートするために、ファイルには最低限以下の属性(列)を含む必要があります。

  • Case ID: この列は各プロセス インスタンス(またはケース)を一意に識別します。同じプロセスインスタンスに対応する全ての行は同じ Case ID を持つ必要があります。
  • Activity: 記録されている特定の活動またはイベントを示す列(例:「Order Created」、「Payment Processed」)。
  • Timestamp: 各アクティビティには、イベントが発生した正確な時間または日付を示すタイムスタンプが必要です。
    • 注意: タイムスタンプ形式は可能な限り自動検出されます。yyyy-MM-dd HH:mm:ssMM/dd/yyyy などの一般的な形式が自動的に認識されます。
  • 任意の属性: 分析強化のため、以下のような追加の列を含めることができます。
    • Resource: 活動を行った人を識別します(例:ユーザー、部門)。
    • Cost: 活動に関連するコスト。
    • その他のカスタムデータ: 必要な列が存在する限り、特定のプロセスに関連するカスタムフィールドを追加可能です。

3. データフォーマット

  • すべての列でデータが一貫してフォーマットされていることを確認してください。
    • タイムスタンプは標準的で認識可能な形式(例:yyyy-MM-dd HH:mm:ss)であるべきですが、異なる場合でもProcessMindが日付形式を自動検出します。
    • データエントリ間に空白行を避けることで、インポートプロセスの中断を防ぎます。
    • 数値データ(例:コスト、期間)はExcelでは数値としてフォーマットし、テキストベースのファイル(CSV, TSV, TXT)では正しくフォーマットされていることを確認します。
  • CSV、TSV、TXT形式では、ProcessMindが区切り文字(カンマ、タブ、セミコロンなど)を自動検出し、引用されたテキストを処理します。これによりファイルのアップロードがシームレスになります。

4. シート選択(Excelファイルのみ)

  • ProcessMindはExcelファイル(XLS, XLSX, XLSB)の最初のシートからデータを自動的に処理します。シート名に関係なく、必要なイベントログデータが最初のシートに配置されていることを確認してください。追加のシートはインポート中に考慮されません。

5. Tips

パフォーマンステクニック: 処理速度向上にXLSB形式を使用

ProcessMindではすべてのサポート形式でアップロードと処理が可能ですが、ExcelファイルにはXLSB形式を強く推奨します。XLSB形式はExcelファイルをバイナリ形式で保存し、特に大規模データセットでは大幅なパフォーマンス向上を提供します。これは、XLSまたはXLSX形式と比較して読み込み時間が短縮され、処理が迅速になります。