「Difyを始めたけど、スクレイピングの方法がわからない…」
という方もいるのではないでしょうか?
この記事ではそのような方に向けて、Webスクレイピングの基礎知識と活用方法を詳しくご紹介します。
Difyを既に利用している方も、読んでいただけたら幸いです。

生成AI活用の教科書
生成AIの専門家として、1000人以上が参加するAIセミナーを100回以上開催した実績を持つ。国会議事堂衆議院会館や三井物産株式会社などの一流機関でのAIセミナー主催、生成AIタスクフォースへの参画、Shift AIでの講師活動など幅広く活躍。5000名を超える「人生逃げ切りサロン」のAI講座監修や、上場企業におけるAI顧問・システム開発・研修なども手がける。総フォロワー数32万人を誇るAI情報発信アカウントを運営し、過去には3つの事業のM&A経験を持つなど、AIと経営の両面で豊富な知識と経験を有している。
Webスクレイピングとは?基本と目的

WEBスクレイピングとは、Webサイトから情報を自動で収集する技術です。
AIアプリケーションの機能として、WEBと連携した機能を実装する手段の1つとして注目されています。
サイトを指定するだけで、AIがサイトの情報を抜き出し、独自の文章処理方法において管理します。
Webサイトの情報は1ページ内に情報が多く、リンクを遷移することもあるので、人の目で確認しようと思うと時間がかかります。
しかし、スクレイピングを利用することで、コンピュータにより自動で処理が完結するのです。
AIアプリケーションにおいては、スクレイピングした結果を用いて分析や提案を出力するなど活用が幅広く可能です。
目的も多様で、例えば以下のような事柄において役立っています。
- 家電販売店において、全国的な家電業界の市場調査よりトレンドを行う
- ある県の市町村別人口データより医療サービスが必要なエリアを割り出す
- 子育てパスポートの協賛店のデータよりベビー用品を販売するリストを作成する
WEBスクレイピングそのものは違法性はありません。
しかし、WEBページの情報を許可なく使用することは場合によっては違法とみなされるので留意が必要です。
スクレイピング機能の3つのメリット

Webスクレイピング機能のメリットを3つあげます。
ブラウザ上でWebの情報を調査することは、多くの労力と時間が必要です。
それが、Webスクレイピングによってどのように変わるのかを解説します。
時間を大幅に短縮できる
スクレイピングを行う最大のメリットは、作業にかかる時間が軽減できることです。
例えば、自サイトの被リンクを求めるメッセージを送付するリストを作成することを考えます。
検索サイトなどで関連するキーワードから対象サイトを洗い出し、URLをコピーなどで抜き出します。
さらにそこから、エクセルなどにペーストして一覧にする作業をするので非常に面倒です。
スクレイピング機能を活用することで、時間を削減した分、ルーチン業務に空いた時間をあてられるので効率が良くなります。
一貫性のあるデータ抽出ができる
スクレイピング機能を活用することで、決められたルールに基づいて一貫性のあるデータ抽出が可能です。
ツールにて、大量のデータを迅速にかつ高精度で処理するので品質も保証されています。
また、プロンプトで範囲を指定して作業を依頼するだけで、自動でデータが出来上がります。
例えば、同じレイアウトに入力するなどの作業をする場合、どうしても入力個所を誤ることや基準を外れたサイトを参照することは避けられません。
AIアプリケーションにおけるWEBスクレイピング機能では、単調な抽出作業をスマートに実現できます。
人の技術を拡張するAIを活用して、ツールを提供する側も利用する側もWinWinの業務を推進します。
ミスが少ない
WEBスクレイピングのメリットは、ミスが少ないことです。
言語処理のモデルの精度がとても優秀なので、抽出のみならず全ての処理がきわめて正確に行われます。
AIアプリケーションにおいて、処理を実行するとLLMの処理結果がすぐに出力されます。
プロの目で見てもミスが少なく、信頼できることは保証されているのです。
しかし、もちろん、AIの機能は完全ではありません。
結果を人の目で確認して、間違いがないかをチェックすることが必要となります。
あくまで、AIは決められたデータとアルゴリズムに基づき作動するもの、ということを認識した上で利用しましょう。
Webスクレイピングは法律的にアウト?注意しておきたい点
WEBスクレイピングは違法なのでしょうか。
WEBの情報を扱う際は権利問題が関わることが多く、そのような疑問が多く聞かれます。
この見出しではWEBスクレイピングの違法性について解説します。
絶対に遵守しなければならない法的・倫理的なルール
WEBのコンテンツにアクセスするための法律は様々です。
ネット社会が拡大するにつれて、利用、アクセスに関する規制は厳しくなるばかりです。
WEBスクレイピングにて、不特定多数のWEBサイトにアクセスする際に関わる法律をいくつかご紹介します。
不正アクセス禁止法
https://www.soumu.go.jp/main_sosiki/cybersecurity/kokumin/basic/legal/09
WEBサイトにおける不正アクセスを禁止する法律
サイバーセキュリティ基本法
https://laws.e-gov.go.jp/law/426AC1000000104
インターネット上のサイバーセキュリティの脅威を防ぎ、国民の企業、家庭の活動を守ることを定めた法律
著作権法
https://www.soumu.go.jp/main_sosiki/cybersecurity/kokumin/basic/legal/03
著作物に関する権利の定義や罰則を定めた法律
サイトの利用規約の確認
多くのサイトには、利用規約が定められています。
トップページの一番下などに、注意書きのような形で書かれていることが多いです。
規約の中にはこのサイトの内容を無断で利用、転載することを禁ずるという趣旨のものがあります。
AIアプリケーションの利用においては、プライベートでもこの規約に抵触することがないとはいえません。
サイトなどを確認するほか、プロンプトで規約の範囲内でデータ収集を行うことを指示することも1つの手段です。
DIfyでは検索させたくないURLを、robots.txtというテキストを用いて指定することもできます。
気になる方は、robots.txtの利用方法について調べた上で実践することをおすすめします。
著作権とプライバシーの尊重
著作権とプライバシーの尊重が必要です。
WEBスクレイピングで収集した情報を利用する場合について、留意する点がいくつかあります。
まず、商用利用をする場合は、他人の著作物やサイトの情報を扱う場合は許可が必要かをチェックすることです。
著作権法においては、プライベートの範囲を超えて各著作物を配布、利用することを禁止しています。
著作物には音楽、芸術作品のみならずプログラム、WEBサイトも含まれます。
これらの無形の著作物に関する規定が、政府によって定められているので事前学習が必要です。
また、個人情報を取り扱うケースも多々あるのでリーク、保護の対策をする必要があります。
適正に収集を行い、流出することのないように管理することが大事です。
DifyでWebスクレイピングを行う方法は主に2つ
Difyは、Webスクレイピングの技術を利用できるアプリケーションです。
具体的にスクレイピングを組み込む方法は2つあります。
それぞれ、具体的な設定の方法を解説します。
Firecrawlを使用してナレッジベースと同期する方法
Difyのナレッジには、Firecrawlの機能がデフォルトでついています。
Firecrawlを利用するには、APIキーを事前に取得してつなげます。
Firecrawlのサイトから、メールアドレスなどを登録してユーザー登録をすると、APIキーが使用可能です。

以下の手順でナレッジベースにFirecrawlの適用の手続きをします。

以下の項目を設定します
制限
読み込むページ数
最大深度
スクレイピングする階層
パスを除外する
正規表現を利用してパスを除外する
パスのみを参照する
正規表現を利用してパスのみを参照する

これで、ナレッジベースにWEBページが登録されました。
ワークフローでWeb Scraperを使用する方法
ワークフローにてWebScraperを実装する方法をお伝えします。
今回は、サイトをおすすめするユーザー層を考えるワークフローとします。


ワークフロー全体の作成方法は後述します。
- URL‥スクレイピングを行うサイトのURL(変数に設定も可能)
- USER_AGENT‥対象のブラウザを認識する
- WHETERH TO GENERATE SUMMARY‥要約を自動生成するかどうか
- 出力変数
- text‥テキスト形式の出力結果
- file‥ファイル形式の出力結果
- json‥json形式の出力結果
- 失敗時再試行
- 例外処理
出力データは、3通りの形式が用意されているので、これらを用いて次のLLMのセクションに受け渡しを行います。
ワークフローにおいてWebScraperを利用する利点は、設定項目が少なく、ノーコードで完結することです。
また、Webページ全体をざっとチェックしてくれるので人の目による作業よりも簡単です。
知りたい情報をサクッと調べられるので、業務だけでなくプライベートでも活用できます。
自社サイトの見直しや、競合サイトの分析などにも利用できます。
ワークフローの作り方については以下の記事で詳しく解説していますので、ぜひご覧ください。

実際にスクレイピングしてみよう!
前の見出しでお伝えしたように、スクレイピングの機能をワークフローで実装しました。
流れとしては、
- 入力欄に調べたいサイトのURLを入力
- WebScraperでスクレイピング
- LLMにて調査
- 結果を出力
という手順とします。
アプリケーション全体の構築手順を記します。

URLなので、最長文字数は長めにしておくことをおすすめします。


コンテキストに、変数を入力してプロンプトにて具体的な指示内容に変数を含める。
例として次のように箇条書きで書きます。
1.サイトから、このサイトを閲覧するユーザー層を予想する
2.具体的に性別、年齢層、趣向、サイトを閲覧する状況を明記する
3.例として以下のような形で答えを出力してください
このサイトを閲覧するユーザーは3〜40代の女性で旅行に興味があり家族で長期休暇や週末に旅行をすることを考えている主婦と考えられる
出力変数をLLMの結果の変数とする。
一通りワークフローができたら、テスト試行をしてみましょう。


ノードごとの設定画面の一番上の▷のアイコンを押下すると、そのノード単位でのテストができます。
Difyを用いたスクレイピングの活用事例
DifyのWEBスクレイピングを利用した活用事例を4つ挙げます。
ナレッジベース構築とRAG
WEBサイトの情報から、ナレッジベースを構築することが可能です。
例えば、ニュースや自社製品のマニュアルや取扱製品一覧を扱うために、WEB上の最新情報が必要な場合を考えます。
プロンプトにてWEBの情報を入力してもいいですが、プロンプトが冗長になって効率がよくありません。
そこで、該当するWEBサイト群をナレッジベースに登録して、定期的に情報をスクレイピングします。
ナレッジをもとに、LLMが情報を検索、整理してアプリケーションにて必要な処理を実行してくれます。
ナレッジに直接URLを登録するだけで、自動でスクレイピングが実現するのが、Difyのスクレイピングの特徴です。
市場・競合調査の自動化
アプリケーションにて、インターネット上の情報が欲しいケースを想定します。
特定の市場や分野においての総合的な情報を必要とする場合も、スクレイピングを活用できます。
情報を抽出することで、業界内でのトレンド、新規参入、自社の順位付けがわかり戦略を練るヒントとなります。
競争社会においては、業界研究は生き残りに欠かせません。
スクレイピングを利用して、スマートに市場・競合調査を行うことをおすすめします。
営業リスト・リード情報の事前調査
営業リストやリード情報の調査にスクレイピングを利用して営業活動に役立てます。
関連する団体の会員リストやセミナーの参加者一覧などのWEBページよりそれぞれの企業や連絡先を抽出します。
また、メールアドレスや電話番号などを含めて整理してくれるので管理も万全です。
また、既存の企業だけでなく営業先の新たな開拓もWEBより探索が可能です。
ルーチン業務にプラスアルファの効率をもたらしてくれるのがAI機能の魅力です。
自社の営業活動にぜひ導入を推奨します。
レビュー分析
商品やサービスのレビューを分析することも可能です。
商品の販売サイトや店の口コミなどは何十、何百というユーザーによって書かれており、それらをチェックするのは手間がかかります。
そんな時に、WEBスクレイピングを利用することで、レビューの総合的な分析、ユーザーの感想をまとめて把握できます。
さらに、そこからサービスの長所、短所を抜き出して、今後の戦略の提案を得ることも可能です。
気づかなかったユーザーの意向を発見するチャンスが、WEBスクレイピングによって実現します。
まとめ
ここまで、DifyでのWebスクレイピングについて解説してきました。
Difyを利用してWebスクレイピングを利用することで、効率的に業務を進められます。
また、ビジネスだけでなく、プライベートにおいても大いに活用すると考えられています。
ぜひ、Webスクレイピングの使い方をマスターして、活用しましょう。