Pythonを使用してドキュメントをクロールしてローカルにダウンロードする方法

2年 ago

海斗, 葵

1 minute

Pythonでドキュメントをクロールしてローカルにダウンロードするために、リクエストとビューティフルスープなどのサードパーティのライブラリを使用して、Webページのクロールと解析を行います。

まず最初に、以下のコマンドでインストールできるこれらの2つのライブラリをインストールする必要があります。

pip install requests beautifulsoup4

以下のコードを利用すると、文書をクロールしてローカルにダウンロードする機能を実装できます。

import requests

# 爬取网页内容
url = "http://example.com/document.docx"
response = requests.get(url)

# 保存文档到本地
with open("document.docx", "wb") as file:
    file.write(response.content)

この例では、リクエストライブラリの get メソッドを使用して Web ページのコンテンツを取得してから、 open メソッドをバイナリ書き込みモードでファイルを開き、Web ページのコンテンツをファイルに書き込みます。

なお、上記コードはdocxドキュメントのダウンロードのみを想定しています。pdfやtxtなど別の種類のドキュメントをダウンロードする場合は、ドキュメントのタイプに応じた適切な処理が必要です。

また、BeautifulSoupライブラリを使ってWebページの内容を解析し、ドキュメントのダウンロードリンクを取得することができます。ここでの解析にはBeautifulSoupの関連メソッドを使用する必要がありますが、具体的にはWebページの構造やダウンロードリンクの場所に依存します。

お役にたつことを願っています！