[SEO対策]ブログ情報取集ツール ~随時更新予定~

こんにちは。KOUKIです。

SEO対策で自分のサイトから特定の情報を抜き出して、ファイルに保存したいことってありませんか?

Pythonで、ブログの「url」,「title」,「description」を抜き出すブログ情報取集ツールを作成しました^^

本記事は、ブログ情報取集ツールの紹介になります。

<こんな方向け>
・ 自分が運営するブログのメタ情報を自動収集したい人
・ ブログ作業の自動化方法を検討している人

免責事項

ブログ情報取集ツールは、あくまでサンプルであり、動作保証していません。また、ご使用される場合は、必ず「自分のサイト」で使ってください。このソースコードを実行して何らかの問題が発生した場合でも、責任は負いかねますので、ご了承ください。

こんな情報を集める

下記のキャプチャは、ブログ情報取集ツールの収集結果(csv)をGoogleスプレッドシートに表示させたものです。

ちょっと見えづらいと思いますが、左から「url」、「title」、「description」と収集した情報が並んで表示されています。

使用例

使用例
・title、descriptionがSEO対応になっているか調べたい
・パーマリンクが適切な設定になっているか調べたい

動作確認環境

このスクリプトを実行するには、次の前提条件があります。

Python

Pythonをローカルにインストールします。

インストール方法※超簡単です

モジュール

pythonをインストール後、下記のモジュールもインストールしてください。

サイトマップ

当ブログでは、Wordperss + Google XML Sitemapsを使ってsitemap.xmlを作成しました。
※他のサイトマップでも動くかもしれません

ブログ情報収集ツールの挙動

ブログ情報取集ツールは、私のsitemap.xmlの構造に合わせて作成しています。

「https://selfnote.work/sitemap.xml」

私のsitemap.xmlは、第一階層に次のurlが存在します。
※2019年10月現在

上記のurlのうち、「post」がついているurlの情報からブログ情報を抜き取っています。

post付きのurlをクリックしていただくと分かると思いますが、そこに投稿した記事のurlが格納されています。

サンプルコード

次のサンプルコードをDesktop上に「selfnote_webinfo.py」のファイル名で保存してください。
※ファイル名はなんでも構いません。

No. バージョン 備考
1 Ver1 新規作成

実行方法

ソースコードの以下の部分を自分のサイトマップのurlに変更してください。

コマンドライン上で、以下のコマンドを実行してください。

ソースファイルを格納した場所に、「metainfo.csv」が実行されます。

サンプルコードの作り方

サンプルコードの作り方も載せておきます。興味のある方や動作に不安がある方は、確認しておいてください。
※サンプルコードVer1の作り方です。サンプルコードは更新されますが、作り方は更新しません

まずは、「https://selfnote.sitemap.xml」から第一階層のurl一覧を取り出します。

このファイルを実行してみます。

sitemapのxmlが取得できましたね。

次にブログのurl一覧を取得します。

私の場合は、「post」の文字列が入ったurlから情報を取得します。

これでひとまず、サイト内のURL全てが取得できるようになりました。

リファクタリングします。

次に、URLからtitleとdescriptionを抜き取り、CSV形式で保存します。

合わせて知っておきたい便利ツール

おわりに

ブログのメンテナンス作業ほど、大変なことはありませんよね。

記事数が増えれば増えるほど管理が大変になっていきます。

そういう煩わしいことは、プログラムに任せて、ガンガン楽しましょう^^

ブログ収取ツールは、簡単なプログラムでしたが、将来的にはGoogle Homeと連携して、音声で情報を抜き取ってくるアプリケーションを作っていく予定です。

こういう機能が欲しい」という方がいれば、コメントください。

コメントを残す