Takuya71 のぶろぐ

外資系ソフトウェア会社で働いてます、認定スクラムマスター

2021-04-12 Python で sitemap.xml から更新されたページを調べる

sitemap.xml を参照して更新されているページの情報にアクセスするプログラムを作る必要があり久しぶりに Python 使った気がする。

xml のパースには lxml を使った。lxml を使ったのは今回が初めてです。 https://lxml.de/

一通り動くようになったので、まあ良かった。

import requests
from lxml import etree
from datetime import datetime as dt
from datetime import date, timedelta

xmlDict = {}
currentDate = '2021-04-12'
num = 0


r = requests.get("http://xxxxxxxxxxxx/sitemap.xml")

root = etree.fromstring(r.content)
for sitemap in root:
    children = sitemap.getchildren()
    if children[1].text > currentDate:
        xmlDict[children[0].text] = children[1].text

print('## Updated after: ', currentDate)
print('|URL|Updated date|')
print('|----|----|')

for k in xmlDict:
    # print( 'updated urls : ' , k)
    r2 = requests.get(k)
    root2 = etree.fromstring(r2.content)

    for u in root2:
        if u[1].text > currentDate:
            num += 1
           ....... 略

print('Total: ', num)

Python はライブラリも充実しているし ちょっとした事をする為のプログラムが簡単に出来てよい。

日々の記録

天候

晴れ

昼食

パスタ

健康
睡眠時間

6 時間 13 分

歩数

1378 歩