2021-04-12 Python で sitemap.xml から更新されたページを調べる
sitemap.xml を参照して更新されているページの情報にアクセスするプログラムを作る必要があり久しぶりに Python 使った気がする。
xml のパースには lxml を使った。lxml を使ったのは今回が初めてです。 https://lxml.de/
一通り動くようになったので、まあ良かった。
import requests from lxml import etree from datetime import datetime as dt from datetime import date, timedelta xmlDict = {} currentDate = '2021-04-12' num = 0 r = requests.get("http://xxxxxxxxxxxx/sitemap.xml") root = etree.fromstring(r.content) for sitemap in root: children = sitemap.getchildren() if children[1].text > currentDate: xmlDict[children[0].text] = children[1].text print('## Updated after: ', currentDate) print('|URL|Updated date|') print('|----|----|') for k in xmlDict: # print( 'updated urls : ' , k) r2 = requests.get(k) root2 = etree.fromstring(r2.content) for u in root2: if u[1].text > currentDate: num += 1 ....... 略 print('Total: ', num)
Python はライブラリも充実しているし ちょっとした事をする為のプログラムが簡単に出来てよい。
日々の記録
天候
晴れ
昼食
パスタ
健康
睡眠時間
6 時間 13 分
歩数
1378 歩