https://suche.transparenz.hamburg.de.EXAMPLE.COM/api/action/resource_search?query=url: (“.EXAMPLE.COM
” entfernen) liefert aktuell rund 200 Megabyte an JSON, da sollten alle Resourcen drin stecken oder zumindest die, die tatsächlich einen Datensatz referenzieren
Um es in normalen Editoren besser handlebar zu machen, hilft json_pp
:
cat resource_search\?query=url\: | json_pp > url\:.json_pp
Und die URLs bekommt man (wie in meinem alten Post schon) mit
grep '"url"' url\:.json_pp | grep -Eo 'http.*"' | sed 's#"$##' > urls
Oder die Gesamtgröße via paste | bc
:
$ grep '"file_size"' url\:.json_pp | grep -Po "\d+" | paste -s -d+ - | bc
3751796542539
Rund 4 Terabyte? Schauen wir mal.
Hi,
könnte man aus den Daten nicht eine Karte erzeugen. Oder gibt es keine Georeferenzierung, keine Adresse o.ä. in den Daten?
Ich denke da an sowas wie https://hierbautberlin.de
viele Grüße,
Corninski
Moin!
Kommt sehr auf die Daten drauf an. Manche sind mit einer Georeferenzierung, andere nicht, wieder andere sind einfach Schrott. :D
Hier hatte ich z. B. versucht die Baugenehmigungen auf eine Karte zu bringen: https://hannes.enjoys.it/blog/2020/09/interaktive-karte-der-baugenehmigungen-in-hamburg/