Web Scraper - chrome spraudnis datu ieguvei no tīmekļa vietnēm

61 views
Skip to first unread message

Mārtiņš Balodis

unread,
Nov 25, 2013, 10:19:16 AM11/25/13
to opend...@googlegroups.com
Sveiki.
Pirms kāda laika rakstīju šeit par chrome spraudni, ko izstrādāju. Tagad tas jau ir pieejams chrome spraudņu katalogā. Ar šo spraudni tīmekļa vietnēs var atzīmēt kādas saites tam ir jāatvēr un kādi dati ir jāsavāc. Iegūtos datus var glabāt pārlūkprogrammā vai atsevišķā CouchDB datubāze (ieteicams, ja dati pārsniedz 20k ierakstu). Kā arī datus var eksportēt CSV formātā. Spraudnis un demo video ir pieejams šeit:

Gadījumā, ja spraudnis nestrādā kā vajadzētu, tad problēmas aprakstu kopā ar eksportētu "sitemap" var iesūtīt šeit:
https://github.com/martinsbalodis/web-scraper-chrome-extension/issues


Mārtiņš

Jānis Ķengurs

unread,
Sep 30, 2014, 12:26:00 AM9/30/14
to opend...@googlegroups.com
Nevaru noskrāpēt http://www.bti.gov.lv/lat/barintiesas/barintiesu_adreses_/
Ja pareizi saprotu tad tāpēc ka admins tai lapai liek datus WYSIWYG editorā kā textu
Varbūt var kāds palīdzēt tad noskrāpēt vai iedot citu pamācību ar citiem rīkiem?
Vai idejas kā piedabūt viņus sākt vadīt datus lapā ar datu atdalīšanu div tagos vai kā viņš atlasa datus? No ģenerētiem datiem šis ideāli strādā.
scrape.JPG

Mārtiņš Balodis

unread,
Sep 30, 2014, 4:55:56 AM9/30/14
to opend...@googlegroups.com
Sveiks.
Jā, izskatās, ka dati ir sakopēti caur WYSIWYG. Šādās situācijās parasti neviens neko daudz nevar izdarīt. Labākais risinājums varētu būt izmantojot, HTML selektoru, kas paņemtu visas adreses no vienas lapas, un tad tās parsēt lokāli. Nedaudz vienkār'āks risinājums, bet ar iespējamām kļūdām, būtu izmantot šādu css slektoru adrešu atdalīšanai:
.text > p:contains('adrese')

--
You received this message because you are subscribed to a topic in the Google Groups "Open Data - Latvia" group.
To unsubscribe from this topic, visit https://groups.google.com/d/topic/opendata_lv/YJT64CPfehM/unsubscribe.
To unsubscribe from this group and all its topics, send an email to opendata_lv...@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

Jānis Ķengurs

unread,
Sep 30, 2014, 7:47:07 PM9/30/14
to opend...@googlegroups.com
Tāpat paņem visu P ar adresi. Vajag tikai pēc BR adresi līz nākamajam BR. Un kad sākas tel tad līz regex līnijas beigām.

Jānis Ķengurs

unread,
Oct 26, 2014, 10:00:58 PM10/26/14
to opend...@googlegroups.com
Kā var paņemt dropdown listes linku? Lapa ceļo no dropdowna.

Jānis Ķengurs

unread,
Oct 26, 2014, 10:01:06 PM10/26/14
to opend...@googlegroups.com

Mārtiņš Balodis

unread,
Oct 27, 2014, 4:23:30 AM10/27/14
to opend...@googlegroups.com
Sveiks, Dropdownus un citus formu elementus pašlaik neatbalstu. Dropdowniem gan parasti sanāk atrast alternatīvu. Arī šājā gadījumā izskatās, ka saitē uz lapu var norādīt gadu kā parametru. Vietā, kur jānorāda sākuma saite vari norādīt apgabalu.

saite ar gadu:


dokumentācija par vairākām starta saitēm:
http://webscraper.io/documentation#scraping-a-site
Reply all
Reply to author
Forward
0 new messages