<div dir="ltr">see:<div style><a href="http://scraperwiki.org">http://scraperwiki.org</a></div><div style><a href="http://scrapy.org/">http://scrapy.org/</a><br></div><div style><br></div><div style>Once you have the raw data in a central location, it becomes much easier for someone specialized in data processing to convert it to usable form - even if it is hard to parse.  It does help to keep the metadata though...</div>

<div style><br></div><div style>Loki</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Mon, Jan 14, 2013 at 12:27 PM, Bryan Bishop <span dir="ltr"><<a href="mailto:kanzure@gmail.com" target="_blank">kanzure@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hey all,<br>
<br>
The unspoken truth of programmerhood is that many of us write spiders<br>
and scrapers. But nobody talks about it. I have done some<br>
introspection on why these initiatives fail in academic contexts, and<br>
I think a big reason is because of biting off more than one can chew.<br>
The other reason is that there's no best practices being passed<br>
around, and no reusable software distributed (for the most part).<br>
<br>
<a href="https://groups.google.com/group/science-liberation-front" target="_blank">https://groups.google.com/group/science-liberation-front</a><br>
<br>
Maybe instead of never communicating about these ideas, it would be<br>
better to write them down for ourselves. I suspect that there are many<br>
individuals that are highly motivated this week to start writing out<br>
silly curl scripts. A pile of pdfs is fairly useless to the broader<br>
community (especially without metadata, since OCR so rarely works on<br>
\tau\epsilon\tex).<br>
<br>
I'm dropping this here because for whatever reason many of the people<br>
in the hackerspace community have approached me separately over the<br>
past few days about starting projects like these. Maybe instead of<br>
duplicating effort we could figure out ways to suck less?<br>
<br>
- Bryan<br>
<a href="http://heybryan.org/" target="_blank">http://heybryan.org/</a><br>
<a href="tel:1%20512%20203%200507" value="+15122030507">1 512 203 0507</a><br>
_______________________________________________<br>
Discuss mailing list<br>
<a href="mailto:Discuss@lists.hackerspaces.org">Discuss@lists.hackerspaces.org</a><br>
<a href="http://lists.hackerspaces.org/mailman/listinfo/discuss" target="_blank">http://lists.hackerspaces.org/mailman/listinfo/discuss</a><br>
</blockquote></div><br></div>