-
[Perl] zapisywanie postepow pajaka internetowego
Witam, powoli sie przymierzam do napisania pajaka internetowego w perlu. Mniej wiecej mam juz opracowany schemat dzialania, mam tylko kilka nie dajacych mi spokoju pytan.
1. teraz tak to sobie obmyslilem ze bede mial kilka skryptow, kazdy z nich bedzie zajmowal sie swoja czescia przetwarzania danych, kazdy z nich bede mogl uruchamiac w roznych odstepach czasu, czy to ma sens ? czy nie lepiej i bardziej "profesjonalnie" bedzie wszystko zawrzec w jednym kodzie ?
2. zapisywanie wynikow, chcialbym aby niektore skrypty zapisywaly wyniki w postaci odwiedzonych / odfiltrowanych url a inne skrypty w postaci textu, zastanawiam sie jaki sposob bedzie najlepszy, czy po prostu zapisywac otrzymane dane w pliku txt a pozniej w kolejnym skrypcie otwierac go i przetwarzac zawarte w nim dane linijka po linijce? czy tez lepiej bedzie caly plik na poczatku danego skryptu wrzucic w tablice ? a moze lepiej bedzie juz od samego poczatku wyniki zapisywac w bazie danych np mysql ? - zastrzegam ze ma to byc prosty pajak przechodzadzy po forum
Nie mam zadnego doswiadczenia z perlem, poza przeczytaniem ksiazki 100 sposobów na tworzenie robotów sieciowych, planuje raczej zlepic kod z roznych skryptow + samemu dopisac brakujace funkcje.
Zamierzam korzystac z WWW::Mechanize,HTML::TokeParser,HTML::TreeBulider,
-
1. nie ma znaczenia... popatrz jak sie robi moduly i zapisz to so ma sens w osobnych modulach - szczerze mowiac calosc trafi pewnie do jednego modulu ![Smile](images/smilies/smile.png)
2. zalezy co robisz... jesli scraper do forum to pewnie do jakiejs bazy (niekoniecznie sql)
Ja uzywam WWW::Mechanize glownie i dziala cudownie...
Zasady Postowania
- Nie możesz zakładać nowych tematów
- Nie możesz pisać wiadomości
- Nie możesz dodawać załączników
- Nie możesz edytować swoich postów
-
Forum Rules