Come si indicizza su web un pdf sotto Linux?

Per poter indicizzare i pdf sotto Linux e poterli ricercare via web con l'interfaccia htsearch, basta utilizzare il porgramma htdig in accoppiata con il parser pdf xpdf in luogo di acroread, non free.
# apt-get install htdig
# apt-get install xpdfNella configurazione del file htdig.conf inserire le sezioni:
------------------------external_parsers:
application/msword /usr/share/htdig/parse_doc.pl
application/postscript /usr/share/htdig/parse_doc.pl
application/pdf /usr/share/htdig/parse_doc.pl
debian_pdf_parser: xpdf------------------------
Per indicizzare
# htdig -c htdig.conf -s -v
Per effettuare il merge
# htmerge -c htdig.cong -vIn alternativa il più semplcei comando
# rundig -a
Verificare l'operazione avendo utilizzato la modalità verbose.Per fare un test effettuare una ricerca via web oppure usando htsearch da riga di comando;/usr/lib/cgi-bin/htsearch -c htdig.conf
-
- Login o registrati per inviare commenti
