Datei Indexer
Hersteller: Ulrich Schmidt
Kategorie: Suchfunktionen
Erste Veröffentlichung: 12.08.2017
Letzte Änderung: 28.01.2019
Stellt einen Indexer für Dateien bereit.
Nach Installation dieses Moduls können Dateien im ordner ULICMS_ROOT/content/files durchsucht werden.
Aktuell werden die folgenden Dateiformate unterstützt:
- Portable Document Format (*.pdf)
- Word-Dokumente (*.doc)
- Office Open XML (Word 2010, *.docx)
- Richtext Format (*.rtf)
- Textdateien ohne Formatierungen (*.txt)
- HTML (*.html)
- LaTex (*.tex)
- PostScript (*.ps)
- Device independent file format (*.dvi)
Abhängigkeiten
Die folgenden Abhängigkeiten müssen vor der Installation dieses Moduls installiert werden:
- pdf2text
- rtflex (für ix_files Version 1.0)
- rtf2text (für ix_files ab Version 1.1)
- html2text (ab Version 1.5)
- Antiword (optional)
- doc2txt (optional)
- detex (optional)
- pstotext (optional)
- dvitype (optional) (nur für ix_files Version 1.6)
- catdvi (optional) (für ix_files ab Version 1.7)
Antiword
Damit Word Dateien (*.doc) durchsucht werden können, muss das Kommandozeilenprogramm antiword unter /usr/bin/antiword installiert sein. Dies ist der Standardpfad für den Befehl in den meisten Linux-Distributionen. Falls notwendig, kann der Pfad jedoch über den Filter "path_to_antiword" angepasst werden.
docx2txt
Damit Office Open XML Dateien (*.docx) durchsucht werden können, muss das Kommandozeilenprogramm docx2txt unter /usr/bin/docx2txt installiert sein. Dies ist der Standardpfad für den Befehl in den meisten Linux-Distributionen. Falls notwendig, kann der Pfad jedoch über den Filter "path_to_docx2txt" angepasst werden.
detex
Damit LaTex Dateien (*.tex) durchsucht werden können, muss das Kommandozeilenprogramm detex unter /usr/bin/detex installiert sein.
Dies ist der Standardpfad für den Befehl in den meisten Linux-Distributionen. Falls notwendig, kann der Pfad jedoch über den Filter "path_to_detex" angepasst werden. Der detex Befehl wird von den meisten LaTex Distributionen bereit gestellt.
pstotext
Damit Postscript-Dateien (*.ps) durchsucht werden können, muss das Kommandozeilenprogramm pstotext unter /usr/bin/pstotext installiert sein.
Dies ist der Standardpfad für den Befehl in den meisten Linux-Distributionen. Falls notwendig, kann der Pfad jedoch über den Filter "path_to_pstotext" angepasst werden. Der pstotext Befehl wird von den meisten LaTex Distributionen bereit gestellt.
dvitype
Dieser Abschnitt gilt nur für ix_files Version 1.6 und älter.
Damit Datei im Device independent file format (*.dvi) durchsucht werden können, muss das Kommandozeilenprogramm dvitype unter /usr/bin/dvitype installiert sein. Dies ist der Standardpfad für den Befehl in den meisten Linux-Distributionen. Falls notwendig, kann der Pfad jedoch über den Filter "path_to_dvitype" angepasst werden.
catdvi
Dieser Abschnitt gilt nur für ix_files ab Version 1.7.
Damit Datei im Device independent file format (*.dvi) durchsucht werden können, muss das Kommandozeilenprogramm catdvi unter /usr/bin/catdvi installiert sein. Dies ist der Standardpfad für den Befehl in den meisten Linux-Distributionen. Falls notwendig, kann der Pfad jedoch über den Filter "path_to_catdvi" angepasst werden.
Changelog
Neu in Version 1.8
- Icon hinzugefügt
Neu in Version 1.7
- Nutze nun den catdvi Befehl statt dvitype um *.dvi Dateien zu indizieren
Neu in Version 1.6
- Das Device independent file format (*.dvi) wird nun unterstützt.
Neu in Version 1.5
- Neue Formate werden unterstützt
- *.docx
- *.tex
- *.ps
- *.html
- Geringerer Speicherbedarf der fulltext Tabelle
Neu in Version 1.1
-
Es werden nur Datensätze für tatsächlich verwendete Sprachen erzeugt
-
Es wird nun rtf2text statt rtflex als Converter verwendet
-
Durchsuchbare Dateitypen nun einstellbar