오픈소스 데스크탑 검색엔진 관련 웹사이트들을 검색했다.
찾아본결과 아무생각없이 윈도우에서 사용하기에는....
구글 데스크탑이 젤로 좋은듯한다^^;;;
하지만...
메타트레커와, 비글도 좋다.
http://www.gnome.org/projects/tracker/
메타 트레커의 경우,
모든 파일의 메타 정보로 검색이 가능하며,
txt, pdf 등은 내부의 단어로도 검색이 가능하였으며,
지금 버젼으로는 한글검색까지도 가능하였다.
또 리눅스용 오피스로 작성된 파일역시 내부의 단어들로 검색이 가능하다.
하지만, 윈도우오피스파일(엑셀, 파워포인트 등등), 한글은 내부 단어로는 검색이 불가하였다.(오피스와 한글을 최신 버젼(2007)으로했기때문에 버전을 낮췄을 경우에는 가능할지 아닐지는 모르겠다. )
http://beagle-project.org/Main_Page
"비글"
테스트는 해본다...해본다 해놓고 결국 못해봤다..-_-;;
그러나 홈페이지 정보를 보면....이 정도 검색 가능하다고한다.
막강한듯 하다. 리눅스용이기 때문에 윈도우 사용자들에게는 좀 아쉽지만....
아래의 사이트 또한 오픈 소스이며, 리눅스용으로 제작되었으나,
일부는 윈도우즈 용으로 바이너리를 제공하였다.
몇몇개는 컴파일을 해보려했는데 잘안됬다. ㅋ
http://pinot.berlios.de/
Amberfish: http://www.etymon.com/tr.html
GPL, C/C++, plain text, semi-structured/XML (with nested fields),
wild-card search, phrase search, boolean queries, relevance ranking
DRS: very easy build.
find ~/Maildir/ -type f -name ''[0-9][0-9][0-9]*'' -print | count -b |
af -d ~/amberfish/all-mail -iCF
Started out really fast (70+ files/second), but between 30,000 and
40,000 files, it slowed way down.
Lucene: http://jakarta.apache.org/lucene/docs/index.html
Apache License, Java, plain/semi-structured documents, snowball
stemmers, phrase search, boolean queries, relevance ranking
Managing Gigabytes (MG): http://www.cs.mu.oz.au/mg/
GPL, C, csh, plain text, images, boolean or ranked queries
Swish-e: http://swish-e.org/
GPL, C, plain/semi-structured documents, snowball stemmers, wild
card search, phrase search, fuzzy search (soundex, metaphone), flex-
ible configuration (input/output, tokenisation etc), boolean queries,
relevance ranking, Perl bindings
DRS: swish-e 2.4.3 made short work of indexing my mail archive, but:
1) It gave a number of seemingly-spurious I/O errors
2) It couldn''t find words that I''m certain it should''ve been able to
Xapian: http://www.xapian.org/
GPL, C++, plain text, snowball stemmers, phrase search, proximity
search, relevance feedback, wide range of boolean operators, relevance
ranking, Perl/SWIG bindings
Zebra: http://www.indexdata.dk/zebra/
GPL, C, structured (XML), phrase search, boolean queries, relevance
ranking, wild-card search, Z39.50 protocoll, client-server implementa-
ton
Zettair: http://www.seg.rmit.edu.au/zettair/
BSD-style license, C, plain, semi-structured (TREC), phrase search,
boolean queries, relevance ranking, summary function
DRS: Seems to be unable to index plain text, unless you feed it plain
text and hope it won''t conflict
with html parsing conventions. Indexes rapidly. It hated dangling
symlinks, and also errored out on a file
that didn''t exist - presumably it existed when find listed it, but
something probably renamed it.
This was with zettair 0.6.1.
찾아본결과 아무생각없이 윈도우에서 사용하기에는....
구글 데스크탑이 젤로 좋은듯한다^^;;;
하지만...
메타트레커와, 비글도 좋다.
http://www.gnome.org/projects/tracker/
메타 트레커의 경우,
모든 파일의 메타 정보로 검색이 가능하며,
txt, pdf 등은 내부의 단어로도 검색이 가능하였으며,
지금 버젼으로는 한글검색까지도 가능하였다.
또 리눅스용 오피스로 작성된 파일역시 내부의 단어들로 검색이 가능하다.
하지만, 윈도우오피스파일(엑셀, 파워포인트 등등), 한글은 내부 단어로는 검색이 불가하였다.(오피스와 한글을 최신 버젼(2007)으로했기때문에 버전을 낮췄을 경우에는 가능할지 아닐지는 모르겠다. )
http://beagle-project.org/Main_Page
"비글"
테스트는 해본다...해본다 해놓고 결국 못해봤다..-_-;;
그러나 홈페이지 정보를 보면....이 정도 검색 가능하다고한다.
Beagle supports the following data sources:
- File system
- Evolution mail, calendar, and addressbook
- Thunderbird mail, news, RSS feeds, and addressbook
- Korganizer events and TODOs
- KMail mail
- KAddressbook addressbook
- Gaim and Kopete instant messaging and IRC logs
- Firefox and Epiphany web pages (as you view them, through browser extensions)
- Konqueror web pages
- Blam, Liferea and Akregator RSS feeds
- Tomboy, KNotes, and Labyrinth notes
- Konversation IRC logs
- Opera Web History
and extracts text and metadata from the following file formats:
- Folders
- Office Documents
- OpenOffice.org (sxw, sxc, sxi and more)
- OpenDocument (odt, ods, odp)
- Microsoft Office (doc, xls, ppt)
- AbiWord (abw)
- Scribus (sla)
- Rich Text Format (rtf)
- Text Documents
- HTML (xhtml, html, htm)
- Source code (Boo, C, C++, C#, Fortran, Java, JavaScript, Lisp, Matlab, Pascal, Perl, PHP, Python, Ruby, Scilab and Shell scripts)
- Plain text (txt, any plain text file that isn't filed under any other category)
- Documentation/Help Documents
- Texinfo
- Man pages
- Docbook
- Monodoc
- Windows help files (chm)
- Images (jpeg, png, bmp, tiff, gif, svg)
- Audio (mp3, ogg, flac, ape, mpc, m4a, aac, tracker, amiga audio, wma)
- m3u and pls playlists
- Video (mpeg, asf, wmv, mng, mp4, quicktime and other formats supported by MPlayer or Totem)
- Archive files (zip, tar, gzip, bzip2) and their contents
- Application launchers
- Linux packages (ebuild, rpm, dpkg)
- Generic XSLT files
막강한듯 하다. 리눅스용이기 때문에 윈도우 사용자들에게는 좀 아쉽지만....
아래의 사이트 또한 오픈 소스이며, 리눅스용으로 제작되었으나,
일부는 윈도우즈 용으로 바이너리를 제공하였다.
몇몇개는 컴파일을 해보려했는데 잘안됬다. ㅋ
http://pinot.berlios.de/
Amberfish: http://www.etymon.com/tr.html
GPL, C/C++, plain text, semi-structured/XML (with nested fields),
wild-card search, phrase search, boolean queries, relevance ranking
DRS: very easy build.
find ~/Maildir/ -type f -name ''[0-9][0-9][0-9]*'' -print | count -b |
af -d ~/amberfish/all-mail -iCF
Started out really fast (70+ files/second), but between 30,000 and
40,000 files, it slowed way down.
Lucene: http://jakarta.apache.org/lucene/docs/index.html
Apache License, Java, plain/semi-structured documents, snowball
stemmers, phrase search, boolean queries, relevance ranking
Managing Gigabytes (MG): http://www.cs.mu.oz.au/mg/
GPL, C, csh, plain text, images, boolean or ranked queries
Swish-e: http://swish-e.org/
GPL, C, plain/semi-structured documents, snowball stemmers, wild
card search, phrase search, fuzzy search (soundex, metaphone), flex-
ible configuration (input/output, tokenisation etc), boolean queries,
relevance ranking, Perl bindings
DRS: swish-e 2.4.3 made short work of indexing my mail archive, but:
1) It gave a number of seemingly-spurious I/O errors
2) It couldn''t find words that I''m certain it should''ve been able to
Xapian: http://www.xapian.org/
GPL, C++, plain text, snowball stemmers, phrase search, proximity
search, relevance feedback, wide range of boolean operators, relevance
ranking, Perl/SWIG bindings
Zebra: http://www.indexdata.dk/zebra/
GPL, C, structured (XML), phrase search, boolean queries, relevance
ranking, wild-card search, Z39.50 protocoll, client-server implementa-
ton
Zettair: http://www.seg.rmit.edu.au/zettair/
BSD-style license, C, plain, semi-structured (TREC), phrase search,
boolean queries, relevance ranking, summary function
DRS: Seems to be unable to index plain text, unless you feed it plain
text and hope it won''t conflict
with html parsing conventions. Indexes rapidly. It hated dangling
symlinks, and also errored out on a file
that didn''t exist - presumably it existed when find listed it, but
something probably renamed it.
This was with zettair 0.6.1.
열심히 일이라도 하세~~!!!
바쁘게 살기!!
'이것저것 > My_Work' 카테고리의 다른 글
USB 메모리 스틱에 XPE 설치하기 (0) | 2007.10.22 |
---|---|
[MSRS] - dashboard 관련 에러 처리 (0) | 2007.09.20 |
DLL의 모든것 (0) | 2007.09.18 |
Application 프로그래밍시 알아두어야 할 지식들 (0) | 2007.09.18 |
로보월드 2007 (0) | 2007.09.10 |