이것저것/My_Work

Desktop search engine

우담바라 2007. 9. 20. 20:31
오픈소스 데스크탑 검색엔진 관련 웹사이트들을 검색했다.

찾아본결과 아무생각없이 윈도우에서 사용하기에는....

구글 데스크탑이 젤로 좋은듯한다^^;;;

하지만...
메타트레커와, 비글도 좋다.


http://www.gnome.org/projects/tracker/
메타 트레커의 경우,
모든 파일의 메타 정보로 검색이 가능하며,
txt, pdf 등은 내부의 단어로도 검색이 가능하였으며,
지금 버젼으로는 한글검색까지도 가능하였다.
또 리눅스용 오피스로 작성된 파일역시 내부의 단어들로 검색이 가능하다.
하지만, 윈도우오피스파일(엑셀, 파워포인트 등등), 한글은 내부 단어로는 검색이 불가하였다.(오피스와 한글을 최신 버젼(2007)으로했기때문에 버전을 낮췄을 경우에는 가능할지 아닐지는 모르겠다. )


http://beagle-project.org/Main_Page
"비글"
테스트는 해본다...해본다 해놓고 결국 못해봤다..-_-;;
그러나 홈페이지 정보를 보면....이 정도 검색 가능하다고한다.
Beagle supports the following data sources:

and extracts text and metadata from the following file formats:

  • Folders
  • Office Documents
    • OpenOffice.org (sxw, sxc, sxi and more)
    • OpenDocument (odt, ods, odp)
    • Microsoft Office (doc, xls, ppt)
    • AbiWord (abw)
    • Scribus (sla)
    • Rich Text Format (rtf)
    • PDF
  • Text Documents
    • HTML (xhtml, html, htm)
    • Source code (Boo, C, C++, C#, Fortran, Java, JavaScript, Lisp, Matlab, Pascal, Perl, PHP, Python, Ruby, Scilab and Shell scripts)
    • Plain text (txt, any plain text file that isn't filed under any other category)
  • Documentation/Help Documents
    • Texinfo
    • Man pages
    • Docbook
    • Monodoc
    • Windows help files (chm)
  • Images (jpeg, png, bmp, tiff, gif, svg)
  • Audio (mp3, ogg, flac, ape, mpc, m4a, aac, tracker, amiga audio, wma)
    • m3u and pls playlists
  • Video (mpeg, asf, wmv, mng, mp4, quicktime and other formats supported by MPlayer or Totem)
  • Archive files (zip, tar, gzip, bzip2) and their contents
  • Application launchers
  • Linux packages (ebuild, rpm, dpkg)
  • Generic XSLT files

막강한듯 하다. 리눅스용이기 때문에 윈도우 사용자들에게는 좀 아쉽지만....




아래의 사이트 또한 오픈 소스이며, 리눅스용으로 제작되었으나,
일부는 윈도우즈 용으로 바이너리를 제공하였다.

몇몇개는 컴파일을 해보려했는데 잘안됬다. ㅋ


http://pinot.berlios.de/

Amberfish: http://www.etymon.com/tr.html
  GPL, C/C++, plain text, semi-structured/XML (with nested fields),
  wild-card search, phrase search, boolean queries, relevance ranking
  DRS: very easy build.
  find ~/Maildir/ -type f -name ''[0-9][0-9][0-9]*'' -print | count -b |
  af -d ~/amberfish/all-mail -iCF
  Started out really fast (70+ files/second), but between 30,000 and
  40,000 files, it slowed way down.
Lucene: http://jakarta.apache.org/lucene/docs/index.html
  Apache License, Java, plain/semi-structured documents, snowball
  stemmers, phrase search, boolean queries, relevance ranking
Managing Gigabytes (MG): http://www.cs.mu.oz.au/mg/
  GPL, C, csh, plain text, images, boolean or ranked queries
Swish-e: http://swish-e.org/
  GPL, C, plain/semi-structured documents, snowball stemmers, wild
  card search, phrase search, fuzzy search (soundex, metaphone), flex-
  ible configuration (input/output, tokenisation etc), boolean queries,
  relevance ranking, Perl bindings
  DRS: swish-e 2.4.3 made short work of indexing my mail archive, but:
  1) It gave a number of seemingly-spurious I/O errors
  2) It couldn''t find words that I''m certain it should''ve been able to
Xapian: http://www.xapian.org/
  GPL, C++, plain text, snowball stemmers, phrase search, proximity
  search, relevance feedback, wide range of boolean operators, relevance
  ranking, Perl/SWIG bindings
Zebra: http://www.indexdata.dk/zebra/
  GPL, C, structured (XML), phrase search, boolean queries, relevance
  ranking, wild-card search, Z39.50 protocoll, client-server implementa-
  ton
Zettair: http://www.seg.rmit.edu.au/zettair/
  BSD-style license, C, plain, semi-structured (TREC), phrase search,
  boolean queries, relevance ranking, summary function
  DRS: Seems to be unable to index plain text, unless you feed it plain
  text and hope it won''t conflict
  with html parsing conventions.  Indexes rapidly.  It hated dangling
  symlinks, and also errored out on a file
  that didn''t exist - presumably it existed when find listed it, but
  something probably renamed it.
  This was with zettair 0.6.1.


열심히 일이라도 하세~~!!!

바쁘게 살기!!

'이것저것 > My_Work' 카테고리의 다른 글

USB 메모리 스틱에 XPE 설치하기  (0) 2007.10.22
[MSRS] - dashboard 관련 에러 처리  (0) 2007.09.20
DLL의 모든것  (0) 2007.09.18
Application 프로그래밍시 알아두어야 할 지식들  (0) 2007.09.18
로보월드 2007  (0) 2007.09.10