5. Solrj API사용법 Solrj API 를 사용하기 위해서는 미리 관련 라이브러리가 추가되어 있어야 한다.(‘1.5 라이브러리 추가’ 부분 참조.) 5.1 데이터 인덱싱 5.1.1 Sample Code //CommonsHttpSolrServer객체 생성CommonsHttpSolrServer server = null; String url = "http://localhost:8080/solr/"; server = new CommonsHttpSolrServer( url ); //인덱싱 할 데이터List docs = oasisService.getAllDocument(); OasisDocument doc = new OasisDocument(); d..
4. DataImportHandler 설정 4.1 data-config.xml 데이터를 인덱싱할 때 참조할 data-config.xml파일을 생성해야 한다. 아래의 예와 같이 쿼리 및 필드 매핑 정보, Transformer 설정등을 할 수 있다. 4.2 DataImportHandler 등록 solrconfig.xml에서 태그 안에 아래의 설정을 추가한다.(설정 전에, 관련 라이브러리가 추가되어 있어야 한다. ‘1.5 라이브러리 설치’ 참조..
3. 형태소 분석기 추가 solr에서 기본으로 제공하는 분석기로는 한글 문서의 단어들을 분석하고 인덱싱 하는 데에 한계가 있다(복합명사 등). 때문에 국내에서 진행중인 오픈소스 한글 형태소 분석기인KoreanAnalyzer를 사용할 것을 권장한다.(jdk 1.5 이상 요구됨) 3.1 다운로드 ‘루씬 한글 분석기 오픈소스 카페(http://cafe.naver.com/korlucene.cafe)’ 에 가입 후최신 버전의 source를 다운로드 받고 압축을 푼다. Factory 클래스 추가를 위해 source 파일은 반드시 다운로드 받아야 한다.(koreananalyzer-src-20090000.zip) 3.2 Factory 클래스 추가 Solr Server에서 KoreanAnalyzer를 사용하기 위해서..
2. SOLR 설정 2.1 scheme.xml 편집 SOLR 홈 디렉토리 아래의 scheme.xml 파일을 편집기로 연 후, 도큐먼트의 필드정보를 설정한다. 2.1.1 filed속성 정리 - name(필수) : 필드의 이름- type(필수) : 영역에 미리 정의된 데이터 타입- indexed : 인덱싱 여부(true면 인덱싱이 되어 검색 및 정렬이 가능)- stored : true면, 데이터를 보관한다.- required : 필수로 입력되어야 하는 필드일 경우 true로 설정- compressed : true이면, gzip을 이용하여 데이터를 압축해서 저장한다. (TextField와 StrField 타입만 가능하다. )- multiValued : true이면 해당 필드는 한 ..
프로젝트 적용을 위해 조사하고 정리했던 내용 공개합니다.문제 소지가 있다면 삭제하겠습니다.하나의 프로젝트에 적용하기 위한 방법이므로, 경우에 따라 적용 방법이 이 메뉴얼과 다를 수 있습니다.1. SOLR 설치 1.1 환경 요구사항- 자바5 또는 그 이상을 필요로 한다.- 톰캣, 제티, 레진과 같은 서블릿 컨테이너가 필요하다. 1.2 다운로드 아래 경로를 통해 검색서버 SOLR 최신 버전을 다운로드한다. (현재 최신버전은 apache-solr-1.3.0) http://mirror.apache.or.kr/lucene/solr/ 1.3 기본 디렉토리 설정 SOLR를 구동시키기 위해서는 ‘SOLR 홈 디렉토리’를 설정해야 한다. 임의의 경로를 설정하지 않을 경우 디폴트 디렉토리로 JVM’s Current W..
기업검색엔진 시장분석 기업검색엔진 시장은 크게 3가지로 분류할 수 있을 것으로 생각된다. 1. 전문 기업검색엔진 시장 프로젝트의 주된 사업이 검색인 경우에 해당되며, 대표적인 Client는 도서관, 쇼핑몰, 대기업 통합검색 등이 해당된다. 주로, B2C형태를 취하는 경우가 많으며, 검색사업에만 년 1억 이상의 예산을 투입할 수 있는 경우가 많다. 또한, 별도의 검색전담팀을 운영하는 경우도 있다. Client의 주요 관심사는 '안정성', '검색속도', '검색품질', '관리의 편리성' 등이며, 해당 사업체는 검색으로 인해 매출액에 영향을 미치는 경우가 많다. 2. OEM검색 시장 프로젝트에서 검색엔진 도입이 주된 사업분야가 아닌 경우이며, 대표적인 프로젝트 형태는 자료관, KM, ECM, 그룹웨어, EP의 ..
Apache Lucene "데모 실행 및 분석"편 GoodBug http://www.jakartaproject.com/article/jakarta/112168607382100 2005-07-19 09:03:09 6,077 I. Welcom to Lucene ! Lucene 은 자바로 구현된 고성능의 풀텍스트 검색엔진입니다 Lucene 이 제공하는 API를 사용하여 강력하고 유연한 검색기능을 어플리케이션에 손쉽게 추가할 수 있습니다 Lucene은 2005년 2월에 Apache top-level 로 등급이 상승하였고 서브 프로젝트인 Nutch 또한 2005년 6월에 Apache Incubator를 졸업하였습니다 Lucene는 다음 3가지 software를 포함하고 있습니다 ① Lucene java : Luc..