CorpusBuilder

public class CorpusBuilder

코퍼스로부터 모델 생성 시 필요한 데이터 생성 생성되는 데이터는 아래와 같음 - 단어 사전(word dictionary) - 문법(grammar) - 기분석 사전(full word-phrase dictionary) - 불규칙 사전(irregular dictionary)

Author: Junsoo Shin

Constructors

CorpusBuilder

public CorpusBuilder()

Methods

appendUserDic

public void appendUserDic(String filename)

filename에 해당하는 사용자 사전을 추가합니다.

사용자 사전은 코퍼스 빌드 시 함께 빌드됩니다.

Parameters:
  • filename – 사용자 사전 경로

appendUserDicPath

public void appendUserDicPath(String path, String suffix)

path 밑에 있는 모든 파일 중 확장자가 suffix로 끝나는 파일들만 사용자 사전으로 추가합니다.

추가된 사용자 사전들은 코퍼스 빌드 시 함께 빌드됩니다.

Parameters:
  • path – 사용자 사전들이 포함된 최상위 디렉토리 경로
  • suffix – 사용자 사전의 파일확장자

build

public void build(String filename)

filename에 해당하는 파일을 빌드합니다.

Parameters:
  • filename – 빌드 대상 파일 경로

buildPath

public void buildPath(String corporaPath)

coporaPath 밑에 있는 모든 파일을 빌드합니다.

모든 서브 디렉토리에 있는 파일들도 빌드됩니다.

Parameters:
  • corporaPath – 빌드 대상 파일들이 포함된 최상위 디렉토리 경로

buildPath

public void buildPath(String corporaPath, String suffix)

coporaPath 밑에 있는 모든 파일 중 파일 확장자가 suffix로 끝나는 파일들만 빌드합니다.

모든 서브 디렉토리에 있는 파일들도 빌드됩낟.

Parameters:
  • corporaPath – 빌드 대상 파일들이 포함된 최상위 디렉토리 경로
  • suffix – 빌드 대상 파일확장자

load

public void load(String loadPath)

save

public void save(String savePathName)

빌드한 코퍼스를 savePathName 디렉토리에 저장합니다.

savePathName 디렉토리에는 dic.irregular, dic.word, grammar.in 파일이 저장됩니다.

Parameters:
  • savePathName – 빌드 데이터가 저장될 디렉토리

setExclusiveIrrRule

public void setExclusiveIrrRule(String filename)