使用 Java 进行 NEologd 的预处理 neologdn-java

3 年 ago

文, 翔

1 minute

嗨…†

在 @ragion 的协助下，我们终于发布了 NEologd 的 Java 前处理模块 neologd-java！

这是什么？

即便在辞書数据中冗余并吸收异表达方式，也存在着一定的限度。
在生成辞書数据时，我们将以下规范化处理应用于所有解析文本，这样一来，将以下规范化处理应用于目标文本后，与辞書中的词匹配会更容易。

正如上述页面所述，在使用MeCab进行解析之前进行规范化处理（预处理）非常重要。因此，我创建了一个在Java中使用NEologd的预处理模块neologd-java。

怎么使用？

如果是Maven的情况

由于Maven Central已注册，因此将以下内容添加到pom.xml中。

    <dependency>
      <groupId>io.github.ikegami-yukino</groupId>
      <artifactId>neologdn</artifactId>
      <version>0.0.1</version>
    </dependency>

并且，

package yukinoi.neologdn_example;
import io.github.ikegamiyukino.neologdn.NeologdNormalizer;


/**
 * neologdn-example
 *
 */
public class App
{
    public static void main(String[] args)
    {
        NeologdNormalizer normalizer = new NeologdNormalizer();
        String text = "　　　ＰＲＭＬ　　副　読　本　　　";
        String normalizedText = normalizer.normalize(text);
        System.out.println(normalizedText);
    }
}

像这样使用。

我想要做出贡献！

我正在以下的GitHub存储库中开发：
https://github.com/ikegami-yukino/neologdn-java

欢迎贡献！

#技术文章