自然言語処理における前処理、後処理
自然言語処理では各種ツールの前後でデータを変換する前処理、
表記の正規化
自然言語処理では、
Regexp::Assemble
Regexp::Assembleは、
Number::Phone::JP
Number::Phone::JPは電話番号の正規化を行う場合に使うモジュールで、
Text::Darts
Text::Dartsにはgsubというメソッドがあり、
use strict;
use warnings;
use utf8;
use Text::Darts;
my @words = qw/ キーワード/;
my $td = Text::Darts->new(@words);
my $src = "...";
my $result = $td->gsub($src, sub{
return "<keyword>$_[0]</keyword>";
});
書式変換
各ツール間の入出力形式の違いを吸収するために書式を解析して変換するような場合には、
まとめ
今回はPerlを用いた自然言語処理の基本的な部分について紹介しました。これらの道具を組み合わせることによってさらに高度な処理も可能となるので、
さて、