(ようやく)Perl始めました。
ちょっと前から入門書とかは読んだりしてたんだけど、
発売前から楽しみにしてた、
が、あまりにもわからなくて凹んだので。
やっぱプログラミングはコーディングして覚えないとね。
ちょうど記事タイトルのようなことがやりたかったこともあり、Perlで頑張ってみました。
というわけで、以下がPerl入門~サンプルコードによるPerl入門~(便利すぎ!!)を参考に作ったソースです。
ディレクトリ内htmlの英単語をカウント
ちなみに環境は、VMWare Playerでお手軽にVista上でLinux(Ubuntu) - Born Neetで入れたUbuntu。
perlやるならやっぱUnix系かな、と。(perlもcpanも元から入ってて楽だったし)
#!/usr/bin/perl
use strict;
use warnings;
my @files = glob '*.html';
my %count;
foreach my $file ( @files ) {
open( my $fh, '<', $file ) or die "Can't open $file: $!";
my $content;
{
local $/ = undef;
$content = readline $fh;
}
$content =~ s/<head>.*<\/head>|<[^>]+?>//gs;
my @words = split( /\W+/, $content );
foreach my $word ( @words ) {
if( $word ) {
$count{ lc $word }++;
}
}
}
my @sorted = sort { $count{ $b } <=> $count { $a } } keys %count;
foreach my $key ( @sorted ) {
print $key ."\t" . $count{ $key }, "\n";
}
Google Language APIで翻訳
CPAN・モジュールのお勉強を兼ねて、Google AJAX Language APIで翻訳してみる。
参考→Google AJAX Language API で翻訳する/楽
#!/usr/bin/perl
use strict;
use warnings;
use WebService::Simple;
my $api = WebService::Simple->new(
base_url => "http://ajax.googleapis.com/ajax/services/language/translate",
response_parser => "JSON",
params => {
v => '1.0',
langpair => 'en|ja',
},
);
sub translate {
my $response = $api->get({
q => shift,
});
return $response->parse_response->{ responseData }->{ translatedText };
}
print translate('test'); # 試験
これを1つ目のコードとマージして、
foreach my $key ( @sorted ) {
print $key ."\t" . translate($key) . "\t" . $count{ $key }, "\n";
sleep 1;
}
みたいにすれば英単語を数えつつ、翻訳も出来る。
(googleに怒られないように一応1秒待つようにした)
結果と微調整
結果がこちら↓
$ head -20 analyze.txt
the その 7280
quot quot 4476
a 1つの 4280
to ?へ 4120
is なる 3192
of の 3088
and および 2367
it それ 2073
that あの 1902
this この 1804
in インディアナ 1627
function 関数 1604
be 存在する 1322
can ?できる 1165
are なる 1158
for ?のために 1093
you あなた 1044
not ?でない 901
The その 897
…とここで、大文字/小文字を区別しちゃってることに気づく。
(例:theとThe)
そう何度もgoogleにリクエストを送りたくないということで、
以下のような急造スクリプトで対応。
(全部小文字にして単語数を合計)
#!/usr/bin/perl
use strict;
use warnings;
open( my $fn, '<', 'analyze.txt' ) or die '$!';
my %lower;
my %ja;
while ( my $line = readline $fn ) {
my ( $en, $ja, $c ) = split( "\t", $line );
$lower{ lc $en } += $c;
$ja{ lc $en } = $ja;
}
foreach my $word ( sort { $lower{ $b } <=> $lower{$a} } keys %lower ) {
print $word . "\t" . $ja{$word} . "\t" . $lower{$word} . "\n";
}
微調整した結果がこちら↓
ちゃんとtheとTheが合計されてる。
スクリプトには無駄が多そうだけど、初めだし、期待通り動いてるのでまぁよしとする。
$ head analyze2.txt
the その 8177
a 1つの 4499
quot quot 4476
to ?へ 4240
is なる 3198
of の 3106
and および 2439
it それ 2403
this この 2249
that あの 1944
つまづいたとこ
perlcodesampleがかなり充実してたので、コーディング自体は特に困らなかった。
一番時間かかったのはCPANのモジュールを使うところ。
以下その時のメモ。
まずは、
$ cpan
で設定。
全部Enter連打で。
Enterで駄目なところは地域・国・サーバの指定ぐらいなので、そこは適当に番号で選ぶ。
設定が終わると、プロンプトが
cpan>
になるので
cpan> install WebService::Simple
等、インストールしたいモジュール名を入れる。
あとは依存してるモジュールとかも勝手に入れてくれるので、(またもや)Enter連打で答えていく。
インストールが終了したら、
cpan> q
で終了。
とここまでは特に問題はなかった。
が、モジュールを使用したファイルを実行すると、
Can't locate WebService/Simple.pm in @INC
と怒られた。
(いろいろ苦労しつつ)結局、
$ perl -I/home/ユーザ名/.cpan/build/WebService-Simple-0.15/lib ファイル名.pl
でいけたけど…
なんか面倒くさい、本当にあってるのか?
2009/03/08 15:40 追記
やっぱ間違ってました。
perlcodesampleさんからコメントもらった(ありがとうございます!)ので改めてやり直してみると、
テストで、
# Failed test 'param is uri escaped'
# at t/01_escape.t line 16.
# got: '?param=%E7%8C%AB'
# expected: '?param='
# Looks like you failed 1 test of 2.
なんてエラーが出てた。
ダメもとで、'param is uri escaped'で検索したら、
URI::Escapeってモジュールがあったので、これだ!と思ってinstall。
sudo cpan
cpan> install URI::Escape
cpan> install WebService::Simple
無事、
perl ファイル名.pl
だけでいけるようになりました。
モジュール自体に必要なものは自動でインストールされるけど、
テストで使ってるやつはそうじゃないってことなのかな?
やっぱわからないことだらけだなー。
頑張ろーっと。
2009/03/08 16:00 追記2
インストールされた場所を確認しようとしたら、
perldoc -l WebService::Simple
You need to install the perl-doc package to use this program.
なんてエラーが出るので、
sudo aptitude install perl-doc
とかやる必要有り。
perldoc -l WebService::Simple
/usr/local/share/perl/5.8.8/WebService/Simple.pm
Ubuntu(debian)特有っぽい。よくわかんないけど。
PR