.\" Automatically generated by Pod::Man v1.37, Pod::Parser v1.32 .\" .\" Standard preamble: .\" ======================================================================== .de Sh \" Subsection heading .br .if t .Sp .ne 5 .PP \fB\\$1\fR .PP .. .de Sp \" Vertical space (when we can't use .PP) .if t .sp .5v .if n .sp .. .de Vb \" Begin verbatim text .ft CW .nf .ne \\$1 .. .de Ve \" End verbatim text .ft R .fi .. .\" Set up some character translations and predefined strings. \*(-- will .\" give an unbreakable dash, \*(PI will give pi, \*(L" will give a left .\" double quote, and \*(R" will give a right double quote. | will give a .\" real vertical bar. \*(C+ will give a nicer C++. Capital omega is used to .\" do unbreakable dashes and therefore won't be available. \*(C` and \*(C' .\" expand to `' in nroff, nothing in troff, for use with C<>. .tr \(*W-|\(bv\*(Tr .ds C+ C\v'-.1v'\h'-1p'\s-2+\h'-1p'+\s0\v'.1v'\h'-1p' .ie n \{\ . ds -- \(*W- . ds PI pi . if (\n(.H=4u)&(1m=24u) .ds -- \(*W\h'-12u'\(*W\h'-12u'-\" diablo 10 pitch . if (\n(.H=4u)&(1m=20u) .ds -- \(*W\h'-12u'\(*W\h'-8u'-\" diablo 12 pitch . ds L" "" . ds R" "" . ds C` "" . ds C' "" 'br\} .el\{\ . ds -- \|\(em\| . ds PI \(*p . ds L" `` . ds R" '' 'br\} .\" .\" If the F register is turned on, we'll generate index entries on stderr for .\" titles (.TH), headers (.SH), subsections (.Sh), items (.Ip), and index .\" entries marked with X<> in POD. Of course, you'll have to process the .\" output yourself in some meaningful fashion. .if \nF \{\ . de IX . tm Index:\\$1\t\\n%\t"\\$2" .. . nr % 0 . rr F .\} .\" .\" For nroff, turn off justification. Always turn off hyphenation; it makes .\" way too many mistakes in technical documents. .hy 0 .if n .na .\" .\" Accent mark definitions (@(#)ms.acc 1.5 88/02/08 SMI; from UCB 4.2). .\" Fear. Run. Save yourself. No user-serviceable parts. . \" fudge factors for nroff and troff .if n \{\ . ds #H 0 . ds #V .8m . ds #F .3m . ds #[ \f1 . ds #] \fP .\} .if t \{\ . ds #H ((1u-(\\\\n(.fu%2u))*.13m) . ds #V .6m . ds #F 0 . ds #[ \& . ds #] \& .\} . \" simple accents for nroff and troff .if n \{\ . ds ' \& . ds ` \& . ds ^ \& . ds , \& . ds ~ ~ . ds / .\} .if t \{\ . ds ' \\k:\h'-(\\n(.wu*8/10-\*(#H)'\'\h"|\\n:u" . ds ` \\k:\h'-(\\n(.wu*8/10-\*(#H)'\`\h'|\\n:u' . ds ^ \\k:\h'-(\\n(.wu*10/11-\*(#H)'^\h'|\\n:u' . ds , \\k:\h'-(\\n(.wu*8/10)',\h'|\\n:u' . ds ~ \\k:\h'-(\\n(.wu-\*(#H-.1m)'~\h'|\\n:u' . ds / \\k:\h'-(\\n(.wu*8/10-\*(#H)'\z\(sl\h'|\\n:u' .\} . \" troff and (daisy-wheel) nroff accents .ds : \\k:\h'-(\\n(.wu*8/10-\*(#H+.1m+\*(#F)'\v'-\*(#V'\z.\h'.2m+\*(#F'.\h'|\\n:u'\v'\*(#V' .ds 8 \h'\*(#H'\(*b\h'-\*(#H' .ds o \\k:\h'-(\\n(.wu+\w'\(de'u-\*(#H)/2u'\v'-.3n'\*(#[\z\(de\v'.3n'\h'|\\n:u'\*(#] .ds d- \h'\*(#H'\(pd\h'-\w'~'u'\v'-.25m'\f2\(hy\fP\v'.25m'\h'-\*(#H' .ds D- D\\k:\h'-\w'D'u'\v'-.11m'\z\(hy\v'.11m'\h'|\\n:u' .ds th \*(#[\v'.3m'\s+1I\s-1\v'-.3m'\h'-(\w'I'u*2/3)'\s-1o\s+1\*(#] .ds Th \*(#[\s+2I\s-2\h'-\w'I'u*3/5'\v'-.3m'o\v'.3m'\*(#] .ds ae a\h'-(\w'a'u*4/10)'e .ds Ae A\h'-(\w'A'u*4/10)'E . \" corrections for vroff .if v .ds ~ \\k:\h'-(\\n(.wu*9/10-\*(#H)'\s-2\u~\d\s+2\h'|\\n:u' .if v .ds ^ \\k:\h'-(\\n(.wu*10/11-\*(#H)'\v'-.4m'^\v'.4m'\h'|\\n:u' . \" for low resolution devices (crt and lpr) .if \n(.H>23 .if \n(.V>19 \ \{\ . ds : e . ds 8 ss . ds o a . ds d- d\h'-1'\(ga . ds D- D\h'-1'\(hy . ds th \o'bp' . ds Th \o'LP' . ds ae ae . ds Ae AE .\} .rm #[ #] #H #V #F C .\" ======================================================================== .\" .IX Title "PERLJP 1" .TH PERLJP 1 "2006-01-07" "perl v5.8.8" "Perl Programmers Reference Guide" .SH "NAME" perljp \- 日本語 Perl ガイド .SH "説明" .IX Header "説明" Perl の世界へようこそ! .PP Perl 5.8.0 より、Unicodeサポートが大幅に強化され、その結果ラテン文字以外の文字コードのサポートが \s-1CJK\s0 (中国語、日本語、ハングル)を含めて加わりました。Unicodeは世界中の文字を一つの文字コードで扱うことを目指した標準規格であり、東から西、はたまたその間の文字(ギリシャ文字、キリール文字、アラビア文字、ヘブライ文字、ディーヴァナガーリ文字、などなど)や、これまではOSベンダーが独自に定めていた文字(PCおよびMacintosh)がすでに含まれています。 .PP Perl 自身は Unicode で動作します。Perl スクリプト内の文字列リテラルや正規表現は Unicode を前提としています。そして入出力のためには、これまで使われてきたさまざまな文字コードに対応するモジュール、「 Encode 」が標準装備されており、Unicode とこれらの文字コードの相互変換も簡単に行えるようになっています。 .PP 現時点で Encode がサポートする文字コードは以下のとおりです。 .PP .Vb 29 \& 7bit-jis AdobeStandardEncoding AdobeSymbol AdobeZdingbat \& ascii big5 big5-hkscs cp1006 \& cp1026 cp1047 cp1250 cp1251 \& cp1252 cp1253 cp1254 cp1255 \& cp1256 cp1257 cp1258 cp37 \& cp424 cp437 cp500 cp737 \& cp775 cp850 cp852 cp855 \& cp856 cp857 cp860 cp861 \& cp862 cp863 cp864 cp865 \& cp866 cp869 cp874 cp875 \& cp932 cp936 cp949 cp950 \& dingbats euc-cn euc-jp euc-kr \& gb12345-raw gb2312-raw gsm0338 hp-roman8 \& hz iso-2022-jp iso-2022-jp-1 iso-8859-1 \& iso-8859-10 iso-8859-11 iso-8859-13 iso-8859-14 \& iso-8859-15 iso-8859-16 iso-8859-2 iso-8859-3 \& iso-8859-4 iso-8859-5 iso-8859-6 iso-8859-7 \& iso-8859-8 iso-8859-9 iso-ir-165 jis0201-raw \& jis0208-raw jis0212-raw johab koi8-f \& koi8-r koi8-u ksc5601-raw MacArabic \& MacCentralEurRoman MacChineseSimp MacChineseTrad MacCroatian \& MacCyrillic MacDingbats MacFarsi MacGreek \& MacHebrew MacIcelandic MacJapanese MacKorean \& MacRoman MacRomanian MacRumanian MacSami \& MacSymbol MacThai MacTurkish MacUkrainian \& nextstep posix-bc shiftjis symbol \& UCS-2BE UCS-2LE UTF-16 UTF-16BE \& UTF-16LE UTF-32 UTF-32BE UTF-32LE \& utf8 viscii .Ve .PP (全114種類) .PP 例えば、文字コードFOOのファイルをUTF\-8に変換するには、以下のようにします。 .PP .Vb 1 \& perl -Mencoding=FOO,STDOUT,utf8 -pe1 < file.FOO > file.utf8 .Ve .PP また、Perlには、全部がPerlで書かれた文字コード変換ユーティリティ、piconvも付属しているので、以下のようにすることもできます。 .PP .Vb 2 \& piconv -f FOO -t utf8 < file.FOO > file.utf8 \& piconv -f utf8 -t FOO < file.utf8 > file.FOO .Ve .Sh "About (jcode.pl|Jcode.pm|JPerl)" .IX Subsection "About (jcode.pl|Jcode.pm|JPerl)" 5.8以前の、スクリプトがEUC\-JPであればリテラルだけは扱うことができました。また、入出力を扱うモジュールとしてはJcode.pmが( http://openlab.jp/Jcode/ )、perl4用のユーティリティとしてはjcode.pl( http://srekcah.org/jcode/ )がそれぞれ存在し、日本語の扱えるCGIでよく利用されていることを御存じの方も少なくないかと思われます。ただし、日本語による正規表現をうまく扱うことは不可能でした。 .PP 5.005以前のPerlには、日本語に特化したローカライズ版、Jperlが存在しました( http://homepage2.nifty.com/kipp/perl/jperl/index.html )。また、Mac \s-1OS\s0 9.x/Classic用のPerl、MacPerlの日本語版もMacJPerlとして存在してました。( http://world.std.com/~habilis/macjperl/ ).これらでは文字コードとしてEUC\-JPに加えShift_JISもそのまま扱うことができ、また日本語による正規表現を扱うことも可能でした。 .PP Perl5.8では、これらの機能がすべてPerl本体だけで実現できる上に、日本語のみならず上記114の文字コードをすべて、しかも同時に扱うことができます。さらに、CPANなどから新しい文字コード用のモジュールを入手することも簡単にできるようになっています。 .IP "\(bu" 4 入出力 .Sp 以下の例はいづれもShift_JISの入力をEUC\-JPに変換して出力します。 .Sp .Vb 22 \& # jcode.pl \& require "jcode.pl"; \& while(<>){ \& jcode::convert(*_, 'euc', 'sjis'); \& print; \& } \& # Jcode.pm \& use Jcode; \& while(<>){ \& print Jcode->new($_, 'sjis')->euc; \& } \& # Perl 5.8 \& use Encode; \& while(<>){ \& from_to($_, 'shiftjis', 'euc-jp'); \& print; \& } \& # Perl 5.8 - encoding を利用して \& use encoding 'euc-jp', STDIN => 'shiftjis'; \& while(<>){ \& print; \& } .Ve .IP "\(bu" 4 Jperl 互換スクリプト .Sp .Vb 1 \& いわゆる"shebang"を変更するだけで、Jperl用のscriptのほとんどは変更なしに利用可能だと思われます。 .Ve .Sp .Vb 3 \& #!/path/to/jperl \& ↓ \& #!/path/to/perl -Mencoding=euc-jp .Ve .Sp .Vb 1 \& 詳しくは perldoc encoding を参照してください。 .Ve .Sh "さらに詳しく" .IX Subsection "さらに詳しく" Perlには膨大な資料が付属しており、Perlの新機能やUnicodeサポート、そしてEncodeモジュールの使用法などが細かく網羅されています(残念ながら、ほとんど英語ではありますが)。以下のコマンドでそれらの一部を閲覧することが可能です。 .PP .Vb 3 \& perldoc perlunicode # PerlのUnicodeサポート全般 \& perldoc Encode # Encodeモジュールに関して \& perldoc Encode::JP # うち日本語文字コードに関して .Ve .Sh "Perl全般に関する \s-1URL\s0" .IX Subsection "Perl全般に関する URL" .IP "" 4 .IX Item "" Perl ホームページ (O'Reilly and Associates) .IP "" 4 .IX Item "" \&\s-1CPAN\s0 (Comprehensive Perl Archive Network) .IP "" 4 .IX Item "" Perl メーリングリスト集 .Sh "Perlの修得に役立つ \s-1URL\s0" .IX Subsection "Perlの修得に役立つ URL" .IP "" 4 .IX Item "" O'Reilly 社のPerl関連書籍(繁体字中国語) .IP "" 4 .IX Item "" O'Reilly 社のPerl関連書籍(簡体字中国語) .IP "" 4 .IX Item "" オライリー社のPerl関連書籍(日本語) .Sh "Perl ユーザーグループ" .IX Subsection "Perl ユーザーグループ" .IP "" 4 .IX Item "" 中国(中華人民共和国) .IP "" 4 .IX Item "" 日本 .IP "" 4 .IX Item "" 韓国(大韓民国) .IP "" 4 .IX Item "" 台湾(中華民国) .Sh "Unicode関連のURL" .IX Subsection "Unicode関連のURL" .IP "" 4 .IX Item "" Unicode コンソーシアム (Unicode規格の選定団体) .IP "" 4 .IX Item "" \&\s-1UTF\-8\s0 and Unicode \s-1FAQ\s0 for Unix/Linux .IP "" 4 .IX Item "" \&\s-1UTF\-8\s0 and Unicode \s-1FAQ\s0 for Unix/Linux (ハングル訳) .SH "AUTHORS" .IX Header "AUTHORS" Jarkko Hietaniemi Dan Kogai (小飼 弾)