CTAをご利用いただきありがとうございます。当サイトは、分割精度向上のために分割データの解析を行っております。解析データは研究目的並びに当サイトをより使いやすく改善するために使用するものであり、それ以外の目的では使用いたしません。以上に同意の上CTAをご利用ください。なお現在このプログラムで分割できる精度は教科書中国語レベルです。今後運用サーバーの見直しや、搭載しているプログラムをバージョンアップさせていてくことでより精度を高めることはできますが現時点はベータ版ということでご了承の上ご利用ください。
中国語を単語に分割、声調符号付きのピンインに変換できます。
「分割修正」をクリックするとウィンドウが開き、分割の修正ができます。このモードでは表示された文字をクリックするとその文字の後ろが分割され,"/"をクリックすると前後の文字が結合されます。
「漢字+ピンイン」表示では、多音字の修正が行えます。複数の読み方がある漢字のピンインは青色で表示されます。クリックすると次の候補が表示され変更することができます。
「標準辞書」で分割した時だけ、「照合リスト」が表示されます。照合リストを選択するとそれぞれのリストの単語レベルに応じて単語が色分けされます。現在利用可能な照合リストは、旧HSKと新HSK、中国語教育学会が発行する『中国語初級段階学習指導ガイドライン』「学習語彙表」、中国語検定試験の出題傾向を分析した単語リスト(準備中)の4つになります。
分割した単語は全てに辞書へのリンクが埋め込まれており、クリックすると「CHLANG中国語辞書」に移動します。もし「CHLANG中国語辞書」に単語の登録がない場合は、他の複数の辞書や検索サイトへのリンク一覧が表示されます。
分割した中国語テキストで使われている、単語の総数(のべ語数)と重複を削除した単語の総数(異なり語数)を計算して表示します。(※再分割後の統計は準備中)
このプログラムは形態素解析用の辞書を使用して文章を分析、分割しています。ただし1つの形態素解析辞書ではすべての文章を分析することができないため、分析対象に応じて複数の辞書を使い分けられるようにしています。現在「標準辞書」「繁体字辞書」「近世語辞書」の3つの辞書を設置し、選択できるようになっていますが、繁体字辞書と近世語辞書についてはまだ分析をしきれるだけのデータが集まっていません。今後も精度向上のためにサンプルデータを集めていきますが、現状ではテスト運用ということでご利用ください。なお、サーバースペックの関係上、標準辞書については固有名詞の登録数をかなり制限しております。そのため、固有名詞が多く含まれる文章を分割する場合には、意図しない分割結果が得られることが多いので、利用の際にはご注意ください。これらの点についてはテスト運用を経た後に検討したいと考えております。
基本的な分割とピンイン変換の流れ
1.形態素解析システムを使って文章を解析し、単語に分割してピンインを付与します。
※分割辞書登録されている固有名詞の頭文字は大文字になります。
※分割はMeCab由来の辞書フォーマットを使い、ほぼ MeCabと同様の解析結果を提供する形態素解析プログラムであるigo-phpを利用しています。
※形態素解析に利用している中国語形態素解析辞書は開発者が独自に作成しているものを利用しています。辞書の中身については現在のところ公開予定はありません。
※ピンイン変換の際には頭文字は大文字に、「不」と「一」は変調処理が施されます(準備中)。
2.形態素解析辞書に無いと判断された単語については、未知語と判定され出力されます。この場合ピンインデータがないため、単漢字単位で全ての漢字にピンインをふります。
3.「漢字×ピンイン」表示モードでは多読字については青色で表示します。ここで青色で表示された漢字はクリックすることで登録されている他のピンインに変更できます。
©HINO Yoshihiro, MATSUSHITA Ryosuke
本ウェブサイトを使用してデータを作成し、その結果何らかの不利益・損害を被ったとしても、ウェブサイト管理者及びプログラム開発者は一切の責を負いません。ご了承下さい。
単語 | 出現回数 |
---|