コンピュータ、インターネット、デジタル家電、音楽、書籍など、理系・芸術系人間向けのネタに関する盆栽的 blog です。
記事名 |
![]() |
![]() |
![]() |
|---|---|---|---|
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました(2015/03/13)日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。困ったことに、新語辞書を生成するには上述の元データを使うとても面倒な処理(本文抽出とか、コスト付けとか)を確実に行う必要があります。これがうま |
423 | 127 | 423 |
UniDic に固有表現やUnicode 絵文字などを足す mecab-unidic-NEologd を公開しました(2015/05/29)今年3月中旬 [2015-03-13] に mecab-ipadic-NEologd をリリースして以来、mecab-ipadic-NEologd はとても順調に普及しています。さて、今回は UniDic に新語や固有表現、Unicode 絵文字などを足すことができる mecab-unidic-NEologd を公開しました。mecab-ipadic-NEologd を生成する手法を使っています。https://github.com/neologd/mecab-unidic-neologd/blob/master/README.ja.mdシードデータの性質上、構築されるシステム辞書には国語研短単位の条件を満たさないエントリも入りますので、あらかじめご了承ください。これを MeCab と一緒に使うと要するにこういうことができます。$ mecab -d /usr/local/lib/mecab |
50 | 13 | 50 |
mecab-ipadic-neologd の seed データの4月中旬分の更新が完了 #neologd(2015/04/16)mecab-ipadic-neologd の seed データの4月中旬分の更新作業をしました。前回の定期的な更新扱いの更新は[2015-04-01]でした。4/8と4/13にも更新していたのですが、、今後はそういうのも告知します。- Periodic data update on 2015-04-16 - neologd/mecab-ipadic-neologd-- https://github.com/neologd/mecab-ipadic-neologd/commit/546c4b5e0e2ff335ee0286d55f114da45a7b67bc今回はエントリの更新と同時に、辞書エントリに真に不要な重複エントリがあったのでそれを削除しつつ、追加する価値があるエントリを追加できないでいた場合はそれを足す処理を増やしました。辞書の開発で一番大変なのは、実は新機能を内部で追加した時のバ |
14 | 0 | 14 |
言語処理エンジニアのお仕事情報と関連イベントの参加者を募集します(2019/06/13)このブログ、リニューアルしたいけどできてなくて放置してたのですが、活用するときが来ました。この記事のまとめ自然言語処理(NLP)系のエンジニア・研究者のキャリアを考えるイベントを開催します。その一環で、自然言語処理エンジニアのお仕事の情報を本気で集めます。自然言語処理エンジニアのお仕事がある都内の企業様は僕に情報を送って頂きたいです。(@overlast にTwitterのDMを下さい)詳しくは以下をお読みください。自然言語処理(NLP)系のエンジニア・研究者のキャリアを考えるイベントを開催しますイベントを開催しますので、都内にお住まいの7/10の夜が空いてるNLPerはお越しください。きっかけは試しに以下の様なTweetを雑にしてみたことでした。『自然言語処理エンジニアのキャリアや採用について、一体全体どうしたら良いのか』という題材に関する勉強会を都内で開催するとしたら、どう思いますか? |
13 | 1 | 13 |
mecab-ipadic-neologd の seed データの 2015 年 5 月上旬分の更新が完了 #neologd(2015/05/01)mecab-ipadic-neologd の seed データの 2015 年 5 月上旬分の更新作業をしました。前回の定期的な更新扱いの更新は[2015-04-16]でした。4/18、19、 24と28にも更新していたのですが告知してる場合ではなかったです。- Periodic data update on 2015-05-01 - neologd/mecab-ipadic-neologd-- https://github.com/neologd/mecab-ipadic-neologd/commit/10b6deb8c5e03c64ae4eea0f856a76059cfb60c2前回の定期アップデートからのおもな変更は以下の 4 点です。- 読み仮名が欠損しているエントリを以前より検出、改善可能にした- 既知の「自動詞 + 助動詞」が固有表現になっていたので除去した- 最新のtag(今 |
8 | 0 | 8 |
どんなコードを書いたのか忘れた頃に役立つコメントの書き方(2013/12/21) |
6 | 4 | 6 |
mecab-ipadic-NEologd v0.0.2 をリリースした(2015/06/23) |
5 | 4 | 5 |
日本の県名にマッチする正規表現(2014/01/20) |
2 | 0 | 2 |
Homebrewで「Error /usr/local must be writable」(2017/05/15) |
1 | 0 | 1 |
2015年04月02日 必要なら結論を訂正することの必要性(2015/04/02) |
0 | 0 | 0 |