2019-06-23

2019 5月高雄・弾丸カフェ旅行　カフェ紹介編「猫頭鷹珈琲（フクロウコーヒー）」

お久しぶりです。@heat02zeroです。

先日、弾丸で台湾の高雄へ旅行に行きました。

旅行記も今後書いていく予定ですが、その前に、行ってきたカフェがとても良かったので、単体で紹介しておこうと思います。

自分もネットで調べたりしたんですが、少し変わっていたところもあったので、その辺も紹介できたらいいなと思います。

猫頭鷹珈琲（フクロウコーヒー）

土曜日の朝に行ってきました。MRT高雄駅とMRT美麗島から等距離で、おおよそ駅から十分程度のところです。

朝、一番乗りで訪れると、マスターに中国語で「入っていいよ」という感じで手招きしてもらい、入店しました。日本から来たと英語で伝えると、「日本語通じますよ」ととても上手な言われ、ご厚意に甘えて日本語でお話しさせていただきました。店内は落ち着いたおしゃれな空間が広がると同時に、器具類から、美味しいコーヒーを出す店だなという様子が伝わってきました。

f:id:heat02zero:20190623162127p:plain — 店内。明るくおしゃれな空間でした。

f:id:heat02zero:20190623162222p:plain — 可愛らしいフクロウの本棚。

テーブル席で座っていると、奥さんもいらっしゃって、日本から来たことを伝えると、わざわざきてくれたんだから、カウンター席に座って見て行ってとのことで、カウンター席に座らせていただきました。奥さんも日本語がめちゃくちゃ上手です。

Googleの情報を元にやってきたのですが、間違っていた部分があったので、お伝えしました。営業時間です。2019年5月当時は、土日の営業時間が8時からと掲載されていたので、一度8時に下見に来たのですが、店舗の壁には9時と記されていました（現在はgoogleの情報も修正済み）。思わぬところで、ネットの情報を信用してはいけないことを学びました。そのことを他にも間違う人が出るかもしないので、伝えておきました。

その後、コーヒーを注文させてもらいました。中国語のメニュー表を見て、これは何て読むんですかなどとやりとりをしつつ、まずは浅煎りのコロンビアの氷出しコーヒーをいただきました。とても飲みやすくて美味しかったです。

f:id:heat02zero:20190623162318p:plain — 初めてワイングラスで飲みましたが、いつも以上に美味しく感じました笑

コーヒーをいただきながら、マスターといろいろお話しさせていただきました。自分が超弾丸で高雄に来たこと。コーヒーのお店を回ろうと思ってきたこと。マスターからは、日本に昔住んでいたこと、コーヒーの器具のお話しや、豆の抽出温度等をお話しいただきました。ご好意で、途中途中でいろんな種類の豆を試飲させてもらいました。エチオピアやケニア等、どれも美味しくいただきました。奥さんともたくさんお話をさせていただき、途中で、マンゴーとライチをいただきました。マンゴーは日本で食べるような冷凍マンゴーとは違い、冷凍中に移ってしまう生臭さはなく、味も、マンゴー本来の雑味のない洗練された甘さがとても美味しかったです。例えるなら、完熟のメロンのように、凝縮された甘みだけがすーっと口に広がる感じです。枝つきのライチの方も、日本で見るのとは違って、皮に黒みがなく、新鮮そのものでした。

f:id:heat02zero:20190623162501p:plain — 新鮮なライチ。果肉のぷりぷり感と甘みがすごかった。

f:id:heat02zero:20190623162645p:plain — マンゴーがめちゃくちゃおいしい。次に行った時も絶対に食べたい。

お土産を買っていこうと思っていたので、ドリップパックのセットと、コーヒー豆を購入しました。ドリップパックのパッケージはとても可愛らしいです。豆の方は、試飲させてもらい、パナマのデカフェを飲ませていただきました。

デカフェ、というのは、二酸化炭素で満たした空間の中に豆を入れてカフェインを取り除いた方式のものですが、1番に驚いた点は、その香り、味でした。香りは、完全にダークチョコレートそのもので、本当にこれはコーヒー豆なのか、と最初は混乱しました。試飲させていただくと、風味は、マスターの言うように、「チョコレート8割、コーヒー2割」と行った感じで、チョコレートドリンクの一種です、と言われたら納得してしまいそうです。

f:id:heat02zero:20190623162812p:plain — お土産で買っていったパナマ（左）とドリップパック（右）

その後、周辺のカフェや観光地でお勧めの場所を教えていただき、芸術特区に行くことになりました。その話は、また後日書こうと思います。とても最高だったので、夕方また来ますと告げて、観光に向かいました。滞在時間は一時間弱ほどだったと思います。

夕方、再び訪問させていただきました。目的は、コーヒーもそうですが、夕食を食べるためでした。翌日早朝の便で帰国するため、早寝をするつもりだったので、早い時間に夕食をとる必要があったためです。

f:id:heat02zero:20190623163033p:plain — ホットコーヒーもとても落ち着く味わいでした。

f:id:heat02zero:20190623162940p:plain — 夕食はBLTサンド。めっちゃでかい！　そして、めっちゃうまい。ベーコン分厚い！

毎週、英語の勉強にくる奥様方がいるらしく、日本語の質問などに答えたりしました。

あと、奥さんは英語の勉強をしているとのことで（普通に英語も上手）、同い年ぐらいの常連の方と、奥さんを踏まえ、三人で英語で小一時間話させてもらいました。英語をどうやって勉強したとか、台湾の英語教育って日本と似てるの、とか、食べ物の匂いの話とか（前日近くの夜市に行ったけど、臭豆腐の匂いが苦手で結局台湾のチェーン店で牛肉麺をたべたこと、納豆たべれる？等）、たくさん英語で話させてもらいました。

今度来るときは、英語と中国語も勉強してきます！と約束して帰ってきました。

まとめ

・おしゃれで、コーヒーもとても美味しい

・とてもフレンドリー

・高雄に行ったら是非行って欲しい！

お店について

www.google.co.jp

Facebook

https://www.facebook.com/貓頭鷹咖啡館-203670999688804/

2018-08-04

最近の固有表現抽出のメモ

お久しぶりです。

「固有表現抽出」と「固有表現認識」。今だに、どちらで呼ぶべきか悩んでいる僕ですが、とりあえず、最近の固有表現抽出のメモです。

固有表現抽出の発展（NN~最近）

・[Collobert et al. 2011] : ここからNN手法が進み始めた。

・[Chiu and Nichols 2015] : Bi-LSTMモデル、CNNによる文字ベクトルと、素性の追加

・[Huang et al. 2015, Lample et al. 2016, Ma and Hovy 2016]：Bi-LSTM-CRFモデル

・[Sato et al. 2017, Ye and Ling 2018]：CRF部分の改良

・[Yang et al. 2017]：POS→NER、英語→ドイツ語、CoNLL2003→twitterなどタスク、言語、データの転移学習。前段レイヤーを共有し、後段レイヤーをそれぞれで学習。

・[Peter et al. 2017]：事前学習した言語モデルの出力を入力word embeddingや、前段のLSTMの出力にconcatして後段LSTMに入力。

・[Peter et al. 2018]：[Peter et al. 2017]の改良版。俗に言う「ELMo」です。固有表現抽出を含む、六つのタスクでSOTA。

・[Akbik et al. 2018]：文字単位で、文全体の文脈を見てembeddingを作る(contextual string embedding)。文字レベル、単語レベルも使ってSOTA。

[Yang and Zhang 2018]が最近の手法がすごくまとまっています（ELMo, contextual string embeddingの前まで）。

現在では、RNNモデルを使うことが主流ですが、 CNNでの系列処理の論文も出ているようなので、CNN型のモデルも出てくるかもしれませんね。あと、翻訳ではRNN+attentionだったのが、RNN使わず(self-attention)になってSOTA出ましたし、まだまだモデル側を改良する話は出てくる気がします。

2018/08/18追記

semantic role labelingではモデルの提案があるので、応用できそうですね[Tan et al. 2018 AAAI]

画像情報＋固有表現抽出

画像情報も使って、抽出精度を上げるという論文もありました。

・[Lu et al. 2018 ACL] Bi-LSTM-CRFモデルのLSTMに与える初期ベクトルを、「説明文」と「対応する画像」を用いた visual attention model から作成

・[Zhang et al. 2018 AAAI] Bi-LSTMの隠れ層とVGG-Net 16を用いて作った画像の素性ベクトルからattentionを計算し、隠れ層の値と組み合わせたのち、CRFへ入力

日本語

・[Misawa et al. 2017 ACL workshop] Char-Bi-LSTM-CRFモデル。データは毎日新聞記事コーパス。固有表現クラスは出現頻度の高かった「製品名・地名・組織名・時間」、pre-tokenizeにMecabを使用。

ニューラル固有表現抽出まわりで参考になる実装(github等)

各フレームワークで開発された、知っている限りの実装です。

Chainer：deep-crf

Tensorflow：NeuroNER

Keras：anago

Pytorch：Advanced: Making Dynamic Decisions and the Bi-LSTM CRF (Pytorchチュートリアル)、NCRF++ 、flair

そのほか、思っていること。

残念なのが、手法に関しては高性能なものが出てきた一方で、実タスクへの応用の際に問題になっているのは提供されている（様々なドメインの）日本語のデータがほとんどないことです。shared taskなんかでは、基本的には新聞ベースのフォーマルな記事を対象としているため、基本的な表現（人名・地名・組織名）のアノテーションデータしかありません。一方で、実社会でのデータを対象としたタスクでは、自分たちでデータの選定や、固有表現クラスの定義を行う必要があるため、やはりアノテーションが必要になってきます。多くの企業では自社内でデータ構築を行っているのかもしれませんね。

あとは、単語分割の単位がサブワードに変わるのかどうか、とか。現在の日本語の固有表現抽出では入力の際の前処理として、Mecabなどを使って単語分割してトークン化します。その後、トークンをvector化したり、embeddingを足したりしてNNへ入力しています。もしかしたら、機械翻訳のように単語分割の単位がサブワードに変わる可能性もあるのかなぁ、と。ただ、pre-trainのembeddingも入力しているので、大規模な日本語テキストで効きそうなのかは定かではないです。紹介した論文でも、一応文字単位で、文全体の文脈を見てembeddingを作っていますし、現状ではそれで十分なのかも知れませんね。

以上、メモでした。

まとまっている参考文献とSOTAが紹介されたgitリポジトリ

[Yang and Zhang 2018]：Design Challenge and Misconceptions in Neural Sequence Labeling

NLP-progress/named_entity_recognition.md at master · sebastianruder/NLP-progress · GitHub

気が向いたら追記します。

2017-12-31

今年を振り返って / 読んでよかった小説とか

日記小説紹介

一月にブログを始めてから早くも一年が経とうとしています。適当ながらも、毎月一度更新するルールで記事投稿を続けてきました。今回は今年の振り返りをしようかなと思います。加えて、今年読んでよかった小説の紹介もしようと思います。

ブログの当初の目的は、「少しは需要はある（はずだ）けど、あまり書いている人がいない内容・情報」を書いていこうと、大学院の後期入試（＋α）の記事を書きました。ありがたいことに、反響がけっこうありまして、後輩からも「みてました」なんて声も聞き、書いてよかったなと思いました。

heat02zero.hatenablog.com

学部四年生の頃には想像すらしていなかった、奈良での二年間はあっという間で（こちらはまた三月ぐらいに書けたらいいな）、研究の合間に近畿地方を含む、いくつかの場所に出かけました。奈良の良いところは、交通の便が良いのに観光地でも息苦しさがないところかなと思います。こう、どこか落ち着いた空気が、研究の合間のリフレッシュになったような気がします。南部へ行くほど秘境感が増して、長野とか、北海道にも引けを取らないような自然を満喫できるので、キャンプとか楽しいだろうなと思いました。

heat02zero.hatenablog.com

あと、ブログを始める少し前（ちょうど一年前！）に、年末年始に初めての海外旅行として台湾へ行きました。異国で迎えた新年はとても新鮮でした。写真は割愛していますが、初めての海外旅行記として、行った場所や必要経費、コミュニケーションの必要場面なんかも書きました。一人の時間を作って、電波に頼らず歩いてみる、なんてことも、とても良い経験になりました。

heat02zero.hatenablog.com

あと、今年の大きなイベントとして就職活動を経験しました。学部の頃には就職活動を経験していませんでしたが、受験体験記や、自分のやりたいこと、学んでいる技術をまとめていたことが、結果として就職活動にもうまく活用できました。そのおかげもあって、学部の時には経験できなかったであろう、新しいこともたくさん経験できました。

企業へのインターン/訪問

学部の時は研究所でのアルバイト経験がありましたが、冬のインターンではいわゆるメガベンチャーでのインターンを経験し、「研究」と「開発」、どちらをメインにやりたいのか（自分に向いているのか）、自分がやりたい仕事とは一体なんなのか、社会人として働いていく中で、自分が何を重視するのか、そういった点を現場での実習・開発で学ぶことができました。

ハッカソン

年明けに初めてのハッカソン、翌月には二回目のハッカソンと、様々な分野の人たちが集まり、一つの目標に向かって短期間で取り組むという貴重な経験ができました。新しいつながりができたり、他の分野の人から見た、「自分の研究分野」について知ることができました。こちらも記事にまとめました。

いろんな新しいつながり

活動のために外に出る機会が増えたこともあって、いろんな人と話す機会、新しいつながりや知識を得ることができました。大学院生までくると、自分の周りが同じ分野ばかりになりますが、まったく関わりのなかった分野の人とも知り合いになれたことはとてもよかったなと思います。

heat02zero.hatenablog.com

今年の後半は研究メインでいろいろとやっていました。そちらも今後の自分の仕事に活きるであろう、貴重な時間を経験させてもらっています。最後までしっかりやっていきたいです。

あとは、自分の興味のある分野や研究分野に近い内容のゆるふわ小話をいくつか書きました。この辺の分野の話はまた書くんじゃないかなと思います。

heat02zero.hatenablog.com

最後に、今年読んでよかった小説を紹介して終わりにしようと思います。今年は少ないですが、40冊ぐらい？読みました。

荒野（桜庭一樹）

少女が大人の女性になる。そんな青春時代のすべてを描ききった作品。中学一年生だった幼い荒野が恋を知り、複雑な家庭環境の中で葛藤し、成長していく。思春期の少年の成長は「大きな音が聞こえるか（坂木司）」が思い浮かぶが、少女の成長をしっかり描いている作品はこれだ、という感じ。

ランボー怒りの改新（前野ひろみち）

奈良を舞台にした短編集。今住んでいるところが出ているからという理由で購入した。出てきた人間が短編を通り越してリンクする。三作め・四作め＞一作め＞二作めの順で好き。あとがきにもあるが、この人がこの街に住んでいるのだと思うとなんだかとてもワクワクした気持ちになった。奈良とか近鉄奈良線沿いの人はかなり楽しめるんじゃないかなと思う。

いちご同盟（三田誠広）

自殺を考える主人公と、病床の少女の話。人が必ず死ぬ中で、どうして生きていくのか。とても考えさせられた。比較的短い小説であるにもかかわらず、そのエッセンスみたいなものがうまく詰め込まれてた。

厭世マニュアル（阿川せんり）

マスク依存症の独特なキャラクター（と口調）と、しゃべる「マスク」。読了感が、自分の現状や考え方が主人公の立ち位置か、他の登場人物の立ち位置かによって、良くも悪くもなる、面白い作品。

自由なサメと人間たちの夢（渡辺優）

今年読んだ短編集の中で一番好き。というか、今年読んだ小説の中では一番好き。一気読みしてしまった。夢と現実のはざまにいるような感じなんだけど、どの作品も鋭さも持ち合わせていて、久々にわくわくした（読んで！）。

来年からブログ投稿について

来年の春からは社会人ということで、また生活が変わりますが、適度に何か書き残していければ良いなと思います。たぶん、技術解説とかは自分には向いていないので、今まで通り、自分の興味のあることとか、他の人があまり書いてなさそうなを内容を書いていくと思います。

最後まで読んでいただきありがとうございました。来年もどうぞ、よろしくお願いします。たくさんの人の役に立つ内容は書けないかもしれないけれど、困っている誰かを少しぐらい助けられればいいな、と思います。

2017-11-30

小説の生成の話

雑記

数年前に、コンピュータに小説を書かせようというプロジェクトが始まり、昨年、SF賞に応募したというところまでは知っているけれど、その周辺の話、それ以降の話をあまり耳にしたことがなかったので、最近のこととか、ゆるふわっと調べてみた。

データさえあれば、短（単）文の生成はできている。技術も少し進んだっぽい。

　ここ数年の機械学習の発展と、周辺ライブラリの充実のおかげで、青空文庫とか小説家になろうのデータさえ集めれば、手元のパソコンでも遊ぶ程度の文生成が簡単に試せるようになった。そこそこ最近の例だと、kerasのLSTM（ニューラルネットワークの手法の一つ）のサンプルコードなんかを使って、分かち書きされた日本語の小説データさえ用意すれば、なんちゃって日本語文章生成モデルならすぐできてしまう。

　そこそこ最近の技術面の話だと、ニューラルネットワークの手法の一つのGAN(Generative Adversarial Networks)のさまざまな派生手法が考案されており、文などの系列データに用いることのできるseqGANという手法を使って文生成をおこなってみている人もいたりする。ただし、現在の段階では短文生成がほとんどで、複数文にまたがるような小説生成はかなり少ない。

　あとは、名大の研究室で、人狼ゲームのログから小説生成している研究があり、デモを公開している。この小説はかなりいいところまで来ていそうな感じ（ただし、これはニューラルネットワークとかではなさそうな感じ。物語を細分化し、パラメータによって、その場面の文を生成するシステム。文生成部分はマルコフ連鎖アルゴリズムらしい）。

　たくさんのデータでなんとかしよう系の研究だとMITでは、めちゃくちゃデータを集めてホラー小説（というよりは強い文章なのか？）を書かせる研究もあるらしい。

全く新しい小説を書かせることはやはり難しそう

上に挙げたように、既存の小説生成は、データからデータ内にある情報のみで文を生成する手法か、ルールベースのシステムであることが多く、全く新しい内容の小説を、機械学習などを用いてゼロから生成するというのはやはり難しい（研究をされている方はいらっしゃる）。問題はいくつかあって、学習データに無い情報は書かせることができないこと（学習データだけでは知識や常識に限界があること。例：青空文庫のような著作の切れたような半世紀以上前の小説データではスマートフォンを使った現代的な話は書けない）。複数の文やかなり離れている文の間の関係を捉えるのは難しいこと。表層的な情報からは読み取れないようなことがあること（比喩表現等）、本格推理小説などの論理や推論も難しく、ただ単に推理小説のデータをたくさん集めればなんとかなるやろとはいかない（例：どれだけ推理小説を集めて新しい推理小説を生成してみても、推理小説っぽい文はできるかもしれないが、犯人を断定できる証拠の部分まで考慮して文を生成していくというのは単純な文生成では絶対できない）などが問題の一例としてあげられそう。

まとめ（られていない駄文）的な何か

　事前知識なしでゼロから小説生成させるというのはやはり難しい。この単語は来たから、次はこの単語を生成すればいいんでしょではなく、なにか別の物語の指針や状況と照らし合わせながら文生成（と物語進行とか推論とか）ができるようになる必要がある。その点では、紹介したような、状況をパラメータとして入力する方法や、対話システムのような会話の流れを汲んだ文生成の方法とか、物語の進行を制御するシステムと、そこから与えられた情報を考慮して文生成をおこなうニューラルネットワークの組み合わせなんかで小説生成していくことになるのかなとおもう。ただしその方法では、かなり形式ばった小説を生成することになってしまうので、独創的な小説を書くのはまだまだ先かなとおもう。

　以上のことから、しばらくは小説家がいなくなるというよりも、小説家をサポートする方向に発展していくんじゃないかなと思う。もしくは、以下の参考記事でもありましたが、それぞれの得意な部分を生かし、人間の作家もコンピュータの作家も共存・共作していくのでは無いかなと思う。

文がぐちゃぐちゃなので、気が向いたら直します。

気になった方は調べてみてください。

参考文献

名大　佐藤先生のスライド（とてもおもしろかった）

http://kotoba.nuee.nagoya-u.ac.jp/sc/gw/doc/20160321f.pdf

開発されたシステム

http://kotoba.nuee.nagoya-u.ac.jp/sc/gw2016/

その論文

http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/B1-4.pdf

既存小説に依存せず小説を生成する試みの論文

http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/P4-26.pdf

seqGANを用いた文生成の記事

https://qiita.com/knok/items/5e079420f05ddfc1ae75

プロジェクト松原先生のインタビュー記事

https://persol-tech-s.co.jp/i-engineer/human/hitoshimatsubara

ホラー小説を書かせる研究の紹介記事

http://gigazine.net/news/20171101-ai-shelley-writes-horror-stories/

2017-10-31

オーディオガイドについて思ったこと

絵画雑記

今回もゆるふわ小話です。

つい先日、美術展に行く機会がありました。

2017 大阪で開催されたバベル展（美術展）です。

自分はそこまで頻繁に行くほうではないのですが、有名な絵が観れるというときには、つい足を運んでしまいます。美術展に行って目に入ったのが「オーディオガイド」。ヘッドホンをつけて、聴いて回るアレです。最近では結構進化しているようで、3DSとかアプリとしてもあるようでビックリしました。ルート案内や立体的な解説とかの機能もあるようです。

ルーヴル美術館のオーディオガイド Audioguide Louvre - Nintendo 3DS ™ XL | ルーヴル美術館 | パリ

このように、手軽で、よりわかりやすくガイドをしてもらえると、美術館などの鑑賞ハードルがかなり下がってとてもいいなと思いました。これができてくると、想定される次のステップとしては、やはり、鑑賞する人間が思ったことや気になることをオーディオガイド機器に尋ねたり、対話するということになるでしょうか。

音声対話だとsiriとか。googleにもありますね。ここのところgoogle homeやline clova WAVEなどのスマートスピーカーなどが話題になりました。美術の内容を対話するには何が必要でしょうか。最近ではウィキペディアなどから情報を引っ張ってきて表示することもできるようになっていますが、いろいろと問題はあります。

中でも大きな問題は整備されたデータが少ないことです。一般的なドメイン（たとえば生活全般や旅行など）の対話に必要な固有名詞の辞書や知識ベースは、みんなが頻繁に使うので、ある程度データがたまっていると思います。しかし、今回の美術のようなドメインでは、固有名詞の辞書や知識ベースがまだまだ整備されてないような気がします。

例として、「・・・・・・・・・」って名前のアイドルがあるらしいんですけど、この言葉が「アイドル」であると記述された辞書がなければアイドルを表す固有名詞であると認識することができません（ただし、文が正しく分かち書きされていれば、機械学習などで固有名詞ということまでは当てれるかもしれませんが）。

【全員目隠し、名前は「・」】・・・・・・・・・（←グループ名です）が作る新しいアイドルのルール【卒業のないアイドル】｜ガジェット通信 GetNews

加えて、一般的なドメインでない以上、オーディオガイドを使う人によって、知っている知識の度合いが大きく異なるため、その分野では当たり前の知識であっても、初学者には知らない知識もあるわけです。そういう人のために、専門用語の上位概念や、よりわかりやすい表現、その専門用語に関するさらなる補足知識が必要になったりと、膨大で網羅的な知識ベースが必要になります。絵の分野に関して言えば、絵に関する背景知識、例えば宗教的なものだったり、当時の価値観だったり、絵の技法など、絵そのもの以外に知識が鑑賞の上で重要になっていたりします。例として、ある肖像画には必ず剣が一緒に描かれているものがありますが、これはこの肖像画の人物が斬首されたことに由来する（聖バルバラ - Wikipedia）、という話なんかもあったりします。あとは、軒先に白鳥の旗が出ていれば意味があったり（ヒエロニムス・ボス「放浪者」）。このように、その描かれているものにもさまざまな背景があったりするため、様々な知識を登録したり、引っ張ってこれるようにする必要があります。ある程度であればオーディオガイドが教えてくれるかもしれませんが、基本的には重要な部分だけだと思いますし、自分の気になるところをオーディオガイドでは知ることができないかと思うので、オーディオガイドにたずねることができるようになれば、嬉しい限りです。

長々と書いてしまいましたが、結局のところ、対話するオーディオガイドを構築するには知識がたくさん必要で、まずはそこをなんとかしないと実現は難しいのかなという感じです。

最後まで読んでいただき、ありがとうございました。気になる方は調べてみてください。ちょっとなぐり書きすぎてぐちゃっとしてるので、後日書きなおすかもしれません。

2017-09-30

固有表現タグのお話

個人的な興味として。固有表現抽出というタスクに取り組んでいましたが、固有表現抽出のタグのつけ方について一切疑問を持たずにいました。どのようなタグのつけ方があるのか、簡単（ゆるふわ）に調べてみました。

固有表現抽出とは？

固有表現抽出（認識）
文中の重要語句（固有表現，Named Entity）を抽出する技術。最近では新聞などの一般的なドメインにおいて、ニューラルネットワークを使った手法が高い精度をあげている。Bi-LSTMとCRFを組み合わせたものが主流。

固有表現タグとは？

固有表現が事前に決めた固有表現クラスの中で何に相当するかをタグしたもの。タグには「その固有表現における境界のタグ」と「固有表現クラス」が一緒となっているものが多い。

タグについて

　固有表現に用いられる「境界のタグ」はチャンキングのタスクから来ている。チャンキングとは、文などを小さな構成要素などに分割する処理のことで、固有表現抽出などもこれにあたる。文を文節単位に区切ること該当する（Mecabの分かち書きとか）。

　タグの種類に関しては、現在はおおよそ「BIO」方式か「BIOES」方式の二種類が主で、後者が採用されることが多い。「BIO」方式では固有表現を「Begin」、「Inside」とし、それ以外を「Outside」とタグ付けする。一方で「BIOES」方式では、「BIO」に加え、「End」、「Single」タグを加えている。これによって、マルチワードの固有表現の中間単語と末尾単語、さらに単一の固有表現を区切ることができるようになったため、「BIO」方式に加えて分類精度が向上している。固有表現抽出で提案された当初は「End」は「LAST」、「Single」は「Unit」という名称だったようだが、多分、パッと見のわかりやすさなどから「BIOES」と呼ぶ流れになったのだと思われる。加えて、調べるまでは知らなかったのだが、更に拡張したものもあるらしい（BMEWO+, citeの3番目）。

クラスについて

　最初に固有表現抽出というタスクがMUC(Message Understanding Conference)で始まった時は、情報としての単位が明確な「人名」、「地名」、「組織名」、「時間」、「日時」、「金額表現」、「割合表現」の7種類のクラスだった。それに「固有物名」を加えたIREX(Information Retrieval and Extraction Exercise)の定義は、日本で使われている。さらに、より細かい分類に対応するため、固有表現のカテゴリ数が増やした、拡張固有表現というものも提案されている（citeの4番目）。一方で、一般ドメインで多く用いられる固有表現認識のデータセットCoNLL2003では、クラス数を絞っており、「人名」、「地名」、「組織名」、「その他の固有表現」の4種類のクラスになっている。

　最近では、このような一般的なドメイン以外での固有表現抽出の研究や一般応用なども進められており、医療や生物化学だったり、将棋、アニメ、レシピのような様々なドメインや、WebテキストやSNSなどのノイズの多いテキストを対象としたコンペティション(W-NUT等)も開催されている。

おわりに

最近はWeb textも日々増えていますし、ノイズの多いテキストでも頑健な抽出器ができるとみんな嬉しいですね。ゆるふわに書いてみたので、詳しく知りたい方は調べてみてください。

参考文献（citeの仕方がよくわからなかったのでこのようにしておきます）

チャンキング https://arxiv.org/pdf/cmp-lg/9505040.pdf

BIO -> BIOES https://dl.acm.org/citation.cfm?id=1596399

BMEWO+ Coding Chunkers as Taggers: IO, BIO, BMEWO, and BMEWO+ | LingPipe Blog

拡張固有表現関根の拡張固有表現階層 -7.1.1-

最近の固有表現抽出についても少しまとめてみました

heat02zero.hatenablog.com

2017-08-31

知らない場所へ行こう　大台ケ原（奈良）

奈良登山

七月に奈良にある大台ケ原に行ってきました。

きっかけは二つほど。年一ぐらいで山に登っていて、奈良に来てから葛城山、生駒山には登っているので、そろそろもう少し高い山でもいいかなと。過去には石川県の白山に登ったこともあるので、もう少し登りがいのある山に行きたかったというのもあります。

あとはYoutubeの公式動画を視聴したことです。めちゃくちゃ綺麗だったので、今いるうちに登ろうと思い、足を運ぶことにしました。

www.youtube.com

ターミナル到着まで

近鉄の窓口で探勝日帰り切符の購入。最寄りから大和上市までの近鉄乗車券（往復、特急券含まず）と大和上市から大台ケ原バスターミナルのバス乗車券（往復）とポストカード交換券のセットで、普通に乗車券を買うより千円ぐらい安くなったはず。

最寄駅から、バスの出ている大和上市駅まで移動。特急も出ているので、そちらの方が若干早く到着できます。

問題は大台ケ原までのバスで本数が極めて少ないこと。平日は行きも帰りも一本ずつ。週末は二本ずつとかなり少ないです。バスを逃すと車で行くしかないので、時間的に余裕を持ったプランが必要です。

大台ケ原までのバスの乗車時間は二時間ほどかかるので、事前にトイレ等済ませておく必要があります。大和上市駅にはトイレはありますが、コンビニ等は近くにないので、食事等はその前かターミナルで購入する必要があります。

大台ケ原ターミナルと登山

バスターミナルは一般の駐車場を含め、かなり大きい。大台ケ原は日本でも有数の多雨地帯で、この日も霧がかっていました。気温は七月後半で半袖でちょうどよかったです。

登山口から入ると、前半は比較的ゆるやかな登りでした。最初に山頂へ向かいました。晴れ間がなく、見渡せなかったのが残念でした。続いて、一番有名な立ち枯れた山肌へ。別世界に来たように神秘的な光景でした。イメージ的には霧の晴れ間に現れるマチュピチュでしょうか。晴れていても、霧がかっていても幻想的で素晴らしかったです。まずは山頂へ向かい、その後、断崖絶壁へ。霧だから視界が悪かったものの、かなり怖かったです。そこからはかなり長い下り道でした。下りが終わるとつり橋が。川に下ることができ、水が冷たくてリフレッシュできました。最後の難関は登りの階段でした。先ほど下ってきた分と同じほどの標高を登る必要があり、ハイペースで回っていたこともあって、へとへとになりました。最後の最後で噂の大雨に見舞われたものの、比較的楽しく回ることができました。帰りのバスの一本目出発の三十分前にバスターミナルに戻ってくることができ、コースタイムは三時間弱でした。

まとめ

初心者でも楽しめる山ですが、一周には四時間程度はかかるので、準備が必要。特に雨具や滑りにくい登山靴など準備した方がいいと思います。

景色はとても素晴らしく、特に立ち枯れた山肌は絶景でした。秋には紅葉が素晴らしいので是非行くことをお勧めします。ただし、時間には余裕を持った方がいいです。

僕はまた、旅に出る。

僕はまた、旅に出る。

2019 5月高雄・弾丸カフェ旅行　カフェ紹介編「猫頭鷹珈琲（フクロウコーヒー）」

最近の固有表現抽出のメモ

固有表現抽出の発展（NN~最近）

2018/08/18追記

画像情報＋固有表現抽出

日本語

ニューラル固有表現抽出まわりで参考になる実装(github等)

そのほか、思っていること。

まとまっている参考文献とSOTAが紹介されたgitリポジトリ

今年を振り返って / 読んでよかった小説とか

企業へのインターン/訪問

ハッカソン

いろんな新しいつながり

荒野（桜庭一樹）

ランボー怒りの改新（前野ひろみち）

いちご同盟（三田誠広）

厭世マニュアル（阿川せんり）

自由なサメと人間たちの夢（渡辺優）

来年からブログ投稿について

小説の生成の話

データさえあれば、短（単）文の生成はできている。技術も少し進んだっぽい。

全く新しい小説を書かせることはやはり難しそう

まとめ（られていない駄文）的な何か

オーディオガイドについて思ったこと

固有表現タグのお話

固有表現抽出とは？

固有表現タグとは？

タグについて

クラスについて

おわりに

参考文献（citeの仕方がよくわからなかったのでこのようにしておきます）

知らない場所へ行こう　大台ケ原（奈良）

ターミナル到着まで

大台ケ原ターミナルと登山

まとめ