ROOM C
8月7日(金)
13:30 - 14:00
【C-10】【プ】SASシステム

Base SASとオープンソースだけで行うテキストマイニングの検討 (MeCab, CaboCha及びWord2Vecの連携について)


株式会社エスアールディ
データマネジメント統計解析室

吹谷 芳博

共同発表者:



ビックデータにおいてテキストマイニングの重要性は高く、医薬品開発のみならず、医療・看護の分野においても有益な情報を抽出するために行われている。SASを用いたテキストマイニングについてはBase SASだけで行われている事例も少ない。その一つの要因として考えられるのが日本語のテキストマイニングでよく使用される形態素解析ツールのMecabや係り受け解析ツールのCaboChaについてPerl, Ruby, Python及びRなどのプログラム言語と連携ができており、事例も豊富であるためだと思われる。そこで今回はBase SASのみでどこまでテキストマイニングが可能かまたはMecabやCaboChaと直接連携して解析できるか検討を行った。その結果、MecabやCaboChaのライブラリーをProc Protoで読み込み、Proc Fcmpで関数定義することで直接処理することができた。またMecaboで前処理したデータをDeep Learningで知られるword2vecについてpythonを返して分析結果を取得することもできた。今回は医療事故/ヒヤリ・ハット報告事例のデータを用いて事例を紹介する。

【発表形式】プレゼンテーション

【チェアマン】第一三共株式会社 山之内 直樹