自然言語処理は、ChatGPTの注目とともに近年最も注目を集めるAIのモデルです。自然言語処理は「Natural Language Processing」と英語で表記され、通称「NLP」と呼称されています。
本記事はAI初心者にもわかりやすく、入門編としてNLPでできることやできないこと、実用例などを紹介しながら仕組みを解説します。
自然言語処理(NLP)とは?わかりやすく解説
自然言語処理は、人工知能(AI)の一分野で、「コンピュータが人間の言葉を理解・解釈し、意味を導き出すことを支援するものである」と定義されています。
簡単に言うと、自然言語処理はコンピュータに音声を聞かせ、テキストを読む能力を提供し、人間とより便利にコミュニケーションできることを実現するものです。
自然言語処理は、言語学、データサイエンス、コンピュータサイエンスの分野を組み合わせて、人間の言語を理解し、操作することができます。
Amazonの「Alexa」、Appleの「Siri」、Googleの「Google Assistant」などのスマートフォンアシスタントが一般的な例です。
≫≫【2023年】AIソリューション9選を徹底比較!種類からおすすめ一覧を解説
自然言語処理でできること
自然言語処理できないこと
自然言語処理の歴史
自然言語処理は、第二次世界大戦後の1940年代に研究が始まりました。当時は、言語翻訳を自動的に行える機械の実現が望まれていました。
同じ頃、1957年から1970年にかけて、「記号論的(ルールベース)」と「確率論的」視点から研究が進められました。
記号的(ルールベース)研究者は、言語学者やコンピュータ科学者が多く、形式言語と構文の生成に重点を置き、確率論的研究者は、統計的、確率論的な手法に関心があり、光学的文字認識やテキスト間のパターン認識の問題に取り組んでいました。
1970年以降、研究者はさらに分裂し、「論理ベースのパラダイム」が登場し、ルールや言語を数理論理学で符号化することに重点を置いていました。テリー・ウィノグラード教授の博士論文「SHRDLU」から特に影響を受けたNLPのプログラムは、ブロックの世界にコンピュータを置き、ユーザーからの指示で、ブロックの操作や質問に答えることができました。
1970年以降は、「談話モデリング」が登場し、人とコンピュータのやりとりを検証し、話者の質問の「あなた」をコンピュータの答えの「私」に変える必要があるなどのアイデアが導き出されました。
こうして1993年までに、自然言語処理を扱うモデルの種類としては、「確率的・統計的手法」が主流になりました。また、近年ではインターネット上の情報が膨大なことから、NLPは「情報の抽出と生成」に重点を置くようになりました。
自然言語処理でできること
自然言語処理(NLP)は、「人間の言葉を読み、理解し、推論する能力を機械に提供すること」を目的としたAIの一分野です。自然言語処理(NLP)は、コンピュータが「人がどのようにコミュニケーションをとるのか」をテキストで理解できます。
また、コンピュータはテキストや音声の単位を理解、解読、分析し、設定を変えて再現が可能です。
例えば、マーケティング担当者がすべての単語やフレーズをコード化し、反復的でエラーが発生しやすい方法でカテゴリーにセグメントする際に、NLPを用いたAIが代行し、割り当てたルールを実行し、与えたデータに基づいて適応することが可能です。
自然言語処理できないこと
NLPでできないこととして、「変化する文脈の中で要素を理解し、モデル化すること」があります。
自然言語では、単語は1つの意味ですが、人間の言葉の世界では、文脈によって異なる意味を持つことがあります。その結果、NLPでは語彙、構文、意味の各レベルで曖昧さが生じ、人間と同等には表現できないことがあります。
研究者たちは、この問題を解決するためにNLPの文脈を評価や、POSタグを導入するなどの方法を試しましたが、フレーズ内の単語の意味を理解することは、依然として未解決の課題になっています。
自然言語処理の主な仕組み
自然言語処理では、コンピュータが人間の自然な言葉を理解するために、感情検出、機械翻訳、スペルチェックなど、繰り返し行う認知的な作業が行われています。
この処理の過程は、いくつかの段階がありますので、本章で解説していきます。
2. 形態素解析
3. 構文解析
4. 意味解析
5. 応用処理
1. 入力データの前処理
NLPでは、そのモデルを構築するテキストデータを準備するために、テキストの前処理が最初に実行されます。
テキストデータはビジネス上の課題を解決するために利用されることが多く、データ分析や予測の前に、データを事前に処理することが必要で、重要なステップになります。
前処理で実行されることに、以下のような例があります。
◾️|句読点などの削除(。, ! $( ) * % @)
◾️|URLの削除
◾️|ストップワードの削除
◾️|下部ケーシング
◾️|トークン化
◾️|ステミング
◾️|レマティゼーション
2. 形態素解析
形態素解析は、「与えられた単語がそれ以上分割することができない最小の意味のある単語」である「形態素」を決定するプロセスです。
形態素には、語源である語幹と、接頭辞、接尾辞、接尾辞などの接尾辞に分けられ、順序も反映されます。
例えば、「私が講演で野球をします」の文章例だと、以下のように形要素解析されます。
私(代名詞)|は(副助詞)|公園(名詞)|で(助詞)|野球(名詞)|を(副助詞)|し(動詞)|ます(助動詞)|
3. 構文解析
構文解析は、入力された文章を文法的な構成要素から分析を行い、品詞や構文の関係性を特定することです。
解析は、「自然言語」「コンピュータ言語」「データ構造」のいずれかの記号列を、正式な文法の規則に適合するように分析しています。簡単に言うと、文章を構成する各単語の関係をツリー型で図式化し、単語の関係性を表現しています。
例えば、「私は海外にいく」という文章では、以下のように解析されます。
4. 意味解析
意味解析は単語、フレーズ、節の配置を含む文の文法形式を分析し、特定の文脈における独立した用語間の関係を決めています。
解析においては、上位・下位概念などの「階層構造」「同音異義語」「多義語」の判断を行っています。以下で事例をご紹介します。
解析項目 | 事例 |
階層構造 | 「スポーツ」という単語は上位語で、「野球」「サッカー」「水泳」などは下位語 |
同音異義語 | 「すみ」の言葉は、「炭」は「木などが炭化したもの」や、「隅」の「部屋の隅にいること」 |
多義語 | 英語の「run」は、「走る」「続く」「経営する」など複数の意味を持つ |
上記のような単語が利用される文章は複数の解釈が生じます。このような場合に、正しい解釈を理解させるためのステップに重要なのが意味解析です。
5. 応用処理
自然言語処理は上記のような4つの前段階の準備や処理を行い実行されています。
近年では、自然言語処理の技術を応用し、さまざまなサービス展開に利用されています。次の章では、技術の応用例をご紹介します。
≫≫【2023年最新】AIチャットボットのおすすめ9選を徹底比較!価格から目的別の活用方法を解説
自然言語処理が活用されている事例
自然言語処理と聞くと難しい印象を抱きがちですが、本章でご紹介する事例を見ると我々の生活で身近に利用されているサービスにも技術が活用されていることがわかります。
よく利用されている5つの事例をご紹介します。
音声認識
テキスト解析
感情分析
検索エンジン
検索エンジンはNLPを使用して、類似の検索行動やユーザーの意図に基づいた関連検索や結果を表示しています。
Googleに入力し始めると、そのクエリに該当する可能性のある人気検索を予測するだけでなく、全体像を見て検索したいことを認識できます。
例えば、Googleにフライトナンバーを入力するとフライト状況が表示され、数式を入力すると電卓が表示されることにもNLPが活用されています。
音声認識
Appleの「Siri」やAmazonの「Alexa」のようなスマートアシスタントは、音声認識によって音声のパターンを認識し、意味を推論して回答します。
「Hey Siri」と声をかけて質問をすると、Siriが言葉を理解し、文脈に応じた適切な答えを返してくれ、照明スイッチや音楽のON/OFFを会話しながら、行う人も増加してきました。
AlexaやSiriのようなアシスタントが、生活に手軽さや便利さを提供し、時にはユーモラスな反応や自分に関する質問に答えてくれることから、好意的に感じる方も増加しています。
機械翻訳
機械翻訳は、ある言語を別の言語に翻訳をするというNLPの歴史上でも実現が求められてきたものの1つです。
近年はNLPを利用した機械翻訳のサービスがいくつも登場し、有名なものの1つに「DeepL(ディープエル)」があります。その名前のとおり、ディープラーニングを利用した言語翻訳のAIサービスを提供しています。
2020年3月には、日本語対応も開始され、これまでの翻訳ツールより高い精度で翻訳を実行してくれることから日本でも人気の翻訳ツールになっています。ディープラーニング技術を利用していることから、利用者が増加し検索数が増えるほど翻訳の精度が向上するのも特徴です。
テキスト解析
テキスト分析は、構造化されていないテキストデータを、言語学、統計学、機械学習のさまざまな手法を用いて分析するための意味のあるデータに変換するものです。
Microsoftの「Azure Cognitive Services for Language」は、クラウドサービスAzure上で提供されているテキスト分析に特化したサービスです。テキスト分析にはNLPが利用されており、様々な言語で学習されたAIのモデルが実装されています。
そのため、利用者自身で大量のデータで学習させる手間が省ける手軽なサービスになっています。Web APIの利用もできるため、ビジネスシーンでは別のサービスとAPIで連携しサービス提供するなどの利用も可能です。
感情分析
感情分析は、センチメント分析とも呼ばれ、入力されたテキストからユーザーがどのような意見や感情を持っているのかを分析するものです。
Amazonの提供する「Amazon Comprehend」は、テキストの背景にある感情を「肯定的」「否定的」「中立的」「混在」などに分類します。例えば、本のレビューでは、「面白かった」「普通によかった」「面白くなかった」などをAIがその他のテキストの内容を読み解きながら、感情を分類してくれます。
このように様々なサービスのレビューを分析し、ジャンル分けし、ユーザーの本音を抽出してくれることから、各種サービスを提供する企業で導入が進んでいます。
自然言語処理の課題と最新の研究実績
自然言語処理は、テキストに含まれる数字や文字列による意味の理解が進められていますが、言葉に包括された感情的な内容の理解は人間のようには実現できていません。特に以下のような問題点が指摘されています。
◾️|文脈に沿った語句や同音異義語
◾️|同義語
◾️|皮肉・嫌味
◾️|アンビギュイティ(曖昧)
◾️|文字や音声の誤り
◾️|口語体・スラング
まだまだNLPには課題はあるものの、NLPを利用した新たな動きや新サービスも続々と登場しています。
2020年1月には、東京都渋谷区に拠点を構えるrinna社が、日本語に特化した13億のパラメータ数を持つ、高性能なNLPモデルライブラリ「Hugging Face」を提供開始しています。このように2020年にGPT-3のモデルが公開後、言語モデルの大規模化を各社行っており、莫大なパラメータ数を有するサービスが増加してきています。
インターネット上に増え続ける膨大なデータの解析は、今後もNLPやAIを利用した技術の発展に繋がり、各種サービスの進展が期待されています。
≫≫【2023年】AI導入事例の最新10選!各業界での活用方法と成功事例を徹底解説
まとめ
自然言語処理には現時点でできることと、改善が期待される課題がありますが、現時点でもさまざまなサービスに技術が活用され、我々の生活に便利さを提供しています。
今後、新しい技術や新しいテクノロジーを利用したサービスが登場し、現在課題とされていることの多くが今後、解消されることが期待されています。
Allied Market Researchのレポートでは、世界のNLP市場規模は2020年に1110億ドルで、2030年には3415億ドルに達すると予測されています。今後もインターネット上のデータの増大や複雑化、各種スマートデバイスの普及率の向上に伴い、NLPの技術の利用が拡大することが予測されています。
一般の消費者も簡単に利用できるサービスも増加していますので、生活の利便性の向上の一環として利用を検討することもオススメです。