AIに関して調査研究を進める上で押さえておきたい専門用語について（初回）

ブームの生成系AIですが、やはり調査研究を進める上では押さえておきたいAI関連の専門用語があります。用語を理解しないまま、わかった気になってやみくもに調査していても勘違いの原因になりますから、今回はそういった用語についてまとめてみましたよ。

これはまだまだ初歩ですけどもね。

AI効果

「AI効果」とは、AIによってもたらされる効果と思いがちですが、違うんです。
AIの仕組みをいったん知ると、「人工の知能ではなく、単なる自動化に過ぎない」と思ってしまう人間の心理のことを言います。実は私自身も最初は勘違いしていましたので、これを最初のワードにしました。

そう、結局ChatGPTも凄いだなんだ、シンギュラリティだ、もう人間は不要だ〜、なんて騒がれていますが、実際には自律思考しているわけではなく、学習データに基づいて最も関連性のある単語を結びつけて文章化しているに過ぎないんですよね、と言うふうに思ってしまうと、これがまさにAI効果です笑。

シンギュラリティ

シンギュラリティ（技術的特異点）とは、AI技術が人間より賢い知能を生み出すことが可能になる転換点です。従って、ChatGPTもAI効果じゃんと気が付いている人もいる現在としては、シンギュラリティはまだきておらず、もっと先なのだと言えます。

弱いAI（特化型AI）

弱いAIとは、特定のタスクに特化して性能を発揮するAIのことです。
では逆に強いAIとはなんでしょうか。

強いAI（汎用型AI）

強いAIとは幅広いタスクにおいて人間のような自意識と自律性を持ち、臨機応変に知的活動を行うAIのことです。

この、汎用型AIって言葉を聞いて連想するのが攻殻機動隊の「タチコマ」ですね。彼らもよく汎用型AIと言っているのを劇作中で聞くかと思いますが、このことだったんですねぇ。

身体性AI

身体性AIとは身体性を持つAIのこと。身体性とはなんのこっちゃと言う話ですが、いわゆる物理的な身体があり、周囲環境との相互作用を行うことによって初めて知能の構築が可能であるという考え方で、カメラで周囲を視覚でき、マイクなどから音声を拾うことができ、移動などができる装置があれば、身体性AIと言え、人型のロボットだけでなく、タチコマなどのロボットもこれに含まれるでしょうね。

チューリングテスト（Turing Test）

チューリングテストとは、実験者が目の前のコンピュータから戻った応答に対して、回答したのがコンピュータだと見抜くことができなければ、「コンピュータには知能がある」と判定するテストのことです。

ChatGPTの回答は、質問や回答によってはコンピュータだと見抜けない人もいるかもしれませんね。

第１次AIブーム

今は何度目のAIブームなのでしょうかね。調べていきましょう。
まず第１次AIブームですが、これは1950年代後半〜1960年代に開発されたAIで、ゲームなどの明確に定義された問題に対して性能を発揮して注目。
しかし、実世界の複雑な問題は解決できないと判明してブームが終わったそうです。

第2次AIブーム

これは主に1980年代に、専門知識を大量に蓄積し、専門家のように応答するエキスパートシステム（特化型AI）が実用化された頃を指します。
主なエキスパートシステムとしては、有機化合物の分子構造を推定する「DENDRAL」、感染症の専門医のように診察を行う「MYCIN」、緑内障の診断支援を行う「CASNET」が実用化されたとのこと。
しかし、この時は膨大な量の知識の整合性と一貫性を保つためのルール整備が困難であることが判明したため、ブームが終わったそうです。知識獲得のボトルネックが課題だったとのこと。

第3次AIブーム

そして2000年以降から現代まで、ビッグデータ時代に伴い機械学習の研究開発が大きく進歩、特に自動的に特徴を抽出できるディープラーニング技術がブレークスルーをもたらしたということです。

そしてこれが生成系AIブームにも続いているというわけです。

教師あり学習

機械学習では教師あり学習という言葉を目にしますね。どういうものでしょうか。

教師あり学習とは、入力データと正解ラベル（教師ラベル）の関係性を見出し、予測値を正解ラベルに近づけるように学習を行うこと。学習データは特徴量と正解ラベルのセットから構成される。

これを用いて行われるタスクは分類と回帰。

教師なし学習

教師なし学習では、学習データに正解ラベルが付かず、特徴が類似するデータをグルーピングすることで正解がないデータの構造を特定する方式のこと。

これを用いて行われるタスクはクラスタリングと次元削減。

次元削減とは・・・

次元削減とは、データの次元数を削減することで、データの特徴を維持しながら、データの複雑さを減らす方法です。高次元のデータは、膨大な情報を含んでいるため、解析や可視化が難しくなることがあります。次元削減を行うことで、高次元データを低次元のデータに変換することができ、データの特徴を維持しながら、データの解析や可視化が容易になります。

次元削減には、主成分分析(PCA)やt-SNE、UMAPなどの手法があります。主成分分析は、データの分散を最大化するように主成分を求め、その主成分によってデータを低次元空間に変換する手法です。t-SNEやUMAPは、低次元空間において、近い点を近くに、遠い点を遠くに配置するように、データを変換する手法です。これらの手法は、次元削減によって、高次元データの解析や可視化を容易にするだけでなく、機械学習の前処理やデータ圧縮などの用途でも活用されます。

ただし、次元削減を行う場合は、データの情報が失われる可能性があるため、データの特徴を保ったまま、十分な次元削減が行われているかを確認する必要があります。また、次元削減を行う際には、どのような手法を用いるかや、どの程度の次元数に削減するかなど、適切なパラメーターの設定が重要です。

強化学習

なんだか学習塾の講習の表現みたいですね。学習続きで混乱しやすいと思いますので、
わかりやすい表現を求めて、ChatGPTさんに聞いてみました。
すると以下の回答をくれましたよ、やはりわかりやすい。

強化学習は、人工知能の分野で、人工エージェントが、ある環境において、自らの行動によって得られる報酬を最大化するように、学習する方法です。強化学習では、エージェントは現在の状態を観測し、行動を選択します。その行動によってエージェントは報酬を受け取ります。この報酬は、目的となるタスクに対して望ましい行動を促すための基準となります。強化学習は、試行錯誤を繰り返すことで、最適な行動を選択するようにエージェントを学習させます。

強化学習は、以下のような要素から構成されます。

エージェント強化学習の主役であり、学習を行う主体です。エージェントは、環境とのやりとりを通じて学習を進めます。
環境エージェントが行動する場所です。環境は、エージェントが観測可能な状態を持ち、エージェントの行動に対して報酬を与えます。
行動エージェントがとることができる選択肢です。行動は、環境とのやりとりを通じて決定されます。
報酬エージェントの行動に対して与えられる数値です。報酬は、目的となるタスクに対して望ましい行動を促すための基準となります。
状態エージェントが観測できる環境の状態です。状態は、エージェントの行動に影響を与えます。

強化学習は、機械学習の一種ですが、教師あり学習や教師なし学習とは異なり、学習データを用意する必要がありません。そのため、強化学習は、実世界の問題に対して、機械学習アルゴリズムを適用することができます。強化学習は、ゲームAIやロボット制御、自然言語処理などの分野で活用されています。

だそうです。
ありがとう、ChatGPTさん。

半教師あり学習

なんとなく、この単語からのイメージとしては、教師ありと教師なしを組み合わせるんでしょうと、連想しましたが、正解でした。

これもChatGPTさんに聞いてみましたら以下の回答をくれました。

半教師あり学習は、機械学習の一種であり、教師あり学習と教師なし学習の両方の手法を組み合わせて利用する方法です。通常、教師あり学習には正解のラベルが必要ですが、ラベル付きデータは集めることが難しい場合があります。そのため、半教師あり学習は、ラベル付きデータとラベルなしデータを組み合わせて学習を行い、より高い精度の予測モデルを作成することを目的とします。

半教師あり学習では、まずラベル付きデータを用いて教師あり学習モデルを構築します。その後、ラベルなしデータを用いて教師あり学習モデルを改善することを目指します。ラベルなしデータを用いた学習方法には、以下のようなものがあります。

半教師あり分類ラベル付きデータを用いて、教師あり分類モデルを構築し、ラベルなしデータを分類するために、分類モデルを拡張する手法です。ラベルなしデータに対して分類モデルが出力する予測ラベルを、信頼度の高いものと低いものに分け、信頼度の高いものをラベル付きデータとして扱います。
半教師あり回帰ラベル付きデータを用いて、教師あり回帰モデルを構築し、ラベルなしデータを回帰するために、回帰モデルを拡張する手法です。ラベルなしデータに対して回帰モデルが出力する予測値を、信頼度の高いものと低いものに分け、信頼度の高いものをラベル付きデータとして扱います。

半教師あり学習は、教師あり学習と教師なし学習を組み合わせることで、データ収集の負担を軽減しつつ、高い精度の予測モデルを構築することができます。

まとめ

自分の言葉でまとめようとしていましたが、調べるのも疲れますね。
そして、最後は悪い癖が出ましたわ、ChatGPTにお願いするようになってしまいました。

でも、ChatGPTを使う方が効率がいいわ、やっぱりこれは利用しない手はない。

自分の勉強にならないこともありますので、難しいところですが、
ここは上手に使い分けて効率的にAIを使っていく能力も試されるというわけですね。

今回の記事が何かの参考になれば幸いです。

生成系AIツール比較（BingGPT4、ChatGPT3.5、GPT4、HaggingChat）でPythonコーディングを試す。

ChatGPTにHackintoshの方法を聞いてみたら・・・