Gemini API

Google は ChatGPT に対抗して生成AIの Gemini を公開しました。Gemini の API を使ってみます。ChatGPT の API については こちら です。

 

アカウント

Gemini の API を使うには Gemini Advanced に登録が必要ですが、次のページによると最初の2ヶ月は無料で使えるようです。

‎Gemini Advanced - get access to Google’s most capable AI model
Be one of the first to access some of Google’s latest AI advancements. Plus, get access to 2 TB storage, Gemini in Gmail...

Gemini 使用にあたってのアカウントは必要なく、Google にログインしていれば使えます。

 

Gemini のキー取得

Google にログインした状態で、下記のページ Google AI Studio にアクセスすると “Get API key” という項目があります。それを選択し、”Create API key” をクリックしてください。このときプロジェクトを指定する必要があります。必要なら新しく作ってください。作ったキーはコピーして安全な場所に保存しておいてください。

Sign in - Google Accounts

 

Python で Gemini API を使ってみる

Python でプログラムを書いて Gemini API を使ってみます。使う環境は Windows なら WSL、Mac ならターミナルが良いと思います。あるいは、API の動作をテストするだけなら Jupyter Notebook を使うのも良い選択ですが、ここでは説明を省略します。

Python で何か新しいことを始めるときは専用の Python 環境を作ってから始めるのが定番ですのでそのようにします。

この環境に OpenAI のライブラリをインストールします。

API キーはプログラムの中には書かずに、環境変数にセットしてプログラムからはそれを参照します。そうすることで、万一プログラムのソースコードが流出しても API キーを守ることができます。

API キーを下のようにプログラムに直接書いても動作しますが、この方法はお勧めしません。

 

hello.py

次のプログラムをサンプルとして使います。8行目で、Gemini に対して日本語で Hello と言うように投げかけています。ファイル名は hello.py としました。

実行します。

ちゃんと回答が返ってきました。

 

chat.py

ひとつだけ質問するのではなく、会話をする方法を試してみます。

実行します。

会話の履歴は history の中に記憶されています。chat.py の最後に次のコードを追加してみてください。

全体を実行します。

 

画像を扱う

lunch.py

次は画像を扱ってみます。画像用の Python ライブラリ Pillow をインストールしておきます。

解析させる画像はこのようなものです。ファイル名は shirasudon.jpg です。

プログラムは次の通りです。hello.py では Gemini のモデルとして “gemini-pro” を使いましたが、画像を扱うには “gemini-pro-vision” が必要です。

実行します。

しらす(whitebait)を認識できることもできないこともありますが、小魚をトッピングした丼だと正しく認識しています。

画像だけでなく、質問も加えてみます。

実行します。

丼とその他の小皿の栄養素が表形式で出力されました。

 

sarin.py

次は古いニュース映像を入力してみます。ファイル名は sarin.jpg です。

プログラムです。

実行します。

1995年のサリン事件と正しく認識してくれました。

 

cats.py

複数の画像を渡すこともできます。日本語の質問も試してみました。

データは次のものです。

実行します。