
中国電力とNTTドコモビジネスの国産LLM活用 ── カスタムLLM構築の鉄則を中小企業目線で読み解く
生成AIブームは「使いこなす」から「自社専用に育てる」段階へ。中国電力の国産LLM活用を入り口に、カスタムLLMづくりの鉄則を解説します。事実の正確さはRAG、振る舞いの調整はファインチューニングと役割を分け、改善前に評価の物差しを固定することが基本となります。中小企業が自社のデータ資産を競争力に変えるヒントになれば幸いです。
はじめに:生成AIブームは「使いこなす」から「育てる」段階へ
2022年末のChatGPT登場以来、日本のビジネス界を席巻した生成AIブームは、いま明確な転換期を迎えている。
初期のブームは、「社内チャットにAIを導入した」「要約やメール作成が便利になった」という、汎用AIをどう使いこなすかというフェーズだった。プロンプトの工夫で何とかする時代である。だが、多くの企業が導入を一通り終えたいま、現場からは別の声が漏れ聞こえてくる。
「一般的な質問には滑らかに答えてくれる。でも、我が社固有の業務マニュアルや、業界の規制を踏まえた書類づくりには、怖くて使えない」
これは中小企業ほど切実だ。汎用LLM(大規模言語モデル)はインターネット上の膨大な知識を網羅しているがゆえに、逆に特定の企業や業界の「ディープな文脈」を知らない。それどころか、もっともらしい嘘(ハルシネーション)を、自社の公式文書に紛れ込ませてしまうリスクすらある。
この限界を越えるために注目されているのが、特定の業界や自社のルールに最適化された「カスタムLLM(特化型LLM)」というアプローチだ。本稿では、その実例を入り口にしつつ、中小企業が自社専用AIをつくる際に何を知っておくべきかを、なるべく地に足のついた形で整理する。
1. 象徴的な実例 ── 電力業界が国産LLMを「自社色」に染める
2026年1月26日、ひとつの象徴的なプロジェクトが発表された。中国電力とNTTドコモビジネスが、NTTの国産LLM「tsuzumi 2」を基盤に、電力業務に特化したLLMの構築と検証を開始したというものだ。
公表されている事実は次の通りである。両社は、法令や官公庁の規制への対応が求められる資料作成・確認業務を対象に、中国電力の社内マニュアルや手引、過去の行政機関への申請書類などを学習データとして収集・加工し、tsuzumi 2に学習させる。そして、中国電力が業務で参照頻度の高い事項をまとめたQA集を作成し、学習前後のモデルにどれだけ正確に回答できるかを比較・分析する。検証は2026年3月末まで行われ、2026年度以降の実用化を目指す。
ここで強調しておきたいのは、これがあくまで「検証の開始」を告げる発表だという点だ。検証結果や、どの技術手法を採用したかといった詳細は、本稿執筆時点では公表されていない。だから本稿は、このプロジェクトを「答え合わせ」としてではなく、「規制の厳しい大企業ですら自社専用AIに踏み出した」という時代の象徴として扱う。
なぜ電力業界がこの道を選んだのか。その理由は、規模こそ違えど、多くの中小企業が抱える悩みと地続きである。
電力業界には「託送」「需要調達」「系統連系」といった専門用語が飛び交い、さらに社内固有の施設名や手続きの略称も無数にある。汎用AIはこれらを一般的な辞書的意味で解釈してしまい、現場の意図とずれた回答を返す。公的機関に提出する書類には、過去の行政指導に基づく独特の言い回しや必須項目という「お作法」があるが、Web上の雑多なテキストで学んだグローバルAIにそれを求めるのは難しい。加えて、経営戦略やインフラの安全に関わる機密データを、無条件に海外のクラウドAIへ投げるわけにもいかない。
専門用語、暗黙のお作法、データの主権。この3つの壁は、規模を小さくすれば、町工場の独自の加工ノウハウであり、地域の商習慣であり、顧客台帳の機密性でもある。汎用AIという「博識だが自社のことは何も知らない外部の人」を雇うだけでは足りず、自社の文脈を理解した「自社専用の脳」が要る。電力大手の挑戦は、その必要性をわかりやすく可視化した実例なのである。
2. つくる前に知っておくべき「最大の誤解」
さて、ここからが本題だ。「自社専用AIをつくる」と聞いて多くの人がまず思い浮かべるのは、「社内のマニュアルや規約を丸ごとAIに読み込ませて、何でも答えられるようにする」というイメージだろう。
だが、ここに最大の誤解がある。
ファインチューニング(モデルの追加学習)は、本質的に「新しい知識を注入する」手法としては筋が悪い。
社内文書をモデルに丸暗記させれば完璧な回答マシンができる、というのは幻想に近い。特定の製品仕様や最新の法令といった「事実知識」をモデルの重み(パラメータ)そのものに焼き込もうとすると、膨大なデータが必要になる割にハルシネーションは消えず、しかも知識が更新されるたびに学習をやり直さなければならない。流暢に、自信満々に、間違える。これがファインチューニングで知識を入れようとしたときの典型的な失敗である。
では、自社専用AIはどうつくるのが正解なのか。実務における鉄則は、役割をはっきり分けることだ。
事実の正確さは「RAG」に担わせる。 RAG(検索拡張生成)は、社内文書やQAデータを検索可能な知識ベースとして外部に持ち、質問のたびに関連箇所を引いてきてAIに渡す仕組みだ。知識が更新されても、検索対象のデータを差し替えるだけでよく、再学習はいらない。「どこから引いた情報か」をたどれるため、嘘も抑えやすい。
ファインチューニングは「振る舞い」の調整に特化させる。 モデルの重みを調整するファインチューニングが本当に得意なのは、知識の暗記ではなく、回答のトーンや敬語のレベル、出力フォーマットの一貫性、業界特有の言い回し、そして「暗黙の文脈や前提」をモデルに馴染ませることだ。
この切り分けを最初に腹落ちさせておくことが、遠回りを避ける最大のコツである。「型番Xの仕様」のような個別の事実は重みに焼かない。一方で、「この種の問い合わせなら、まず施工環境を確認するのが筋」といった、明文化しにくいドメインの思考の型は、ファインチューニングで馴染ませる価値がある。前者は知識、後者は振る舞い、と覚えておけばよい。
ちなみに、規制の厳しい電力業界がRAGを土台に置いている可能性は高い。報道によれば、中国電力はもともと生成AIの活用に取り組む中で、汎用的なRAGだけでは電気事業特有の専門知識や自社固有のルールを十分に反映しきれない場面に直面し、その課題を踏まえて特化型LLMの構築に進んだとされる。つまり「RAGで限界 → 特化で補う」という流れであり、RAGとファインチューニングは対立するものではなく、組み合わせるものだという理解が、ここでも裏づけられる。
3. カスタムLLM構築の「手法」── 選択肢を広く知る
事実はRAG、振る舞いはファインチューニング。この役割分担を踏まえたうえで、「振る舞いの調整」をどう実装するか、代表的な選択肢を広く挙げておく。なお、以下はカスタムLLM構築の一般的な技術論であり、特定企業のプロジェクトで実際にどれが採用されたかを示すものではない。自社で検討する際の見取り図として読んでほしい。
LoRA / QLoRA ── 第一候補 元のモデルの重みを凍結したまま、低ランクの小さな差分行列だけを学習させる手法。QLoRAはさらに4bit量子化を併用してメモリ消費を抑える。数千〜数万件規模の社内QAデータで「応答の型」を整えるなら、まずこれを試すのが定石だ。GPUメモリが小さくて済み、学習も速い。用途や部署ごとに「アダプタ」を切り替えて使い分けられるのも実務的な利点である。
DoRA ── 精度の伸びしろ LoRAの改良版で、重みを「方向」と「大きさ」に分解して学習する。同じパラメータ数でLoRAより精度が出やすいと報告されており、LoRAで一通り検証したあと「もう一伸び」を狙うときの乗り換え先になる。
継続事前学習(CPT)── ドメインの地ならし QAペアではなく、マニュアルや過去文書などの生テキストをそのまま大量に流し込み、その業界の「地の言葉」をモデルに染み込ませる手法。数千万トークン規模のデータが必要になるため手軽ではないが、社内に未活用の文書が大量に眠っているなら、「CPTで地ならし → LoRAで応答を整形」という二段構成が有効になる。
選好最適化(DPO / ORPO)── 次の打ち手 「良い回答と悪い回答のペア」を使って応答の質を整える手法。RAGを運用する中で溜まった「惜しい回答のログ」を活用し、「この公的文書に対してこの言い回しは不適切」といった、ドメイン特有の選り好みを仕込む段階で効いてくる。
中小企業の現実的なスタート地点は、ほぼ間違いなくLoRA/QLoRAだ。いきなりCPTやフルファインチューニングに向かうと、データ整形・学習・評価のコストがかさむ割に、RAGで解決できたはずの問題に時間を溶かすことになりやすい。まずRAGを固め、振る舞いに不満が残ったらLoRAを薄く足す。この順序を守ることが、限られた予算と人手で成果を出す近道である。
4. 成否を分けるのは「評価」── 物差しを先に固定する
手法選びと同じくらい、いやそれ以上に大切なことがある。改善に着手する前に、評価の物差しを固定することだ。
物差しを決めないまま検索精度やモデルをいじり始めると、「変えた」感覚はあっても「良くなった」のか「別の何かが悪くなっただけ」なのか判別できず、改善が運任せになる。中国電力の取り組みでも、業務で参照頻度の高い事項をまとめたQA集を用意し、学習前後のモデルの回答精度を比較・分析するとされている。評価セットを先に用意するという発想は、ここでも一貫している。
自社で評価の土台をつくるなら、最低限おさえるべきは次の3点だ。
第一に、評価セットをつくる。
代表的な質問を集め、それぞれに「本来引かれるべき正解」を人手で紐づける。最初は50〜100問もあれば始められる。重要なのは質問の選び方で、言い換え、表記ゆれ、曖昧な質問、複数のトピックにまたがる質問など、難しいパターンを意図的に混ぜること。簡単な質問ばかりだとスコアが天井に張りつき、改善の余地が見えなくなる。質問は誰かの想像ではなく、実際の問い合わせログから採るのが鉄則だ。
第二に、検索と生成を分けて測る。
RAGの精度は「正しい情報を引けているか(検索)」と「引いた情報を上手く回答に組み立てられているか(生成)」の二段階に分かれる。検索精度を見るなら、正解が上位に含まれているかを測るRecall、正解が何位に来たかを測るMRRといった、検索だけを切り出した指標を使う。最初はこの2つで十分だ。
第三に、評価条件をまるごと固定する。
同じ評価セット、同じ指標、同じモデルのバージョン、同じデータのスナップショット。とくに社内QAは追加・更新され続けるため、評価のたびに中身が変わると比較が崩れる。評価用にバージョンを固定しておくこと。
そして、改善施策は一度にひとつずつ試すこと。埋め込みモデルの変更、キーワード検索の併用、リランカーの導入──複数を同時にいじると、どれが効いたのか分からなくなる。物差しを固定し、ベースラインのスコアを記録し、施策を一つずつ前後比較する。地味だが、これが最も確実に積み上がるやり方である。
ミスの仕分けも有効だ。回答の失敗が「正しい情報を引けていない(検索の失敗)」のか「正しい情報は引けているのに組み立てがまずい(生成の失敗)」のか。前者が多いならRAGの検索精度に投資すべきで、後者が多いならファインチューニングの出番──この切り分けが、次の一手を決めるいちばん確かなシグナルになる。
5. これから起きること ── 中小企業にとっての3つの意味
電力大手のような取り組みが成果を上げたとき、その影響は大企業に閉じない。中小企業の立場から見ても、次の3つの変化が現実味を帯びてくる。以下はあくまで見通しであり、確定した未来ではないが、備えとして考えておく価値はある。
規制の厳しい業種にも、AI活用が広がる。
「ハルシネーションがあるから」と導入をためらってきた金融、医療、法律、自治体まわりの業務でも、「RAGで事実を担保し、ファインチューニングで振る舞いを整える」という型が定着すれば、慎重な業種ほど安心して踏み出せるようになる。その下請けや取引先である中小企業にも、対応が求められる場面が増えるだろう。
「軽量・国産LLM」の経済合理性が高まる。
世界の潮流はAIの巨大化・高コスト化に向かっているが、それを社内システムとして抱え続けるのはコスト的に持続しない。コンパクトで賢いモデルにLoRAなどのアダプタを組み合わせる運用のほうが、投資対効果とセキュリティの両面で中小企業には現実的だ。「大きいほど偉い」ではない選択肢が、はっきりと市民権を得ていく。
自社の「データ資産」の価値が変わる。
これまで、古い社内マニュアルや過去の書類は「過去の遺物」でしかなかった。だがカスタムLLMの時代には、それらが「自社専用AIを育てる燃料」になる。日々の問い合わせ対応、見積もり、過去のやり取り──こうした蓄積をどう整理し、資産化しておくか。その地道な準備が、数年後の競争力を左右する。
結び:AIを「賢い一般人」から「自社の職人」へ
カスタムLLMづくりとは、突き詰めれば、AIという「頭は良いが自社の仕事は何も知らない新入社員」を、RAGという外部資料で武装させ、ファインチューニングという研修を通じて、自社の文脈を理解した「職人」へと育てていくプロセスだ。
そして、その成否を最後に分けるのは、最先端のアルゴリズムではない。「事実(RAG)」と「振る舞い(ファインチューニング)」を明確に切り分ける設計の規律と、自社の業務をいちばん深く知っているベテラン社員が、どれだけ本気で「正しい教訓」をデータとしてAIに教え込めるか──その、いっけん泥臭いコミットメントである。
電力大手の挑戦は、まだ検証の途上にある。その答えが出るのはこれからだ。
だが、答えを待つ必要はない。役割分担の鉄則も、評価の物差しを先に固定するという原則も、規模を問わず今日から実践できる。自社に眠るデータを「未来のAIの燃料」と捉え直すこと。そこから、中小企業それぞれの「自社専用の職人」づくりは始まる。
よくある質問
この商品について質問がありますか?コミュニティや専門家に質問してください。












