教えたURLを学習して覚えた知識で喋るようになるbotを作成する - 多重人格

教えたURLを学習して覚えた知識で喋るようになるbotを作成する

 最近機械学習が熱い。会社の仕事が谷中の谷なので好き勝手自分の特許書いたり興味のあることなりを調べているのだが、ひょんなことから後輩にもらった集合値プログラミングの本を読んでたら感動した。



 amazonのオススメの商品を推薦するアルゴリズムを基本として、分かりやすく機械学習の手法が説明されている。僕のない頭でも実際にプログラミングしてコンピュータに学習させ、推薦の〇〇を出すことができた。予想以上にのめり込み、多分情報系の学部3年生ぐらいの知識は得ることができた。ということで目下、ホームページを見せるとその内容を学習し、それに基づいた思想で喋るTwitter bot作成中である。ざっくり書くと下記のようなロジック。

1.ホームページのURLを教えるとその中身をタグを排除した状態でHTMLで取得
2.取得したHTMLをyahoo apiで単語に分ける
3.単語とその単語が登場した数を記録してベクトル化
4.あらかじめフォローしておいた不特定多数のユーザーのタイムラインの文を一定の数だけ取得
5.取得した文をyahoo apiで単語に分ける
6.twitterユーザーごとに単語とその単語が登場した数を記録してベクトル化
7. 全てのユーザーのベクトル化が終わったら、それをクラスタ分析でクラスタ化
8. 3と一番近いクラスタの中のランダムなユーザーのつぶやきをコピペして呟く

1〜3を繰り返すことで、より呟く単語が似ているユーザーの呟きを選択するようになるので、例えばエロいURLばかり見せればエロいことを言うユーザーの呟きを採用するし、右翼的なURLばかり見せればそういうつぶやきをするようになると。プチAIである。本当は喋る文も自前で生成できればいいのだけれど、それが簡単にできればもっとAI簡単にできているのできっと難しいのであろう。ということでAIの入門編としてこれを2週間で作る。

このエントリーをはてなブックマークに追加

 Y平 (31)

現在:
Androidプラットフォーム開発者。シナリオ作成も趣味でコンテストに
色々応募をしています。人形劇もやっています。

略歴:
2004年〜2009年 名古屋大学で人形劇サークルで活動後、作家を目指すも挫折。
2009年〜 札幌のモバイルの会社に勤めて適当にプログラミングやらに従事。
2012年 ヒューマンアカデミー シナリオライター講座受講。シナリオライターに。
2013年4月、妻と結婚
2015年8月、オモコロライターになる

作品暦:
「えんむすび」 子供映画製作ワークショップ2012最終候補
「思い出はとめたままに」 2012年南のシナリオ大賞 落選
「マリモの人形劇」アニメシナリオ大賞 選考中(2015年4月現在)
「しっくす・パックす!」第22回電撃コミック大賞 選考中(2015年4月現在)
「上から」コバルト短編小説新人賞 選考中(2015年8月結果発表)

好きな作家:
筒井康隆 綿矢りさ 星新一 藤子・F・不二雄 戸塚たくす

その他活動:
ニコニコ動画ゲーム実況一覧
twitter 気軽にフォローしてください→@yhei_hei

mail :
yheihei0126●gmail.com(●を@に変えてね)
↑感想やらお仕事やら日々の呟きやらなんでもください↑

コメント
非公開コメント

No title

すてき!楽しみにしてま~っす

2016-07-13 22:48 | from K平

トラックバック

http://tajuujinnkaku.yhei.net/tb.php/735-8637e8b8