Word Mover's Distance(5)Wikipedia の Page データを抽出する

Word Mover's Distance (5) Extracting Page Data from Wikipedia XML Dump 2021/05/22 藤田昭人 前回 はトリプレットを紹介しました。 でも、実際に fastWMD を実行する際には トリプレット・データを取り込んでいるように見えないことに お気づきの方も多…

Word Mover's Distance(4)トリプレット(triplets)

Word Mover's Distance(4) triplets 2021/05/10 藤田昭人 本稿から数回に分けて トリプレット(triplets) について紹介します。 トリプレット(triplets) は fastWMD 論文の評価実験に登場します。 対話システムのコーパスとして 既存の書籍の文面を活用しよう…

Word Mover's Distance(3)fastWMD のビルド(後編)

Word Mover's Distance (2) Building fastWMD (Part 2) 2021/05/06 藤田昭人 前回 に引き続き fastWMD のビルドのサクッとした説明を続けます。 とりあえず Github の fastWMD のページを再掲しておきましょう。 github.com build-project.shを実行する 前回…

Word Mover's Distance(2)fastWMD のビルド(前編)

Word Mover's Distance (2) Building fastWMD (Part 1) 2021/05/03 藤田昭人 前回、 概要を紹介したので、 続けて fastWMD のビルドについてサクッと手短に説明したいと思います。 実はいろいろ試行錯誤があったのですが、 そのあたりを端折って手順をつらつ…

Word Mover's Distance(1)fastWMD ー 高速化の試み

Word Mover's Distance(1) fastWMD 2021/04/29 藤田昭人 本稿では、論文 "Speeding up Word Mover’s Distance and its variants via properties of distances between embeddings" を眺めながら Word Mover's Distance (WMD) の高速化の試みをザックリと紹介…

Word Mover's Distance(WMD)

Word Mover's Distance 2021/04/27 藤田昭人 僕は一度気が削がれると なかなか元の状態に戻れないヤツなのですが…とある キッカケ を掴んでブログ執筆を再開することができました。 ここからの数回は Word Mover's Distance (WMD) について取り上げます。 Bo…

10万というマジックナンバー

100,000 as the magic number. 2021/04/20 藤田昭人 約1ヶ月ぶりのブログです。 実は締め切りの3日前にどうにか確定申告しまして、 その後はボーッと過ごしてました。 ブログを再開するにあたり、 マジックナンバーの話を書きたいと思います*1。 顔芸ベー…

Earth Mover's Distance(2)lpSolveを使ったC実装

Earth Mover's Distance (2)EMD with lpSolve 2021/03/11 藤田昭人 だいぶん間が空いてしまいましたが… 実は Earth Mover's Distance の実装を巡って悪戦苦闘してました。 その顛末をダラダラを書き連ねた記事が予想外に長くなってしまったので、 要点のみを…

Earth Mover's Distance(1)古くて新しいアルゴリズム

Earth Mover's Distance (1)Old but New Algorithms 2021/02/08 藤田昭人 本稿では Earth Mover's Distance というアルゴリズムを紹介します。 このアルゴリズム、Wikipedia 日本語版にはページがないので英語版から引用しますと… In statistics, the earth …

Word2Vec(2)distance.js

JavaScript implementation of Word2Vec 2021/01/27 藤田昭人 本稿は 前回 の続編です。 Googleのオリジナル実装を使うと比較的お手軽に Word2Vec が使えることがわかりました。が、 BookBot は JavaScript 専用 PaaS である Glitch で動いているので(コー…

Word2Vec(1)オリジナルの実装

Original implementation of Word2Vec 2021/01/20 藤田昭人 BookBotの対話機能には欠かせない word2vecに取り組んでます。 この不思議なアルゴリズムの解説は ブログ等で多数見つけられるのですが、 実装を紹介する記事に関しては Python ライブライブラリの…

メモ:Word2Vec

下記は Google Code にアーカイブされているword2vecの オリジナル実装のドキュメント の全文および翻訳です。 ドキュメントというよりはメモといった性格の文書なんですが、 C言語で実装されたword2vecの基本コマンドと 付属するデモスクリプトについて簡…

IMAKITA for nodejs

IMAKITA for nodejs 2020/09/27(初版) 2021/01/05(改訂) 藤田昭人 対話機能の話、まずは道具立てから… もちろん「書籍やブログと(擬似的に)対話する」がコンセプトのBookBotの場合、 返事はできるだけ書籍からの文章をそのまま使いたいところです。 書…

BookBot: Chatbot for reading Book

BookBot:読書のためのチャットボット(英訳) 2020/1/1 Akito Fujita This document has been translated from the Japanese version using DeepL. It's been a very long time. What have I been doing after four months of silence? ...I was making thi…

BookBot:読書のためのチャットボット

BookBot: Chatbot for reading Book 2020/12/31 藤田昭人 大変ご無沙汰してしまいました。 4ヶ月間も沈黙して何をしていたのか? …というとこれを作ってました。 bookbot.glitch.me 多くの人の予想に反して pure JavaScript のウェブ・アプリケーションです…

Remark(5)MeCab による日本語トークナイザー

parse-japanese-mecab: Japanese tokenizer with MeCab 2020/09/11 修正 2020/09/13 藤田昭人 2020/09/13 追記しました ソースコード に誤りを見つけたため修正版に更新しました。 結局、nlcst 構文木は自前で構築することになりました。 すいません。 僕に…

Remark(4)mdast-util-to-nlcstとparse-latin

mdast-util-to-nlcst and parse-latin 2020/09/03 藤田昭人 前回 の調査ではmdast構文木からnlcst構文木への複製は mdast-util-to-nlcst で実装されていることがわかりました。 本稿ではmdast-util-to-nlcst と、その下位にある parse-english、parse-dutch…

Remark(3)remark-retext: プラグイン・チェインの接続点

remark-retext: connection points for plugin chains 2020/08/30 藤田昭人 前回、 ファイルから Markdown データを読み込み(remark-parse)、 Text データへと変換したのち(remark-retext)、 文字列化する(retext-stringify)プログラムを紹介しました…

Remark(2)プラグイン の作り方

Creating a plugin with unified 2020/08/27 藤田昭人 Remark の話を続けます。 ビルディング・ブロックを積み上げて所望の機能を得る Remark では、 やはりプラグインを作らなければ、 その有り難みを本格的に感じることはできないのだろうなぁ…と思います…

Remark(1)何ができる?

about remark/unified framework 2020/08/26 藤田昭人 またまたご無沙汰してしまってますが… 本稿からしばらく、いつもとは趣向を変えて remarkについて集中的に紹介してみたいと思います。 実は本稿はこのブログにポストした30番目の記事になります*1。 …

アラン・チューリングの戦時の最大の成果は何だったのか?

What was Alan Turing's greatest wartime achievement? 2020/08/05 藤田昭人 このところアラン・チューリングに関する話題に執着してますけども… チューリングのネタもまたまた底無し沼でして、 「本稿で一旦区切りを付けよう」と考えて執筆に取り掛かった…

アラン・チューリングは「人工知能を予言した男」だったのか?

Is Alan Turing "the man who predicted artificial intelligence"? (最終)2020/07/03 (追記)2020/06/26 (追記)2020/06/24 2020/07/03 藤田昭人 遅くなってしまいましたが… (再放送の)再放送が終わったのでブログを書きます。 www.nhk.jp 「科学史の…

ローブナー・コンテストの歴史

1990年代のAIのパラダイム・シフトと 100年前の脚気の原因論争と対比して 2020/06/18 藤田昭人 【注意】本稿は僕の思考プロセスをそのまま文に落としてしまいました。長いです。 【注意】長文を読みたくない方は結論だけご覧ください。 在宅勤務を始めて2…

AI(人工知能)の愚かさ

Artificial Stupidity 2020/05/14 藤田昭人 緊急事態宣言は延長されましたが、コロナ感染のピークは過ぎたような… みなさんいかがお過ごしでしょうか? 前回の最後で『人工知能(AI)』という用語について 「21世紀の今日、どうやらこの用語は前世紀の遺物…

「人工知能」か?それとも「知能機械」か?

The bad luck of Alan Turing. 2020/04/29 藤田昭人 巷では「STAY HOME」と叫ばれてますが、 みなさんいかがお過ごしでしょうか? 僕の場合、幸か不幸かELIZA本の執筆時間を融通しやすくなってる訳ですが…問題は他のところで発生してます。ひと言で言えば「…

劇場版「ワンダーウォール」を観た

Wornderwall the Movie 2020/04/11 藤田昭人 とうとう緊急事態宣言が出されてしまいましたが、 みなさんいかがお過ごしでしょうか? さっき劇場版「ワンダーウォール」を観てきました。 昨日 4/10 に出町座で封切られたばかりなんだけど、 時節柄、京都でも…

書籍『チューリングテストの解析』

"Parsing the Turing Test" 2020/03/10 藤田昭人 大変ご無沙汰しております。 ただいまELIZA本の執筆に勤しんでおります。 今回は十分に準備期間を設けたので、 実は「案外スルスルと書けるんじゃないかな?」と思っていたのですが…さにあらず。 溜め込んで…

記事:音声業界のプロ46名からの音声AI 2020予測

某所で教えてもらった voicebot.ai の記事 "Voice AI 2020 Predictions from 46 Voice Industry Pros" の全文を「みらい翻訳」で翻訳してみました。 実は、この記事、最初は原文を読んだんですが、案外見直すことが多くて、その都度同じ単語を何度も辞書引き…

ブライアン・カーニハンとELIZA

Brian Kernighan and ELIZA 2020/02/12 藤田昭人 レギュラースタイルのブログは久しぶりですが… 年明けより ELIZA 本の執筆を本格化しています。 そこで悩ましいことが1つ。書籍執筆と並行してブログが書けるのか?という問題です。 もちろん「ブログは書籍…

報告:ミニ勉強会

報告が遅くなってしまいましたが… 下記で告知した勉強会を開催しました。 告知(4)ミニ勉強会 - "Truth of the Legend" Notes 今回は京都ノートルダム女子大学が定例で行っている教員向けの研修会の時間をお借りしたこともあって、 勉強会の告知は幹事の吉…