SparkでDataFrameの内容を単一のファイルに保存する
February 01, 2021
posted by issei_m
Sparkで処理したDataFrameをファイルとしてディスクに書き出す際、通常ファイルはパーティションの数分作成されます。 上記の df はパーティション数が3つなので、 /tmp/spa ...
BERTのモデル構造をもう少し詳しく
January 29, 2021
posted by miyamonz
以前にBERTに関する記事を投稿しました BERTについて勉強したことまとめ (1) BERTとは? その特徴と解決しようとした問題、及び予備知識 BERTについて勉強したことまとめ (2)モデル構造について BERTに ...
Ansibleに関するエラーを解消する
January 20, 2021
posted by koji
最近遭遇したエラーについて簡単に解消方法を提示します。小さいトピックなので2つのエラーについてまとめていっきに書いてみます。 HomebrewでインストールしたAnsibleのtmpディレクトリの所有者がrootになって ...
MySQL で一意制約が削除できない
January 19, 2021
posted by 中の人(管理者)
基本: 外部キーに使われているインデックスは削除出来ない MySQL でインデックスを削除するときに、以下のようなエラーメッセージが出る事があります。 普通に読めば、そのインデックスが外部キーによって使用されているので削 ...
分類のための指標(PrecisionとRecall)の解説
December 03, 2020
posted by miyamonz
指標はいろいろあって難しい 私が機械学習の勉強を始めた際に、モデルの性能を評価するための指標というものがあるのを知りました。具体的に言うと、sckit-learnのclassification_reportです。 統計解 ...
AWS の session token を簡単に管理する
November 25, 2020
posted by 中の人(管理者)
トークン取得→設定作業が地味に面倒 先日、こんな issei-m がこんな投稿をしました。 IAM で MFA を強制する方法と CLI での認証方法 – もばらぶエンジニアブログ 今はどこもセキュリティが厳しくなって、 ...
kedroのモデルを読み込むパイプラインにおいて、同じ型のモデルを切り替える
October 27, 2020
posted by miyamonz
kedroのパイプラインで、同じ型のモデルを差し替えて利用する方法を、私が分かった&やってみた範囲で紹介します。 例えば、BERTとELECTRAにおいて、どちらも各々の事前学習モデル(のパラメータ)があるとして文書分類 ...
IAM で MFA を強制する方法と CLI での認証方法
October 20, 2020
posted by issei_m
今関わっているとあるプロジェクトでは、利用している AWS のリソースを操作するすべてのユーザーに対して MFA (多要素認証) を設定する事を義務付けています。 MFA 自体は AWS に限らず、多数の Web サービ ...
Scala の Option, Either とエラー処理
September 24, 2020
posted by 中の人(管理者)
Scala ではエラー処理に使えるクラス・仕組みが沢山ありますが、今回は Option, Either を使った方法を色々紹介します。 前提知識として、Scala の Option, Either を触ったことがあり、基 ...
静的データベースと動的データベース(Spark SQLの小ネタ)
September 23, 2020
posted by koji
このようなデータベースの種類を分ける概念は一般的にはないと思われますが、「Spark SQL」で開発しているとまさに動的だなぁという思いが湧いてくることが多々ありましたので記事にしてみました。(従来のRDBであるMySq ...
kedro触ってみた
September 17, 2020
posted by miyamonz
PyTorchで学習周りのコードを書いてたのですが、今後も検証を勧めていく上で、実験結果の記録やパラメータ変更や複数モデルの比較などをするために、何らかの学習周りのコードを扱うフレームワークを利用しようと思っていました。 ...
BERTについて勉強したことまとめ (3) 自己教師学習と汎用性について
September 16, 2020
posted by miyamonz
前回の続きです。今回はBERTにおける2つのトピック、自己教師学習と汎用性についてです。 自己教師学習 アノテーション 機械学習において、教師ありデータというものの多くは、人間が手動でラベル付をします。例えば犬の画像から ...